它还能做什么
-
- 端、边到底是什么
-
- 采集数据集
-
- 最终的贾维斯
-
-
端、边到底是什么,可观 KVM Pro 做什么
可观KVM Pro | 可观Studio |
---|---|
![]() | ![]() |
一般想到从电脑获取图像,键盘鼠标信息,肯定会想到安装软件,这种属于侵入式,需要获得你电脑的一些权限,在一些特定场合,或者特定客户那,出于安全考虑,是不会让你这么做的。那我们又需要这样的信息,怎么办呢?KVM就是键盘、视频、鼠标英文缩写的首字母组合,所以它天然就具备这样的能力。 |
硬件级,免侵入式,获取电脑屏幕及键盘鼠标信息
而且,方便快捷且快速,这种便捷的方式,为它的好机友“可观 Studio、可观 mini、可观 mini Pro”提供了触碰真实世界的“手脚”
拿到屏幕画面,和键盘(你瞧的字)和鼠标轨迹信息,就可以交给“好机友”做分析了。那后面想象空间就很大了
- 分析你的行为,你在做什么
- 解析你的画面,有什么内容元素
- 甚至结合上面二者,就可以让键鼠自动寻找元素,完成一系列操作
采集数据集
我们都知道AI,也听说过大模型,但我们是以消费者,使用者角度去用,对真实大模型的构造,它是怎么出来的,它的能力由什么决定的,可能鲜为人知。
最底层的,大模型的能力,是由它的数据集质量决定的。
也就是说,我们所用到的AI,它都是爬取互联网的内容信息,这些信息参差不齐,如果用优秀的内容训练出来的,肯定比垃圾内容要好,这个容易理解。那这个和我们的产品有什么关系?
我们希望未来可以实现贾维斯,也就是AI自动化,想自动化就需要它认识自动化的环境,那就需要给它准备大量“关于环境”的数据集,比如我需要它自动操作我的电脑,给我用剪映自动剪片子。我需要做什么呢?
- 我需要给它剪映各个功能的截图
- 我需要给它操作剪映时候的动作(什么时间点击了什么)
以上,需要大量的,且尽可能穷尽的提供,那结合开头第一点说的,可观 KVM Pro 的作用,也就知道它对未来我们要做的事情的意义了。
最终的贾维斯
先看一组图
↑ 通过KVM Pro采集原始操作信息
↑ 对多模态大模型数据集(图片、操作行为、轨迹)进行训练
↑ 对多模态大模型数据集(图片、操作行为、轨迹)进行训练
↑ 训练完成一键部署到我们的 可观系列产品中
↑ 通过反复循环上面的过程,让微调大模型形成数据飞轮效应,不断提高模型质量
↑ 微调大模型的“应用市场”
以上是我们对“模型工坊”的一个构想,它和我们最终要实现的贾维斯有什么关系?贾维斯如果想完成全面自动化,它就需要认识每个场景,而每个场景都是一个微调大模型,也就是上面提到的“模型工坊”
想象一下,假如我们有
- 电脑基础操作的模型
- 软件(PS、剪映)
- 家中常用设备的模型(比如你家路由器)
- 办公软件的模型(office表格、文档)
- 甚至一些负责操作软件的模型
那是否我们的AI就可以(半)自动化的完成很多,加上语音交互,这个场景是不是很“贾维斯”
2025年7月27日