2025-10-03 15:08
千寻智能团队最近搞出个大动静,2025年9月发了篇论文,提出个叫“State-free Policy”的纯视觉方案,直接解决了机器人“换个环境就懵”的老毛病。
其实,之前听行业里人聊,机器人想适应不同空间场景,光采集数据就得砸不少钱,小公司根本扛不住,这次这个方案好像把这道坎给迈过去了。
机器人以前的窘境很明显,以前机器人搞视觉运动控制,比如夹个笔、叠件衣服,都得靠“状态信息”,就是知道自己的机械臂在哪、关节弯了多少度。
这么干是精准,但有个大问题,机器人会死记训练时的轨迹,换个桌面高度、挪下机器人位置,它就手忙脚乱了,跟刚学开车的人换个陌生停车场就慌神儿似的。
而且要让它适应不同场景,得采集巨多数据,听说单次泛化场景数据采集成本就好几十,覆盖10种变化就得花20多万,这成本谁顶得住?
机器人也怕“换环境”?State-free Policy靠纯视觉破局
千寻智能这方案就狠了,直接把“状态信息”给去掉,只靠眼睛看就干活。
我觉得这点特关键,相当于让机器人摆脱了“死记硬背”,学会“灵活应变”。
实际测试里,这方案表现确实亮眼。
比如夹笔进笔筒那活儿,标准桌子80厘米高,换成别的高度,以前机器人成功率直接归零,现在能做到几乎百发百中。
叠衣服更不用说,机械臂位置跟训练时差老远,它照样能把衣服叠得整整齐齐;就连全身机器人从冰箱拿饮料,冰箱挪了位置,它也能找着地方。
这三个场景可不是随便选的,夹笔是小件抓取,叠衣服是柔性操作,取饮料是全身配合,都是机器人常用的活儿,能搞定这些,说明这方案真能落地用。
本来想这方案是不是靠啥复杂技术堆出来的,后来发现核心逻辑其实挺简单,就两个关键条件。
第一个是“相对末端动作空间”,不是让机器人算自己的绝对位置,而是算该动多少,比如往x方向挪1厘米。
其实,这思路跟咱们找路似的,不用记具体门牌,跟着参照物动就行,这样就不用依赖精准的全局位置信息了,换个环境也不怕。
第二个是得让机器人“看全了”,也就是完整的任务观察。

简单活儿比如夹笔,头顶一个主摄加腕部一个相机就够;复杂点的比如叠衣服,得看清楚衣物褶皱和桌面边缘,就给机械臂装俩广角相机,一个在末端上面,一个在下面,视野一下就宽了。
以前机器人靠状态信息补全任务逻辑,现在靠眼睛看全了,反而更灵活。
实验说话,数据少也能行,还能“跨机器”干活
光说不练假把式,千寻智能做的真机实验才叫有说服力。
他们训练数据卡得特别严,桌面高度、物体位置全固定,就是为了证明泛化能力是方案本身带的,不是靠数据堆的。
结果一出来,对比就很明显。
夹笔任务里,以前靠状态信息的策略,换个高度或位置就不行,现在这方案成功率一下就上来了;用了双广角相机后,成功率还能再提一截。
更牛的是数据少也能行,给300条、200条甚至50条演示数据,以前的策略早就崩了,这方案还能保持高成功率。
我觉得这对小团队太友好了,不用再为了采数据砸钱,门槛一下就降了。
还有个惊喜是“跨机器”干活,先在双臂Arx5机器人上训练,再换到人形双臂机器人上,就用100条数据微调,这方案收敛得比以前快不少,成功率也更高。
其实,以前机器人换个机型,得重新调半天状态空间,现在靠视觉适应就行,省了老多事。
搞不清的是,他们还发现移除顶置相机反而更好。
本来以为相机越多看得越全,结果顶置相机因为物体位置变了,视角容易跑偏,比如桌面升到100厘米,顶置相机拍的东西就跟训练时不一样了。
反而腕部相机跟着机械臂动,视角一直对得上,只靠双广角腕部相机,在桌面变高、笔筒加高、笔筒挪位置这些难搞的场景里,成功率都能稳住。
这发现还挺反常识的,不过想想也对,有时候东西多了反而添乱,精简一下更高效。
毫无疑问,这个纯视觉方案确实解决了机器人视觉运动策略的大问题。
不用状态信息,有限数据就能练出强泛化能力,还能降成本、简化硬件,以后家里的机器人能适应不同家具高度,工厂换生产线也不用重新调半天。
这么看来,机器人离咱们日常生活又近了一步,说不定再过阵子,家里的服务机器人、工厂的工业机器人,都能用得上这个方案。