明明外观已经很像人了,但连认出不同杯子并正确拿起,这种简单事都偶尔出错?未来机器人真的能像人一样思考和适应环境吗?


人形机器人的形早就不是难题,难的是藏在背后的大脑

身体比较成熟,但大脑还在幼儿园阶段。.


本文从人形机器人对高智能大模型的需求切入,拆解当前技术进展、未来方向、关键支撑技术及相关企业动态。


获取更多行业原报告资料的梳理解读,请加入知识星球

本文梳理解读原报告


一、高智能大脑

1、形易 智难

(1) 人形形态

早在几十年前,工程师就造出了外观和运动能力接近人类的机器人。

2000年本田推出的ASIMO,还有2013年波士顿动力的Atlas,它们能跑、能跳,甚至能完成一些复杂动作,说明模仿人类外形的工程技术早就成熟了。

(2) 缺自主能力

但这些早期机器人有个大问题:所有动作都要靠人工提前设定。

让ASIMO拿东西,得先给它编好走到桌子前、伸出手臂、夹起物品的固定指令序列。

它没法自己判断桌子上有个滑溜溜的玻璃杯,得轻轻拿,也没法应对杯子旁边有本书挡住的突发情况。

(3) 仿形不仿智

简单说早期人形机器人只是长得像人、动得像人的机器,不是有人类智能的机器人。

它们没有感知环境、理解任务的能力,更没法根据情况调整动作,这就是仿形不仿智,也是它们一直没能大规模落地的关键。

2、多模态大模型

(1) 光有运动能力不够

要让机器人有用,不能只让它会动,还得让它能看、能听、能理解、能决策。

比如你说帮我拿客厅茶几上的红色水杯,机器人得先看懂哪个是茶几、哪个是红色水杯(视觉),听懂你的指令(语言),再想明白该怎么走、怎么拿(决策),最后动手执行(动作)。

(2) 多模态大模型

以前的机器人没有统一的大脑,感知、决策、执行是分开的小模块,配合起来很僵硬。

现在的多模态大模型,能把视觉、语言、动作这三种能力融合到一起,像初级大脑。

比如视觉语言模型能让机器人看懂图、听懂话,再融入动作模态后,机器人就能把理解变成行动。看到水杯、听懂指令,就能自己规划拿水杯的动作。

从LLM到VLM,AI对现实世界感知不断丰富

(3) 大脑和世界互动

多模态大模型的意义,不只是让机器人感知世界,更重要的是让它和世界互动。

机器人拿水杯时,能通过触觉感知力度,避免捏碎杯子;遇到杯子倒了,能自己调整动作先扶起来,这才是智能大脑的价值。

3、初级智能

(1)多在展示阶段

2025年的人形机器人,大部分还停留在展示能力的阶段,在实验室里能完成指定任务,但到了真实的工厂车间、家庭环境,就容易出错。

在实验室里能精准抓取固定位置的零件,到了车间里零件位置稍微偏移,就抓不准了,原因就是智能程度不够。

(2) 初级智能

只要机器人具备初步的智能,比如能在固定场景里自主完成拿零件、放零件,不用人一直盯着调整,就能先在这个场景落地。一旦落地,就能开始收集数据。

(3) 数据飞轮

简单讲数据飞轮就是机器人用得越多,收集的数据越多;数据越多,模型训练得越聪明;模型越聪明,机器人性能越好;性能越好,就有更多场景愿意用它”的循环。

汽车工厂用机器人拧螺丝,机器人会记录每次拧螺丝的力度、角度、是否成功,这些数据能优化模型,下次拧不同型号的螺丝时,成功率就更高。

数据飞轮

4、现在智能水平

(1) 智能分级标准

2024年前后,国内几家机器人创新中心和企业一起,制定了全球首个《人形机器人智能化分级》标准,从感知、决策、执行、协作四个维度,把机器人的智能分成了L1到L5五级。

(2) L2初级阶段

现在大部分人形机器人的智能水平在L2级:能处理简单的多模态信息,比如同时看图像、听指令,能做简单推理,但还不能自主应对没见过的场景。

机器人在A车间能拿圆形零件,到了B车间遇到方形零件,可能就不知道怎么抓了,得重新调试。

(3) 三大门槛

要从L2升到L3、L4,甚至L5的完全自主智能,得突破三个难关:

一是模型能力,现在的模型还不会深度推理,比如零件拿不起来,是因为表面滑还是力度不够;

二是数据,缺乏大量真实场景的高质量数据;

三是算力,训练更聪明的模型需要更多的计算资源。

二、架构、数据

1、架构演进

(1) 早期架构

2022年谷歌推出的SayCan,是较早的机器人大模型架构。它的逻辑是先拆分任务,再选可行动作。

你让它拿水,它会先把任务拆成走到冰箱前、打开冰箱、拿出水瓶,再评估每个步骤的动作是否可行,最后选最靠谱的动作序列。

这种架构的好处是思路清晰,但缺点是感知和执行是分开的,遇到复杂场景容易脱节。

评估打开冰箱可行,但实际冰箱门有点紧,机器人就不知道怎么调整力度了。

SayCan模型架构

(2) 进阶架构

2022年底的RT-1,把感知-决策-执行捏成了一个整体。

它用Transformer模型,把图像+指令变成动作指令,看到冰箱、听懂拿水,直接输出手臂抬多少度、夹爪用多大力度的具体动作,不用中间拆分步骤。

RT-1在厨房、实验室等场景里表现很好,能完成700多项任务,平均成功率达97%,比如打开抽屉、移动物品的成功率超过90%。

但它的缺点是认环境,在A机器人上训练好的模型,放到B机器人上就不好用了,跨平台能力差。

(3) 多模态融合

2023年谷歌的PaLM-E,把视觉、语言、传感器数据都融合到一起,重点提升了推理能力。

你让它把蓝色积木放黄色积木上,它能先推理出得先拿蓝色积木、再走到黄色积木旁边、最后放下,再生成动作指令。

PaLM-E还能举一反三,在桌面场景训练好后,放到移动机器人上,也能完成类似任务。

但它的问题是体型太大,PaLM-E-562B模型有5620亿个参数,推理时需要很多计算资源,没法装在小型机器人上。

(4) 动作融入

2023年的RT2,在PaLM-E的基础上,把动作融入模型。

它会把机器人的动作分成256个区间,每个区间对应一个虚拟词汇,再用语言模型训练这些动作词汇。

这样一来,RT2能直接输出1-5赫兹的动作序列,例如手臂先转30度,再转20度,不用再把决策翻译成动作。

它的泛化能力比以前强,如果没见过的杯子,也能尝试抓取,但动作频率太慢,1-5赫兹的速度,做动作会有点卡顿。

RT2模型训练方法;RT2模型架构

(5) 高频动作

2024年的π0,专门解决动作频率低的问题。

它在多模态模型之外,加了一个动作专”模块,能输出50赫兹的动作轨迹,比RT2快10倍,机器人做动作时更流畅,比如拿水杯时手臂不会一顿一顿。

π0还能用离散余弦变换压缩动作数据,训练速度更快。

但50赫兹还不够,机器人要接住掉落的物品,需要100赫兹以上的动作频率,π0还达不到。

(6) 快慢脑架构

2025年Figure推出的Helix,用了快慢脑设计:慢脑是70亿参数的多模态模型,负责想大事。

理解拿水的任务目标、规划整体路径;快脑是8000万参数的小模型,负责做小事。实时调整手臂动作,输出200赫兹的动作序列。

这种架构的好处是又聪明又灵活:慢脑保证决策正确,快脑保证动作流畅。

2025年测试时,两台用Helix的Figure 02机器人,还实现了协同任务,一台机器人拿零件,另一台机器人组装,这是以前的模型做不到的。

2、三类数据

(1) 数据是燃料

人需要吃饭长身体,机器人大模型需要吃数据才能变聪明。

而且数据要符合Scaling Law,模型参数越多,需要的数据量也越多;数据量够大、质量够高,模型才能涌现出推理、泛化这些高级能力。

大模型的三大Scaling法则对模型性能的影响图

(2) 互联网数据

互联网数据主要是从网上爬的视频。人类做饭、修理物品的视频,特点是量大、便宜,一次能爬几十万小时的视频,成本很低。

它的作用是让模型认识世界,通过看人类拿杯子的视频,模型知道杯子是用来装水的,拿的时候要握杯身。

但缺点是场景不匹配,视频里的杯子多是家用的,到了工厂里的工业杯子,模型可能就不认识了;而且视频没有动作数据,只能看不能学具体怎么动。

(3) 仿真数据

仿真数据是在虚拟平台如英伟达Isaac里生成的,在电脑上建一个虚拟车间,让虚拟机器人拿零件、拧螺丝,收集这些动作数据。

它的优点很明显:成本低、效率高、数据全(能记录虚拟机器人的每个关节角度、力度)。宇树机器人训练双足走路时,先在仿真环境里练,等动作稳定了再放到真实机器人上。

缺点是和现实有差距,仿真环境里没有零件表面有油污、机器人关节有摩擦这些真实情况,模型在仿真里表现好,到了现实中可能出错,这就是Sim2Real Gap。

(4) 真机数据

真机数据是让真实机器人在现实环境里做动作,直接收集的一手数据,让机器人在汽车工厂里拿零件,记录它的动作角度、力度、是否成功。

优点是质量最高,完全贴合真实场景,能直接提升机器人的实用能力。智元机器人的VLA模型,用100%真机数据训练,在工厂里抓取零件的成功率比用仿真数据的模型高很多。

缺点是贵、慢,双足机器人每小时只能收集3-4条有效数据,单条成本快20元;100台机器人一天也只能产8-10万条数据,远远满足不了模型训练的需求。

(5) 仿真+真机

纯用一种数据效果都不好,现在行业里普遍用仿真数据预训练+真机数据微调的模式。

银河通用先用99%的仿真数据训练模型,让模型具备基础的拿东西能力,再用1%的真机数据微调,让模型适应真实工厂的环境;北京人形机器人创新中心则用7:3的仿真和真机数据比例,平衡成本和效果。

三、未来机器人大模型

1、模态扩展

(1) 三模态

2025年的主流机器人大模型,只融合了视觉(看)、语言(听)、动作(动)三种模态,就像人只有眼睛、耳朵、手脚,没有皮肤,没法感知触觉、温度。

机器人拿冰块时,不知道冰块很凉,也没法判断捏得太紧会捏碎,只能靠预设的力度,很僵硬。

(2) 触觉模态:

未来的模型会加入触觉模态,也就是给机器人装触觉传感器,让它能感知拿东西的力度、物品的软硬、表面的光滑程度。

拿鸡蛋时,能通过触觉感知鸡蛋壳的硬度,自动调整力度,不会捏碎;拿毛巾时,能感知毛巾的柔软,用合适的力度抓起。

现在戴盟、帕西尼等公司已经在研发视觉-语言-动作-触觉融合的VTLA模型,未来2-3年可能会落地。

人形机器人具身智能还有多远(多模态、数据飞轮、动捕、虚实融合)

VTLA模型的构架原理

(3) 更多感知能力

除了触觉,未来还可能加入温度、湿度、力觉等模态。在食品工厂,机器人能感知面包的温度,判断是否烤熟;在医院,能感知病人身体的温度,避免碰到时太凉让病人不适。

2、架构升级

(1) 不会推演未来

当前的机器人大模型,只能看到当前、做当前的动作,不会想未来。

机器人看到地上有个障碍物,只会停下来,不会想如果绕到左边,会不会碰到其他东西;

拿杯子时,如果杯子旁边有本书,只会尝试直接拿,不会想先把书挪开再拿。

(2) 能推演、会规划

未来的模型会加入世界模型,简单说就是让机器人能模拟环境变化,推演动作后果。

英伟达2025年发布的Cosmos世界模型,能让机器人根据当前场景,预测如果我做A动作,会发生什么;做B动作,又会发生什么,然后选最优的动作。

机器人要拿桌子上的水杯,世界模型会先模拟:直接伸手拿,会不会碰到旁边的台灯?

如果先把台灯挪开,再拿水杯,会不会更安全?然后机器人就会先挪台灯再拿水杯,而不是硬闯。

(3) 泛化能力

有了世界模型,机器人遇到没见过的场景,也能通过推演找到解决方案。

机器人第一次见带把手的方形盒子,世界模型会模拟抓把手、抓侧面、抓顶部三种动作的后果,最后选最容易成功的抓把手,不用人再教。

3、数据进化

(1) 纯仿真、纯真机

纯仿真数据有Sim2Real Gap,纯真机数据又太少太贵,未来的方向是仿真和真机数据深度融合。

在仿真环境里模拟真实工厂的油污、零件偏差,让仿真数据更贴近现实;再用真机数据反过来优化仿真环境,让两者越来越像。

(2) 批量产好数据

2025年开始,很多企业和机构都在建机器人数据训练场。

天奇股份在无锡建的工业数据采集与实训中心,按真实汽车工厂的工位1:1复刻,能同时让50台机器人训练,收集数据;特斯拉、华为也在建类似的训练场。

这些训练场的好处是数据标准化,所有机器人在同样的场景、同样的任务下收集数据,数据质量统一,模型训练起来更高效;

而且能批量采集,比如训练场一天能收集几十万条真机数据,解决了数据量不足的问题。

(3) 1亿数据

要让机器人大模型实现能力跃迁,需要1亿条高质量的动作轨迹数据。现在的训练场正在朝着这个目标推进,预计未来3-5年能实现,到时候机器人的泛化能力会有质的提升。

四、关键技术

1、动捕系统

机器人的动作很精细,手指关节的转动角度、手臂的移动轨迹,靠普通摄像头根本拍不准。

动捕系统能精准记录这些动作数据,是真机数据采集的基础设施,主要分光学动捕和惯性动捕两种。

2、光学动捕

(1) 原理

光学动捕需要建一个动捕棚,在棚顶装很多高帧率摄像头,在机器人或操控者身上贴反光标记点Mark点。

摄像头实时捕捉这些反光点的位置,电脑再根据多个摄像头的信息,还原出机器人的三维动作轨迹,精度能到亚毫米级,比头发丝还细。

动捕生成的计算机动画

(2) 优点准、稳、好处理

光学动捕的最大优势是精度高,不会有误差累积。机器人做100个动作,每个动作的精度都一样;

而且不受磁场干扰,在工厂里也能稳定工作;数据处理起来简单,不用复杂的算法修正。

(3) 缺点贵、不灵活

光学动捕的成本很高,建一个8-10工位的中型动捕棚,大概要300万元,单工位30万元;

如果是100工位以上的大型棚,成本能降到10-20万元/工位,但总投入还是很大。而且只能在固定的动捕棚里用,不能搬到户外或其他场景。

(4) 代表企业

国外的代表企业是Vicon和OptiTrack,技术成熟但价格贵,是国产方案的3-4倍;

国内的青瞳视觉、凌云光做得很好,比如青瞳视觉的CMAvatar3.0系统,能捕捉四足动物和复杂道具的动作,还和原力合作优化了解算器,数据处理效率更高;

凌云光的FZMotion系统,已经服务于优必选、小米等头部机器人企业,国内市占率第一。

3、惯性动捕

(1) 原理

惯性动捕不用建棚,而是让机器人或操控者穿戴惯性测量单元IMU。

里面有加速度计、陀螺仪、磁力计,能记录动作的加速度、角速度、方位角。这些数据传到电脑后,就能还原出三维动作。

(2) 优点灵活、便宜

惯性动捕的最大优势是不受空间限制。在工厂车间、户外都能用,给工人穿惯性动捕服,工人在生产线操作时,就能实时记录动作数据。

不用专门去动捕棚。而且成本低,一套设备几万到十几万元,比光学动捕便宜很多。

(3) 缺点精度差

惯性动捕的精度不如光学。机器人连续做10个动作,误差会慢慢累积,最后动作轨迹会跑偏;

而且容易受磁场干扰,比如在工厂里靠近电机,数据就会不准;穿戴起来也有束缚感,可能影响动作的自然性。

(4) 代表企业

国外的Xsens是惯性动捕的标杆企业,产品覆盖IMU模组、穿戴式系统,宣称能全条件抵抗磁干扰,配合Motion Cloud能在云端处理数据,减少50%的后期清理时间;

国内的诺亦腾也有类似产品,比如PN3 Pro,售价约4.58万元,适合中小规模采集需求。

五、重要企业

1、模型端企业

(1) 银河通用

银河通用2023年成立,核心方向是具身多模态大模型。它走的是全仿真数据预训练路线。

用自研的仿真平台生成视觉-语言-动作数据,预训练数据占比99%以上,成本很低;然后用少量真机数据微调,让模型适应真实场景。

它发布的GraspVLA模型,是全球首个完全用合成数据预训练的VLA模型,训练数据有十亿帧,能零样本适应未见过的场景;

首款机器人Galbot(G1),用可折叠单腿+轮式底盘,能在工厂里做拿零件、放零件的泛化任务。

(2) 星动纪元

星动纪元孵化于清华大学,是国内首个实现一个模型做多个任务的公司。

它的核心模型ERA-42,用了快慢脑双系统,慢脑负责高层决策,快脑负责实时动作,还融入了世界模型,能预测未来动作轨迹。

它的五指灵巧手XHAND1,靠ERA-42能完成100多种精细操作;还和清华大学合作发布了AIGC生成式模型VPP,用互联网视频训练,能让机器人像Sora生成视频一样生成动作,大大减少对真机数据的依赖。

(3) 智元机器人

智元机器人核心模型是GO-1,用了ViLLA架构,融合多模态模型和混合专家系统,VLM负责感知,MoE里的隐式规划器负责动作规划,动作专家负责精细执行。

它的特点是全真机数据训练,模型在真实工厂里的实用性很强;

发布了全球首个机器人动作驱动的世界模型EVAC,能模拟机器人与环境的交互,还有评测基准EWMBench,填补了世界模型评测的空白。

2、数据采集企业

(1) 青瞳视觉

青瞳视觉是国内光学动捕的龙头,核心产品是CMAvatar动捕系统,最新的3.0版本能捕捉四足动物、复杂道具的动作;

和索尼中国研究院合作推出CMVolcap三维重建系统,精度达毫米级,能和动捕系统联动,采集更全面的数据。

它的高端相机K26,分辨率和捕捉距离远超传统相机,数据采集到动作生成几乎不用人工干预,效率很高,适合机器人的精细动作采集。

(2) 凌云光

凌云光的核心动捕产品是FZMotion,亚毫米级精度,服务于优必选、小米等企业,国内光场重建与动捕系统市占率第一。

2025年一季度,它的动捕业务带动营收同比增长38.57%,净利润扭亏为盈。

除了动捕设备,它还自研了视觉大模型。F.Brain平台,能做AIGC生成、智能化标注;

LuserLVM工业视觉大模型,能在3C、锂电等行业做质检,提升数据处理效率。

(3) 奥比中光

奥比中光是国内3D视觉龙头,全面布局了结构光、iToF、dToF、双目视觉、激光雷达五种技术路线,能根据不同场景选最优方案。

它的Gemini系列双目3D相机,毫米级深度感知,能用于机器人避障、物流分拣。

它自研了MX系列深度引擎芯片,这是3D视觉的大脑,能降低成本、提升性能,为机器人的视觉感知提供稳定支持。

3、训练场企业

天奇股份是汽车智能制造装备龙头,和优必选、银河通用合作,把汽车工厂变成机器人训练场。

在极氪5G智慧工厂,部署Walker S1机器人做车身质检,累计采集2.3万条轨迹数据,模型迭代后误检率从3%降到0.7%;

在比亚迪长沙工业园,形成了全球首个“人形机器人+无人物流车”混场作业数据集。

它在无锡建的工业数据采集与实训中心,占地6000平方米,按真实汽车工位1:1复刻,能同时容纳50台机器人训练,数据采集效率很高。

六、方向

(1) 模型端

模型端是机器人大模型的核心,关注有技术壁垒、落地能力强的企业。

全仿真数据路线的银河通用、双系统+世界模型的星动纪元、全真机数据训练的智元机器人。

(2) 数据采集端

数据是模型的燃料,数据采集设备是燃料生产工具,关注光学动捕龙头青瞳视觉、凌云光,以及3D视觉龙头奥比中光。

随着训练场建设加速,这些企业的设备需求会持续增长,业绩有较强支撑。

(3) 训练场端

标准化训练场是未来数据采集的核心载体,关注有场景优势的天奇股份。

它依托汽车工厂的场景,能快速落地生产线即训练场模式,数据质量高、落地速度快,有望成为工业机器人数据采集的标杆。

七、未来机器人生活

1、工厂里

未来3-5年,人形机器人会先在汽车工厂、电子工厂落地,做重复、单调、危险的工作。

汽车车间里拧螺丝、搬零件,电子工厂里组装手机零件。这些工作不用机器人有太高的智能,初级智能就能胜任,还能24小时不停工,提升工厂效率。

天奇股份和优必选合作的Walker S1机器人,在极氪工厂做车身质检,误检率已经降到0.7%,比人工质检更稳定;

未来还会有机器人做喷漆、焊接这些对人体有害的工作,减少工人的职业伤害。

2、家庭里

未来5-10年,随着模型智能提升,人形机器人可能走进家庭,做扫地、擦桌子、拿东西这些琐碎家务。

老人行动不便,机器人能帮忙拿药、递水杯;上班族下班回家,机器人能帮忙收拾客厅、准备简单的饭菜。

不过家庭环境比工厂复杂,家里的杯子、碗种类多,机器人需要更强的泛化能力;

还要和人互动,需要更好的语言理解能力,这需要模型在多模态融合、世界模型上有更大突破,短期内还没法完全实现。

3、特殊场景

在医疗、救灾等特殊场景,人形机器人也会发挥作用。比如在医院里,机器人能帮忙搬运医疗物资、给隔离病房的病人送饭菜,减少医护人员的感染风险;

在地震救灾现场,机器人能进入倒塌的建筑里搜救,比人类更安全、更灵活。

这些场景对机器人的智能要求更高,需要机器人能应对未知环境。

救灾现场的建筑结构复杂,机器人需要自己规划路径、避开障碍物,这需要世界模型和泛化能力的成熟,可能需要10年以上的时间。



#artContent h1{font-size:16px;font-weight: 400;}#artContent p img{float:none !important;}#artContent table{width:100% !important;}