03
从 “离身” 智能到 “具身” 智能
智能形态的根本性变革
具身智能(Embodied Intelligence),是人工智能与机器人学交叉的前沿领域,简单来说,就是具有物理身体的人工智能,它能通过身体与环境的动态交互,在感知——动作——反馈中,形成任务技能与环境表征的能力。
中国科学院院士,清华大学人工智能学院院长张钹教授曾阐述过,传统人工智能属于“离身智能”,而“具身智能”强调的是来自智能体身体与周围环境的交互,它不仅仅是具备大脑的功能。

图6
比如像ChatGPT ,虽然它能够聊天,但它拿不起一块糖、一杯水……具身智能,顾名思义,就是让AI拥有一副能看、能动、能感知的身体,让它能够通过感知和试错去学会做事,而不是只在计算机内运算。
换言之,智能体是需要身体与环境的互动的,就像小宝宝通过摔跤学会走路,通过重复性练习,学会如何用勺子,如何使筷子,并从笨拙走向熟练。
它就像是孩子一样,需要先有人“示教”演示,把动作轨迹记录下来,机器人去学习,然后就是强加学习+仿真,这就需要在模拟器里反复试错,算法根据成败给予奖励,然后助其找到稳定策略,再迁移到真实场景中,真正的关键是触觉和力控的闭环,这就需要触觉传感器、力传感器和快速的控制回路等等,比如手在抓东西时能实时修正力度,避免把东西捏碎或滑落,当你看到一个机器人能把东西拿稳,能把衣服叠整齐,这背后是大量的演示数据和仿真反复训练以及实时修正……
从20世纪50年代以来,受限于当时的传感器精度和计算能力,AI 研究长期陷入“离身智能”的局限研究(认知)之中——即认为只要让计算机足够强大,就能仅凭数据和算法实现通用智能,到21 世纪初,随着传感器技术和算力的提升,具身智能才开始从理论走向实践。
04
技术解密
具身智能=实体+小脑+大脑
用这个通俗公式来拆解,虽然太过简单,但这种拟人化的类比,恰好能揭开其核心逻辑:
实体就是身体,小脑等于让具身智能拥有精准行动的 “运动中枢”,而大脑则是决策规划的 “认知核心”。(被咱们大家熟知的宇树机器人春节热舞,就属于“本体+小脑”这类范式……)
一、实体:具身智能的 “物理躯体”,且不止于 “有身体”
就像人的灵魂需要身体做载体一样,实体就是具身智能与物理世界交互的唯一载体。但它绝非简单的机械拼凑,而是 “感知器官 + 执行机构 + 结构骨架” 的有机结合。它的核心使命是 “精准感知环境、可靠执行动作”,如同人类的四肢与五官,是智能落地的基础。
如何能达到这种效果?
1是感知器官:给智能装上 “眼睛”等触觉器官。实体的感知能力依赖多模态传感器网络,就像人类的眼耳口鼻皮肤。像加速进化T1组成的足球战队,每个机器人要靠自己的“视觉”去找到球,还要识别场地的线,还要识别到球门,以及认清自己的队员和对方队员,总之这些感知数据都要给到机器人的大脑,然后让它决策接下来该做什么,是该往前冲还是补到防守位置……
据说特斯拉的Optimus Gen3 搭载了 8 个高清摄像头与指尖触觉阵列(密度超 200 点 /cm²),能同时识别物体形状并感知 0.1N 级的细微力度,这也是它能 “捏鸡蛋不碎” 的关键。
这些传感器如同神经末梢,将物理世界的温度、力度、空间位置等信息转化为数字信号,为 “大脑” 和 “小脑” 提供决策依据。
2是执行的核心部件:让动作从下指令到变执行。如果说传感器是 “输入端”,执行的一系列部件就是 “输出端”,包括关节驱动、灵巧手等核心部件。
媒体材料显示,特斯拉的 Optimus Gen3的手部自由度从 11 个翻倍至 22 个,采用后置执行器设计减轻手部重量,so,能轻松完成叠婴儿衣物这样的超精细操作,处理易碎物体的成功率达 99%……总之,这些设计能让实体从能移动升级为会动作,并从完成任务升级为精准完成任务。
3是结构骨架:平衡性能与场景适配性。实体的结构设计直接决定其适用场景。人形机器人因能适配人类环境成为主流:像加速进化T1,身高约1米1左右,体重大概30公斤左右,全身拥有23个自由度,属于专为踢足球场景设计的小型人形机器人,能完成踢球、俯卧撑、叶问蹲等动作,摔倒了也可以自主爬起来……特斯拉的Optimus Gen3,据公开资料显示,身高与咱们成人接近,大约是1米7左右、体重57公斤,能使用人类工具……
总之各种垂类场景催生了多元结构,比如四足机器狗,可以凭借四肢协同在废墟中攀爬;协作机器人可以用轻量化的手臂实现人机共线作业……
二、小脑:具身智能的 “运动中枢”,实现 “知行合一”
如果说大脑负责 “想不想做”,小脑就负责 “能不能做好”。
(用小脑类比,对应的是具身智能的运动控制层 ,它不处理复杂语义,却要将大脑的抽象指令转化为毫米级精准动作,核心是为了解决机器人的“平衡稳定、动作协调、实时响应” 三大问题。)
“小脑” 的核心竞争力在于对力度和精度的把控,这种控制能力背后是 “解耦式设计” 的突破。特斯拉 Optimus 的指尖触觉传感器能感知物体软硬质地,配合 “小脑” 的力控算法,可实现0.08mm 精度的操作,既能拿起20公斤重物,又能轻捏鸡蛋不碎。越疆 Dobot 的灵巧手则通过12个自由度的协同控制,将螺丝拧转误差控制 0.1mm 以内,比人工操作更满足对工业装配的精度……
而且,人类遇到突发情况会有本能反应,但具身智能的 “小脑” 会达成无需思考的肌肉记忆,比如波士顿的动力Spot机器狗,它在踩空时,能在100ms内,调动腿部关节调整姿态,这种 “条件反射” 式的控制,能让机器人在复杂地形中行走成功率提升。
这种能力的训练,老张在前文也有描述,它源于 “仿真 + 真实” 的训练闭环,如特斯拉是通过 Dojo超算,生成数千万帧工业场景合成数据,让 “小脑” 在虚拟环境中反复练习抓取、搬运等动作,形成类似人类肌肉记忆的控制模型,再迁移到真实场景中优化。
三、大脑:大模型,为具身智能注入“灵魂”
2022年以来,大模型的发展为机器人从“自动化工具”跃升为“具身智能体”提供了关键支撑。当前的大脑核心是多模态大模型与具身推理能力的结合。
传统机器人的“智能”是“碎片化”的,针对单一任务编写特定算法,换个场景就需要重新编程。
而大模型具备跨模态理解、知识迁移和上下文学习能力。研究人员通过“具身微调”让大模型“学会行动”,在虚拟环境中让大模型控制虚拟机器人完成任务,通过强化学习优化动作策略,再将经验迁移到真实机器人。
此外,传统机器人只能执行预设指令,而具身智能的 “大脑” 可以从 “听懂话” 到 “懂意图”。特斯拉Optimus 整合xAI的Grok4.0 模型后,能听懂 “把客厅玻璃杯装满40度以下温水” 这类包含温度、位置、物体属性的复杂指令,还能根据用户情绪调整动作幅度。
谷歌Gemini Robotics-ER 1.5 更实现了 “场景化理解”,接到 “打包行李” 指令时,会先上网查询目的地天气,再决定是否放入雨衣。
这种能力源于 “语言 + 视觉 + 物理” 的多模态融合。大脑不仅处理文本指令,还结合实体感知到的环境信息(如玻璃杯位置、室温)进行综合判断,避免了传统 AI “懂文字不懂现实” 的尴尬。
其次,复杂任务的拆解能力是 “大脑” 智能的核心体现。它能把 “大目标” 拆成 一个个的“小步骤”。
谷歌GR-ER 1.5 在执行 “分拣深浅色衣物” 任务时,会生成清晰的 “思考轨迹”:先识别衣物→分类深浅色→分别折叠→放入对应抽屉,若某一步失败(如抓取滑落),会自动修正策略。
这种规划能力依赖 “世界模型” 的构建。大脑通过实体与环境的反复交互,逐渐建立起 “物体属性——空间关系——因果逻辑” 的知识库,比如知道 “重物需双手搬运”“光滑表面易打滑”,从而规划出合理动作序列……
另外比较重要的一点是跨场景的泛化能力。传统机器人是 “场景绑定” 的专才,而具身智能的 “大脑” 能实现跨场景、跨硬件的能力迁移。
国内智元机器人的 “启元大模型” 能通过人类操作视频自主学习技能,从 3C 电子装配到家庭家务,只需更换实体载体即可快速适配场景。这种泛化能力打破了 “一台机器人对应一个任务” 的行业困境,是具身智能规模化落地的关键(目前这种能力也是研发中的难点和方向……)。
言而总之,具身智能的本质不是三个组件的简单叠加,而是 “感知——决策 ——行动——反馈” 的动态闭环。随着具身智能的发展,当然也有很多人在谨慎观之,但不得不说的是,当 AI 终于有了 “身体” 和 “思维”,它与人类的协作故事才刚刚开始……
05
具身智能形态多样
不止于人形
图7
虽然人形机器人备受关注,但具身智能并非只有 “人形机器人” 一种形态,而是根据应用场景演化出多元化的产品矩阵。
不同形态的智能体,正在各自领域发挥作用。
·人形机器人:作为具身智能的终极形态,人形机器人因能适配人类环境、使用人类工具而备受追捧。目前全球头部产品已形成中美竞争格局。
· 专用服务机器人:如扫地机器人,通过环境感知实现自主作业,成为具身智能最贴近大众的形态;如波士顿动力Spot 已在石油、矿山等领域应用,通过搭载不同载荷完成巡检任务。
· 仿生机器人:像蚂蚁灵波科技研发的如章鱼一样的“软体机器人”,用柔软材料制成,能钻进狭小管道完成检测。
· 微机器人:如Bee++、RoBeetle等微机器人,其智能行为源于结构动力学与环境的物理交互。
· 服务机器人:它也可以并入到专用机器人中,而且目前已经渗透到我们的日常生活中,如在餐饮、零售等场景。服务类具身智能产品已实现规模化的落地……
06
挑战与未来
具身智能的“GPT时刻”何时到来??
07
商业化落地
各行各业头部公司
都在看具身机器人的机会
从国产商业化的角度来看,目前全行业都想做具身智能,只是大家进入这个行业的方式不一样。
数据显示,2025 年全球具身智能市场规模预计达 44.4 亿美元,2030 年将飙升至 230.6 亿美元……啧啧,一片蓝海,谁都想在风口上分一杯羹……
就老张知晓的,几乎各行各业头部的公司,都在找具身的头部公司并在找落地场景,做合作项目,做POC,或在找头部标的的机会,像富士康,包括阿里、京东等国内大鳄,都在这个赛道里投了大量搞具身的公司……
就在十月份,美团、京东都在这个行业里下了重注(不赘述了,大家可以看新闻……),一些腰部的场景方或者说是某些垂直赛道里面的场景方,比如做养老行业的泰康、酒店管理行业或者说制造业,大家也都在找能切到细分行业的头部公司……
(因为大家也意识到一个问题,对于有些企业来说,再不搞机器人,大家都属于制造业,属于落后产能,即使不属于落地产业,一些有野心的大公司、大企业也有很强烈的资本诉求,或朝着具身智能的方向转型,或满足自身企业发展所需,或是业务合作所需,又或是投资并购所需等等,以期更好的发展,更好的市值表现……)
总之呢,八仙过海、各显神通吧,大家都在抢占蓝海,具身智能这个领域已成为了一个全行业都想触碰的超级节点……
附带再八卦几句,有人的地方就有江湖,有江湖的地方就有骗子。随着这个赛道的热度,起码在一段时间内,具身智能这个行业的真话会越来越少,反之神马参数造假呐、性能夸大呐、“自研”套壳呐、订单交换呐……会层出不穷……(也都是之前玩儿剩的套路)……不过,都交给市场那只“无形的手”吧,终有一天当潮水褪去,胜者终会胜出,裸泳者即会淘汰……咳咳……
不聊了,又得吧了五六千字……就此打住…… 88~
文中不妥之处,也请大家不吝赐教、斧正。若有随想感思,也请大家评论区留言。thanks!抱拳!!!