又是几日只字未写……昨晚归途中,边开车边听播客,咿,一则关于对加速进化CEO——程昊的访谈,引起了老张的注意(时下具身智能领域,火的不得了,程昊他是主打搞人形机器人踢足球细分赛道的……)于是乘兴八卦几句……

01 
机器人“国足” 
问鼎世界杯
中国具身智能反超!
上一次关注加速进化,还是七、八月份的时候。
当时看新闻,国产机器人在RoboCup中夺冠!(这是28年来,中国机器人足球赛历史上的首次夺冠!)
图1:图片来源网络

视频来源网络
后来老张还专门找了赛事视频一看,对比之前,机器人表现相当之皮实,不再需要人来保护,而是真摔真打,也抗摔抗撞,“队员们”表现的相当稳健……啧啧……
其中,火神队用的人形机器人就是加速进化的Booster T1(包括亚军农大山海队的机器人) ;程昊亦是清华火神队的前队长。

为啥用“稳健”这个词形容???
因为这里面涉及到机器人需结合人类的运动数据+仿生强化学习,以实现其全身的协调运动,以及和传感器的融合,包括如何在动态环境下精准地进行视觉定位以区分敌我双方、判断球的位置等等…这两年的技术进化确实是一日千里……啧啧……)
这台播客专访,大概80min,主题是围绕人形机器人在踢足球这个非常垂类的细分场景下的技术进展、应用前景等等。
主持人和程昊聊的不错,程昊也非常之坦诚,当然,让老张感兴趣的点是,踢足球作为具身智能(运动+决策+导航)的一个最小可行产品(MVP),而程昊作为有清华背书的这一领域的资深玩家,他对其商业化、平台化战略的布局和思考……此处省略一万字,不多赘述,感兴趣的盆友可以登录“小宇宙”播客平台,去听一下——《对话加速进化程昊:不会踢足球的机器人不是好机器人》,哈哈……内容有点儿干货……啧啧……
从今年伊始,具身智能领域火的不得了(让大家广而知之的就是宇树机器人在春晚的热舞),尤其是商用机器人,投资蹭蹭往上涨,之前是机器人硬件靠产业资本推,现在大家不光看硬件,更着重技术和算法是不是够牛掰——当AI终于有了“身体”,大家看到的是下一个时代的交互入口!


图2:春晚宇树机器人扭秧歌 

也是因为听了这台播客,让老张思绪翻飞,so,一颗碎碎念的心被唤起,赶快叭叭几句,哼哼……


02
Tesla的Optimus:
人形机器人的’iphone’时刻? ?

就在最近,老张看新闻,特斯拉旗下的人形机器人Optimus(擎天柱)Gen3即将推出,它将实现全能家用,也就是说,花2W刀就可以买一个机器人保姆……

视频来源网络

另外,挪威的机器人巨头1X也刚刚推出了家用人形机器人NEO,售价也是2W刀(约合人民币14.2W),订阅每月是499刀(约3542元),首批订单锁定明年交付……

家用人形机器人即将进入生活场景?人们只需人机语音交互或按键指令,就可是指挥机器人叠衣服、整理物品、识菜谱做饭等……而且它还能尝试学习新技能……

不过,据老张所知,或许广告中的Demo确实让人鸡冻,但真正实现自主性目前仍是人机交互领域的最大难题……或许,无论是Optimus还是NEO,或是其他家用机器人,背后仍然需要员工远程进行操控以积累数据??猜测而已……不过说实话,随着技术的各种加持和迭代,这已经成为一个方向……这不得不让作为一枚丁克的老张有些鸡冻……哈哈……

视频来源网络

其实,机器人并不是一个新概念,70年前,人类第一台工业机器人Unimate在1954年诞生,它通过液压驱动来完成抓取、焊接等重复动作。

图3:图片来源网络

(这里面就涉及到机器人技术的进化历程,老张以衣带水的快速串一下:从1950s至1990s,属于第一代的机器人,它们是以工业机械臂为代表的,它没有大脑,核心是运动控制,用于替代危险、重复性劳动。同时,它智能执行预设程序,对外界变化无反应。

到21世纪初,本田于 1997 年发布了 ASIMO双足机器人,并于2000年推出首款原型机,它能识别障碍物,可以规划行走路径。

图4:图片来源网络

(从1990s到2000s左右,机器人发展进入到第二阶段,尤其是随着传感器技术的发展,机器人开始能感知环境。扫地机器人通过红外和碰撞传感器感知环境并自主清扫。这一阶段的机器人实现了感知—执行闭环,但智能仍局限于特定场景。

从 2016 年到 2017 年,AlphaGo 成为连续战胜围棋世界冠军的AI机器人……

图5:图片来源网络

(从2010年至今,也就是进入第三阶段,移动互联网和深度学习让机器人升级为“与人交互协作智能体”。它们能通过语音、图像与人类交互,甚至完成简单决策。但智能仍依赖预设规则和云端计算,缺乏自主学习和环境适应能力。

如今,特斯拉(Tesla) Optimus Gen2 用 22 个自由度的灵巧手能稳稳接住网球,波士顿动力 Atlas 在复杂地形灵活跳跃……具身智能 这一技术浪潮加速变为现实,成为代表 AI 领域的下一站,亦在重塑着人类与物理世界的交互方式。


03

 “离身” 智能到 “具身” 智能

智能形态的根本性变革

具身智能(Embodied Intelligence),是人工智能与机器人学交叉的前沿领域,简单来说,就是具有物理身体的人工智能,它能通过身体与环境的动态交互,在感知——动作——反馈中,形成任务技能与环境表征的能力。

中国科学院院士,清华大学人工智能学院院长张钹教授曾阐述过,传统人工智能属于“离身智能”,而“具身智能”强调的是来自智能体身体与周围环境的交互,它不仅仅是具备大脑的功能。

科技颠覆!具身智能帮助人类颠勺炒菜、叠衣服、遛狗、催奶、拍嗝、半夜哄娃、扫地、照顾老人……

图6

比如像ChatGPT ,虽然它能够聊天,但它拿不起一块糖、一杯水……具身智能,顾名思义,就是让AI拥有一副能看、能动、能感知的身体,让它能够通过感知和试错去学会做事,而不是只在计算机内运算。

换言之,智能体是需要身体与环境的互动的,就像小宝宝通过摔跤学会走路,通过重复性练习,学会如何用勺子,如何使筷子,并从笨拙走向熟练。

它就像是孩子一样,需要先有人“示教”演示,把动作轨迹记录下来,机器人去学习,然后就是强加学习+仿真,这就需要在模拟器里反复试错,算法根据成败给予奖励,然后助其找到稳定策略,再迁移到真实场景中,真正的关键是触觉和力控的闭环,这就需要触觉传感器、力传感器和快速的控制回路等等,比如手在抓东西时能实时修正力度,避免把东西捏碎或滑落,当你看到一个机器人能把东西拿稳,能把衣服叠整齐,这背后是大量的演示数据和仿真反复训练以及实时修正……

从20世纪50年代以来,受限于当时的传感器精度和计算能力,AI 研究长期陷入离身智能”的局限研究(认知)之中——即认为只要让计算机足够强大,就能仅凭数据和算法实现通用智能,到21 世纪初,随着传感器技术和算力的提升,具身智能才开始从理论走向实践。

04

技术解密

具身智能=实体+小脑+大脑

用这个通俗公式来拆解,虽然太过简单,但这种拟人化的类比,恰好能揭开其核心逻辑:

实体就是身体,小脑等于让具身智能拥有精准行动的 “运动中枢”,而大脑则是决策规划的 “认知核心”。(被咱们大家熟知的宇树机器人春节热舞,就属于“本体+小脑”这类范式……)

一、实体:具身智能的 “物理躯体”,且不止于 “有身体”

就像人的灵魂需要身体做载体一样,实体就是具身智能与物理世界交互的唯一载体。但它绝非简单的机械拼凑,而是 “感知器官 + 执行机构 + 结构骨架” 的有机结合。它的核心使命是 “精准感知环境、可靠执行动作”,如同人类的四肢与五官,是智能落地的基础。

如何能达到这种效果?

1是感知器官:给智能装上 “眼睛”等触觉器官。实体的感知能力依赖多模态传感器网络,就像人类的眼耳口鼻皮肤。像加速进化T1组成的足球战队,每个机器人要靠自己的“视觉”去找到球,还要识别场地的线,还要识别到球门,以及认清自己的队员和对方队员,总之这些感知数据都要给到机器人的大脑,然后让它决策接下来该做什么,是该往前冲还是补到防守位置……

据说特斯拉的Optimus Gen3 搭载了 8 个高清摄像头与指尖触觉阵列(密度超 200 点 /cm²),能同时识别物体形状并感知 0.1N 级的细微力度,这也是它能 “捏鸡蛋不碎” 的关键。

这些传感器如同神经末梢,将物理世界的温度、力度、空间位置等信息转化为数字信号,为 “大脑” 和 “小脑” 提供决策依据。

2是执行的核心部件:让动作从下指令到变执行。如果说传感器是 “输入端”,执行的一系列部件就是 “输出端”,包括关节驱动、灵巧手等核心部件。

媒体材料显示,特斯拉的 Optimus Gen3的手部自由度从 11 个翻倍至 22 个,采用后置执行器设计减轻手部重量,so,能轻松完成叠婴儿衣物这样的超精细操作,处理易碎物体的成功率达 99%……总之,这些设计能让实体从能移动升级为会动作,并从完成任务升级为精准完成任务。

3是结构骨架:平衡性能与场景适配性。实体的结构设计直接决定其适用场景。人形机器人因能适配人类环境成为主流:像加速进化T1,身高约1米1左右,体重大概30公斤左右,全身拥有23个自由度,属于专为踢足球场景设计的小型人形机器人,能完成踢球、俯卧撑、叶问蹲等动作,摔倒了也可以自主爬起来……特斯拉的Optimus Gen3,据公开资料显示,身高与咱们成人接近,大约是1米7左右、体重57公斤,能使用人类工具……

总之各种垂类场景催生了多元结构,比如四足机器狗,可以凭借四肢协同在废墟中攀爬;协作机器人可以用轻量化的手臂实现人机共线作业…… 

二、小脑:具身智能的 “运动中枢”,实现 “知行合一” 

如果说大脑负责 “想不想做”,小脑就负责 “能不能做好”。

(用小脑类比,对应的是具身智能的运动控制层 ,它不处理复杂语义,却要将大脑的抽象指令转化为毫米级精准动作,核心是为了解决机器人的“平衡稳定、动作协调、实时响应” 三大问题。

“小脑” 的核心竞争力在于对力度和精度的把控,这种控制能力背后是 “解耦式设计” 的突破。特斯拉 Optimus 的指尖触觉传感器能感知物体软硬质地,配合 “小脑” 的力控算法,可实现0.08mm 精度的操作,既能拿起20公斤重物,又能轻捏鸡蛋不碎。越疆 Dobot 的灵巧手则通过12个自由度的协同控制,将螺丝拧转误差控制 0.1mm 以内,比人工操作更满足对工业装配的精度……

而且,人类遇到突发情况会有本能反应,但具身智能的 “小脑” 会达成无需思考的肌肉记忆,比如波士顿的动力Spot机器狗,它在踩空时,能在100ms内,调动腿部关节调整姿态,这种 “条件反射” 式的控制,能让机器人在复杂地形中行走成功率提升。

这种能力的训练,老张在前文也有描述,它源于 “仿真 + 真实” 的训练闭环,如特斯拉是通过 Dojo超算,生成数千万帧工业场景合成数据,让 “小脑” 在虚拟环境中反复练习抓取、搬运等动作,形成类似人类肌肉记忆的控制模型,再迁移到真实场景中优化。

三、大脑:大模型,为具身智能注入“灵魂”

2022年以来,大模型的发展为机器人从“自动化工具”跃升为“具身智能体”提供了关键支撑。当前的大脑核心是多模态大模型与具身推理能力的结合。

传统机器人的“智能”是“碎片化”的,针对单一任务编写特定算法,换个场景就需要重新编程。

而大模型具备跨模态理解、知识迁移和上下文学习能力。研究人员通过“具身微调”让大模型“学会行动”,在虚拟环境中让大模型控制虚拟机器人完成任务,通过强化学习优化动作策略,再将经验迁移到真实机器人。

此外,传统机器人只能执行预设指令,而具身智能的 “大脑” 可以从 “听懂话” 到 “懂意图”。特斯拉Optimus 整合xAI的Grok4.0 模型后,能听懂 “把客厅玻璃杯装满40度以下温水” 这类包含温度、位置、物体属性的复杂指令,还能根据用户情绪调整动作幅度。

谷歌Gemini Robotics-ER 1.5 更实现了 “场景化理解”,接到 “打包行李” 指令时,会先上网查询目的地天气,再决定是否放入雨衣。

这种能力源于 “语言 + 视觉 + 物理” 的多模态融合。大脑不仅处理文本指令,还结合实体感知到的环境信息(如玻璃杯位置、室温)进行综合判断,避免了传统 AI “懂文字不懂现实” 的尴尬。

其次,复杂任务的拆解能力是 “大脑” 智能的核心体现。它能把 “大目标” 拆成 一个个的“小步骤”。

谷歌GR-ER 1.5 在执行 “分拣深浅色衣物” 任务时,会生成清晰的 “思考轨迹”:先识别衣物→分类深浅色→分别折叠→放入对应抽屉,若某一步失败(如抓取滑落),会自动修正策略。

这种规划能力依赖 “世界模型” 的构建。大脑通过实体与环境的反复交互,逐渐建立起 “物体属性——空间关系——因果逻辑” 的知识库,比如知道 “重物需双手搬运”“光滑表面易打滑”,从而规划出合理动作序列……

另外比较重要的一点是跨场景的泛化能力。传统机器人是 “场景绑定” 的专才,而具身智能的 “大脑” 能实现跨场景、跨硬件的能力迁移。

国内智元机器人的 “启元大模型” 能通过人类操作视频自主学习技能,从 3C 电子装配到家庭家务,只需更换实体载体即可快速适配场景。这种泛化能力打破了 “一台机器人对应一个任务” 的行业困境,是具身智能规模化落地的关键(目前这种能力也是研发中的难点和方向……)。

言而总之,具身智能的本质不是三个组件的简单叠加,而是 “感知——决策 ——行动——反馈” 的动态闭环。随着具身智能的发展,当然也有很多人在谨慎观之,但不得不说的是,当 AI 终于有了 “身体” 和 “思维”,它与人类的协作故事才刚刚开始……

05

具身智能形态多样

不止于人形

图7

虽然人形机器人备受关注,但具身智能并非只有 “人形机器人” 一种形态,而是根据应用场景演化出多元化的产品矩阵。

不同形态的智能体,正在各自领域发挥作用。

·人形机器人:作为具身智能的终极形态,人形机器人因能适配人类环境、使用人类工具而备受追捧。目前全球头部产品已形成中美竞争格局。

· 专用服务机器人:如扫地机器人,通过环境感知实现自主作业,成为具身智能最贴近大众的形态;如波士顿动力Spot 已在石油、矿山等领域应用,通过搭载不同载荷完成巡检任务。

· 仿生机器人:像蚂蚁灵波科技研发的如章鱼一样的“软体机器人”,用柔软材料制成,能钻进狭小管道完成检测。

· 微机器人:如Bee++、RoBeetle等微机器人,其智能行为源于结构动力学与环境的物理交互。

· 服务机器人:它也可以并入到专用机器人中,而且目前已经渗透到我们的日常生活中,如在餐饮、零售等场景。服务类具身智能产品已实现规模化的落地……

 06

挑战与未来

具身智能的“GPT时刻”何时到来??

尽管具身智能这个领域前景广阔,但发展仍面临多重挑战。如具身智能在物理世界中遵循怎样的“规律”尚不明确。
如技术瓶颈的挑战。动态场景的实时响应、复杂任务的长程规划、开放式环境的自主适应,这些都是当前技术尚未完全解决的问题。例如人形机器人在家庭场景中,仍难以应对随意摆放的物品和突发状况。
另外就是大家关心的数据隐私与安全的风险。具身智能通过传感器收集大量环境信息,这些信息的所有权和使用权归属问题亟待解决。
此外还有成本高企制约普及。如核心部件如灵巧手的双手价值量仍达数万元,如何降低成本是走入寻常百姓家的关键……

07

商业化落地

各行各业头部公司

都在看具身机器人的机会

从国产商业化的角度来看,目前全行业都想做具身智能,只是大家进入这个行业的方式不一样。

数据显示,2025 年全球具身智能市场规模预计达 44.4 亿美元,2030 年将飙升至 230.6 亿美元……啧啧,一片蓝海,谁都想在风口上分一杯羹……

就老张知晓的,几乎各行各业头部的公司,都在找具身的头部公司并在找落地场景,做合作项目,做POC,或在找头部标的的机会,像富士康,包括阿里、京东等国内大鳄,都在这个赛道里投了大量搞具身的公司……

就在十月份,美团、京东都在这个行业里下了重注(不赘述了,大家可以看新闻……),一些腰部的场景方或者说是某些垂直赛道里面的场景方,比如做养老行业的泰康、酒店管理行业或者说制造业,大家也都在找能切到细分行业的头部公司……

(因为大家也意识到一个问题,对于有些企业来说,再不搞机器人,大家都属于制造业,属于落后产能,即使不属于落地产业,一些有野心的大公司、大企业也有很强烈的资本诉求,或朝着具身智能的方向转型,或满足自身企业发展所需,或是业务合作所需,又或是投资并购所需等等,以期更好的发展,更好的市值表现……

总之呢,八仙过海、各显神通吧,大家都在抢占蓝海,具身智能这个领域已成为了一个全行业都想触碰的超级节点……

附带再八卦几句,有人的地方就有江湖,有江湖的地方就有骗子。随着这个赛道的热度,起码在一段时间内,具身智能这个行业的真话会越来越少,反之神马参数造假呐、性能夸大呐、“自研”套壳呐、订单交换呐……会层出不穷……(也都是之前玩儿剩的套路……不过,都交给市场那只“无形的手”吧,终有一天当潮水褪去,胜者终会胜出,裸泳者即会淘汰……咳咳……

不聊了,又得吧了五六千字……就此打住…… 88~

文中不妥之处,也请大家不吝赐教、斧正。若有随想感思,也请大家评论区留言。thanks!抱拳!!!