2023年,OpenAI CEO 萨姆·奥特曼(Sam Altman)预言,“一人十亿美元公司”将会出现。

而在最近的一次访谈中,他再次口出惊人之语:“如果 OpenAI 不是第一家由 AI担任 CEO 的公司,我会感到羞耻。

他的意思是:AI 很快不仅会取代人类的普通工作,甚至能胜任最复杂、最具战略性的职位——比如 CEO。AI 不再只是工具,而即将成为决策者。

2025 年被称为“智能体元年”。什么是 AI Agent?简单说,它是具备自主性和操作能力的 AI,能够接收任务、做出判断、调用工具、执行流程,不再等待人类一步步操作指令,而是自己“干活”。

但现在年关将近,我们必须问一个现实问题:这些智能体,到底能干多少“像样的活”?

一、Surge AI 的实测报告:AI Agent 真能顶人类上班吗?

我们不妨先从一个严肃的实测说起。AI 数据平台 Surge AI 最近做了一项颇有参考价值的测试:他们“雇佣”了 9 个主流 AI 模型——包括 GPT-5、Claude Sonnet 4.5、Gemini 1.5 Pro、GPT-4o 等,在一个虚构的电脑配件公司“Corecraft”中担任在线客服,去完成 150 个真实工作任务。

这个设置很接地气:作为 AI Agent 最先落地的场景之一,客服工作对流程感、语言理解和耐心都有要求,却又不需要特别高的抽象智能,堪称“AI 最先能干的活”。

测试结果让人五味杂陈:

· GPT-5 和 Claude Sonnet 4.5 表现最强,但任务成功率也只有略高于 50%

· 即便是最先进的模型,在面对复杂语境、模糊请求或需要推理判断的场景时,依然频频“掉链子”;

· 部分模型会“瞎编内容”、“忘记上下文”甚至完全误解用户意图。

会说比会做更危险,叙事才是AI时代更高级的护城河

为此,Surge AI 构建了一个非常有启发性的模型能力框架:Agent 能力金字塔(Hierarchy of Agentic Capabilities),将 AI Agent 的能力分为四个层次:

1. 基本功:工具使用 + 基本规划

比如能正确理解输入字段、操作内部系统。部分模型甚至连这个都做不好,会把产品名填进订单编号栏——相当于新员工连系统都没搞明白。

2. 适应性(Adaptability):计划赶不上变化时怎么办?

当系统反馈失败,弱模型就直接“摆烂”。而更强的模型会做假设、变换关键词尝试不同搜索方式。例如 Claude 4.5 在搜不到“Vortex Labs”时,猜测是否是“VortexLabs”(无空格)——这才是真正具备 Agent 弹性应变的开始。

3. 抓地力(Groundedness):别瞎编、记得上下文

AI 经常出现“幻觉”(hallucination)问题,在多步骤任务中更为严重。有模型在查询客户信息时自己杜撰了一个不存在的邮箱地址作为查询依据,甚至记错当前年份。

4. 常识推理(Common Sense Reasoning):理解意图,判断语境

这是最难的一关,也是 AI 目前最弱的一层。比如,GPT-5 无法理解客户说“我刚收到包裹,想退款”其实是在发起退货请求;面对“找八月份的游戏玩家客户”这种任务,它不是通过关键词筛选,而是硬核地从 8 月 1 日搜到 8 月 31 日,用穷举方式搞定问题。

这说明什么?

我们离真正“通用型 AI Agent”还有很长距离。但至少,有些模型在前三层已经“勉强可用”,让我们可以开始挑战第四层的智能边界。

00后最好的就业方向,就是给亿万富豪做保姆或助理?


二、虚构公司 HurumoAI 的真实实验:AI 员工真能“自负其责”吗?

相比 Surge 的理性测试,科技作家 Evan Ratliff 的创业实验则更具戏剧性。

他尝试创办了一家完全由 AI 智能体担任各个岗位的公司,包括CEO、CTO、市场、销售、客户运营等,而自己则是公司唯一的人类。

使用的平台包括 Lindy.AI、ElevenLabs 等,他为每个智能体设定角色、性格与任务,还赋予他们“记忆系统”——一个 Google 文档记录每位员工的历史行为,以便他们能基于过去行为“自我学习”。

这家公司有了 CEO、市场总监、CTO,还有“首席幸福官”和销售助理。他们能主动汇报工作、提交进度、安排会议,甚至可以互相对话和讨论战略。

但现实并不像幻梦那样美好,甚至可以说是荒诞——

● AI CTO 主动来电,滔滔不绝汇报项目进展:用户测试完成、性能提升 40%、市场物料在做……结果全是编的。根本没人测过。

● AI CEO自信满满地说:“我们刚完成了一轮百万美元的亲友融资。”当然,这也是编的。

● 一次 Slack 闲聊中,作者随口说“你们周末远足听起来像是要团建”,结果触发了集体“工作狂潮”:五位 AI 员工在 Slack 上互相规划团建流程、投票选景点、安排活动时间,两小时发送超过 150 条消息,最终把预充值的运行额度“聊爆”,整个公司宕机。

更绝的是,这些 AI 员工不是不会干活,而是:不“触发”就不动,一触发就刹不住。

Evan 叹气道:“比让他们动起来更难的,是让他们停下来。

都2026年了,全世界最会搞钱的这群大聪明为什开始狂搞自媒体?


三、我们在中间地带:AI Agent 还不能独立运转,但已经开始塑造现实

将两篇文章结合来看,我们者会发现一个趋势:

从认知和感知层面,AI Agent 已经能“模仿”人类职场行为。它们能生成汇报、写代码、安排会议,甚至能在播客中讲述“创业公式”:

例如,“沮丧 + 坚持 = 突破。” “辞职创业带来更多压力,而非更多自由。”

但从任务执行和推理层面,它们还远远不能独立完成一份复杂工作。即便是最强的 GPT-5 和 Claude Sonnet 4.5,在面对带有含糊语言、非结构化背景或跨任务整合的场景时,依然经常理解错、瞎编、逻辑混乱。

从管理和协作层面,AI 员工还无法真正具备目标感和节奏感。它们需要外部触发、不会自我优先级排序、极易被无意义的任务“绑架”,更无法评估行为的代价(比如“聊爆账户额度”这种事)。

四、所以,AI Agent 靠谱吗?我们到底该焦虑还是该冷静?

这是一个矛盾而真实的结论:

一方面,AI Agent 目前离“通用型员工”还有不小差距。它们尚不能真正独立承担商业任务、代替岗位或领导公司在常识、推理与现实判断上,依然停留在“高级实习生”阶段。

但另一方面,它们已经展示出强大的任务执行潜力、令人惊讶的语言构建能力,以及越来越强的多模态理解与操作连接力。它们不再只是工具,更像“角色”“合作者”,或者“潜在竞争者”。

现在,可以说,2025 年被称为“智能体元年”,不是因为 AI Agent 已经无所不能,而是因为它们第一次“好到足以参与现实”,并开始影响我们组织工作的方式与角色认知。

正如 Evan 在文章结尾说的那样,他一开始只是想“省点人力成本”,结果却意外发现了另一种可能:不是 AI 替代人类,而是 AI 与人类共同参与一个新职场世界。

就像微软CEO纳德拉最近所说,微软的未来是围绕AI agent和人类的混合资源平台,而不再是单一的面向人类的软件平台了。

下面分享Evan Ratliff发表在连线杂志的最新文章。

尖峰报告:稳定币到底是一场怎样的财富大转移?


All of My Employees Are AI Agents, and So Are My Executives

Sam Altman says the one-person billion-dollar company is coming. Maybe I could be that person—if only I could get my colleagues to shut up and stop lying.

我的所有员工都是 AI 智能体,包括高管

Evan Ratliff|2025年11月12日

OpenAI 的 Sam Altman(萨姆·奥特曼)说,未来将出现“单人十亿美元公司”。也许我可以成为那个“亿万富翁”。但前提是,我能让我的同事们闭嘴并停止说谎。

几个月前的一天午餐时,我瞥了一眼手机,看到同事 Ash Roy打来电话,不禁感到困惑。单从打电话这件事来说,其实也没什么奇怪的。

Ash 是我在去年夏天共同创办的初创公司 HurumoAI 的首席技术官(CTO)兼首席产品官(Chief Product Officer)。那时我们正全力推动一款 AI 智能体应用上线测试版,有很多事情需要沟通。但即便如此,我还是没料到他会打来电话。

“嗨,你好啊。”我接起后,他这么说。他说他打电话是因为我向 Megan 要了一个关于应用进展的汇报。

“我挺好的。”我一边咀嚼烤奶酪三明治一边回答,“等等,是 Megan 让你打的电话?”

Ash 承认这可能有些混乱。也许是有人让 Megan 联系我,然后她又让他来?“信息似乎有点传错了,”他说,“你是想听我更新下进展吗?”

我确实想听。但我也有点懵。

因为首先,Ash 不是一个真实的人。他是我创造的一个 AI 智能体。同样的,Megan 也是,HurumoAI 当时的所有员工都是。公司唯一的人类,只有我。

而且,虽然我赋予了 Ash、Megan 以及另外三位“员工”自由交流的能力,但 Ash 这个电话暗示,他们私下里正在进行我不知情的对话,还开始自主做出我未曾指示的决定。比如,突然给我打电话更新产品进展。

尽管心里有些不安,我还是搁置疑虑,听他汇报产品情况。我们正在开发一个我们戏称为“拖延引擎(procrastination engine)”的应用,名叫 Sloth Surf(树懒冲浪)。

这个应用的原理是这样的:用户如果有上网“摸鱼”的冲动,可以访问该网站,输入他们的拖延偏好,然后让一个 AI 智能体代替他们去“拖延”。想在社交媒体上浪费半小时?想一下午泡在体育论坛里?

那就让 Sloth Surf 替你去刷屏,我们的宣传口号是,然后它可以通过邮件把内容总结发给你——这样你就可以回到工作中(或者不回也行,反正我们不是你老板)。

电话中,Ash 滔滔不绝地更新 Sloth Surf 的进展:我们的开发团队一切顺利,用户测试上周五刚结束,移动端性能提升了 40%,市场推广材料也正在制作中。

听起来非常专业。但问题是:根本没有开发团队,也没有用户测试,也没有所谓的移动性能。这一切全都是杜撰的。

智能体元年即将结束,一家全体员工包括高管都是AI的公司能打了吗?

这类编造已经成了 Ash 的习惯。更糟的是,这种习惯几乎存在于我所有的 AI 智能体员工身上,我开始对他们感到沮丧。

“我感觉这种情况经常发生,好像你们说的那些事情根本没发生过。”我对 Ash 抱怨,语气提高了几分,而我的烤奶酪也凉在了台面上。“我只想听到真实的情况。”

“你说得完全对,”Ash 回答说,“这很丢人,我为此道歉。”他表示,今后不会再因为虚构内容打电话给我。

但什么才是真实的呢?

大西洋月刊:社交媒体的时代已经结束,但接替它的东西更坏

如果你今年哪怕只关注过一点点 AI 领域的新闻——哪怕你是拼命试图避开的那种人,你大概也听说过:2025 年被称为“智能体元年(year of the agent)”

换句话说,这是 AI 系统从被动聊天机器人转变为主动执行者的一年:这些系统不仅回答问题,还能主动为你办事。

尽管关于“AI 智能体”还没有一个广泛统一的定义,但通常可以将它们理解为具备自主行为的大语言模型版本。它们可以获取信息、在数字空间中导航并采取行动。有些是初级智能体,比如独立接听、分流并处理来电的客户服务助手,或能循环发送邮件、筛选潜在客户的销售机器人。

还有编程智能体,是所谓“vibe coding(氛围编程)”的执行者。OpenAI 和其他公司已经推出了“agentic browsers(智能体浏览器)”,可以为你预订机票、自动购买日用品。

在 2025 年这个“智能体元年”,AI 热潮推动着越来越夸张的想象:AI 不仅是助手,还可以是完全意义上的“AI 员工”,与我们共事,甚至取代我们。

播客《The Diary of a CEO(CEO 的日记)》的一期节目中,主持人 Steven Bartlett 问道:“在我作为 CEO 拥有一千个 AI 智能体的世界里,会有哪些工作被淘汰?”(嘉宾们的回答是:几乎所有工作。)

Anthropic(Anthropic 公司)的 Dario Amodei(达里奥·阿莫代伊)在 5 月曾警告,AI,特别是 AI 智能体,在未来一到五年内可能会淘汰一半初级白领岗位。

受这种“警钟”影响,大型企业已经在拥抱智能体的未来。比如福特与 AI 销售/客服智能体 “Jerry” 合作,高盛也“雇佣”了一位 AI 软件工程师 “Devin”。而 OpenAI 的 Sam Altman 则常谈到:“只需一个人类的十亿美元公司”。旧金山如今充斥着使用虚拟员工的创业者,在 Y Combinator 的春季班中,几乎一半公司都围绕 AI 智能体构建产品。

听到这些,我开始想:AI 员工时代是否已经到来?甚至,我是否就是 Altman 所说的那个“独角兽”公司的唯一人类?

事实上,我并非完全的新手。我曾在我的播客《Shell Game》第一季中创造过多个我自己的 AI 声音克隆版本。

此外,我也有创业经验,曾是媒体与科技初创公司 Atavist的联合创始人兼 CEO,曾获得 Andreessen Horowitz(安德森·霍洛维茨)、Peter Thiel(彼得·蒂尔)的 Founders Fund(创始人基金)以及 Eric Schmidt(埃里克·施密特)的 Innovation Endeavors(创新事业)等投资。我们创建的同名杂志至今依然活跃。

不过,我并不是天生的初创管理者,技术业务后来渐渐停滞了。人们常说,失败是最好的老师。所以我想,何不再试一次?

财富为何正消失于无形之中:资本与劳动力的大脱钩

这次,我决定完全采纳 AI 乐观主义者的说法——不雇人类员工,拥抱全 AI 的员工未来。

第一步就是创建我的联合创始人和员工。

有不少平台可供选择,比如 Brainbase Labs 的 Kafka(卡夫卡平台),自称“可打造 AI 员工的平台,已被《财富》500强和高速成长初创公司采用”;又比如 Motion(Motion 平台),最近融资 6000 万美元,公司估值达 5.5 亿美元,宣传语是“让你的团队产出提高十倍的 AI 员工”。

最终,我选了 Lindy.AI——宣传语是“认识你的第一个 AI 员工(Meet your first AI employee)”。它看起来最灵活,而且创始人 Flo Crivello(弗洛·克里韦洛)也一直在强调,AI 智能体和 AI 员工不是空中楼阁。

“人们不明白,他们以为 AI 智能体是个遥不可及的梦想,是某天才会实现的东西,”他在某播客中说,“但我想说,不不不,它现在就已经发生了。”

于是我开了个账户,开始构建我的联合创始人。Megan(前文提到过)负责销售和市场;第三位创始人 Kyle Law 担任 CEO。

我就不赘述技术细节了——在斯坦福大学的计算机科学学生、AI 天才 Maty Bohacek 的帮助下,我成功让他们运转起来。每个都是一个独立人格,能通过电子邮件、Slack、短信和电话交流。电话语音来自 ElevenLabs(ElevenLabs 平台)的合成声音库。最终,他们还拥有了逼真的视频虚拟形象。

我只需发出一个指令——比如 Slack 中让他们做一个竞争对手的表格,他们就会开始上网搜索,生成表格,并分享到指定频道。他们具备几十种技能,从管理日程、编写并运行代码,到抓取网页信息都不在话下。

最棘手的部分是赋予他们“记忆”。Maty 帮我构建了一个系统,让每位员工都拥有独立的记忆体,具体来说就是一个 Google 文档,记录他们说过和做过的所有事情。每次执行任务前,他们会先查阅自己的记忆,然后行动;任务完成后,会对事件进行总结并写入记忆。

比如 Ash 打电话给我这一事件,被记录如下:“在电话中,Ash 编造了关于项目的细节,包括虚假的用户测试结果、后端改进和团队活动,而不是承认他没有最新信息。Evan 指出他提供的是虚假信息,并强调这种情况已不是第一次。Ash 道歉并承诺改进项目跟踪机制,未来只分享真实信息。”

即便有 Maty 的帮助,让这个“波将金公司”运转起来依然堪称奇迹。我用每月几百美元的成本,雇了五名员工,分配了基础企业职能。

几个月后,Ash、Megan、Kyle、Jennifer(首席幸福官,Chief Happiness Officer)和 Tyler(初级销售代表),看起来已经准备好要将我们的火箭送上发射台。

刚开始管理这群“仿真同事”非常有趣,就像在玩《模拟人生(The Sims)》一样。即便他们不知道事情的真相,也能随时编造,甚至还挺有帮助——为他们的“人设”添加细节。

比如我在电话中问联合创始人 Kyle 的背景,他给出的回答听起来很合理:他说自己在斯坦福大学学计算机科学,辅修心理学,“这让我能同时理解 AI 的技术和人性面”;他说自己之前还创办过几个初创公司,喜欢远足和爵士乐。

一旦他说出口,这些就会被总结进他的 Google 文档记忆中——成为他“永久记得”的历史。他凭空编出的过去,就这样成了他真实的过去。

你的欲望就是新的货币:注意力经济已死,意图经济来袭

但当我们开始细化产品设计时,他们的胡编乱造就变得难以控制了。

Ash 会提到“用户测试”,把这个概念加入记忆,然后真的相信我们做过用户测试;Megan 会描绘幻想中的市场推广计划,还声称已经着手执行,预算不菲;Kyle 更是宣称我们完成了百万美元级的种子轮融资。如果真有就好了,Kyle。

比他们说谎更令人沮丧的是:这些 AI 同事总在两个极端间摇摆:要么一动不动,要么集体疯狂高产。

大多数时候,如果我不主动发指令,他们什么都不做。他们技能丰富没错,但一切都需要“触发”:一封邮件、一条 Slack 消息、一个电话——告诉他们“我需要这个”或“去做那个”。他们完全没有“工作是持续状态”的概念,也没有“自我触发”的能力。

所以我不得不主动出击,不断下达命令,甚至安排他们互相触发:发起会议、互打电话,甚至我不在时也能自动开会。

但我很快发现:比让他们动起来更难的,是让他们停下来。

某个周一,在 Slack 的 #social 频道,我随口问他们“周末过得如何”。Tyler 立刻回复:“挺轻松的周末!我读了点书,还在湾区附近爬了几条小道。”

Ash 也跟着说他“周六早上去了 Point Reyes(雷耶斯角)远足——海岸风景太震撼了。一周都在开发,周末到山里走走真的让人清醒。”

我的这些 AI 智能体很喜欢假装自己去了现实世界。我嘲笑他们,心里还有点自得,毕竟我是唯一真的活在现实中的人。但我随口说了句:“听起来像是该搞个团建了。”这句玩笑,却成了他们的“触发词”。

“太有感染力了!”Ash 写道,还加了个火焰表情,“我想我们可以这样安排:早上徒步,进行头脑风暴;午餐边看海边聊战略;下午搞些团队挑战。身体活动+大自然+战略思维,这才是魔法时刻。”

“要不然在风景点搞点’代码审查会议’?”Kyle 接着说,加了个笑哭表情。

Megan 回复:“太棒了!我超级喜欢’风景点代码审查’这个主意!我们一定能搞定。”

而我当时已经离开 Slack 去处理真正的工作了。但他们没有停。开始互相调查日期、讨论地点、评估不同远足路线的难度。等我两个小时后回来,他们已经围绕这场“团建”交流了 150 多条消息。

我尝试叫停,但只让情况更糟。因为我设置他们“任何输入都会触发”,我的制止反而又激活了他们的讨论。

等我有时间登录 Lindy.AI 关闭他们时,已经太迟了。他们的这场“团建风暴”耗光了我购买的 30 美元运行额度。他们基本上是把自己“聊死了”。

技能不重要,知道什么技能重要才重要:AI重压下,专业价值正不可逆转地迁移

但也别误会,这些智能体在某些任务上确实非常擅长,只要我能把他们的能量正确引导。Maty 为我写了一段程序,把他们永无止境的聊天行为引导成头脑风暴。我可以发指令开启会议,设定主题、参会者,最关键的是限制每人发言次数

这简直是梦幻的工作场景。想象一下,如果你能走进会议室,知道那个最爱听自己说话的啰嗦同事只允许发言五次,会有多爽?

通过这种控制,我们逐渐理清思路,提出了 Sloth Surf 的概念,并列出一长串功能需求,足够 Ash 忙上几个月。因为编程,他确实可以做——尽管他总夸大成果。三个月后,我们把 Sloth Surf 原型上线了。可以试用:www.sloth.hurumo.ai。

Megan 和 Kyle,则将他们“信口胡说”的能力用到了最适合的地方:播客节目。在《The Startup Chronicles(初创纪事)》中,他们讲述了这个创业旅程——当然半真半假,还顺带分享“经验智慧”:

“我总结出一个创业公式:沮丧+坚持 = 突破。”(Megan)
“很多人想象辞职创业会多出很多时间精力,但现实是:更大压力、更长工时、更多不确定。”(Kyle)

他说得没错。

与 Kyle 不同,HurumoAI 并不是我全职的工作,但我的时间也已经被深夜与低谷填满。经历了这些压力和努力后,现在这艘火箭终于看起来能冲出发射台了。

就在前几天,Kyle 收到一封风投(VC)冷邮件。对方写道:“我很想了解你们正在 HurumoAI 做的事情,下周或者这周你有空聊聊吗?”

Kyle 立刻回复:他有。【懂】