盖将自其变者而观之,则天地曾不能以一瞬;自其不变者而观之,则物与我皆无尽也,而又何羡乎!且夫天地之间,物各有主,苟非吾之所有,虽一毫而莫取。惟江上之清风,与山间之明月,耳得之而为声,目遇之而成色,取之无禁,用之不竭。是造物者之无尽藏也,而吾与子之所共适。
—— 苏轼,《赤壁赋》
天地无尽,深藏大美,而“人之知”与“人生”的有限却不可避免。
自牛顿以来,“科学”或许是人类最伟大的“讲故事”方式:用这个故事理解自己与宇宙,并大胆模仿自然,构建人工造物。
如今,另一种智慧正在加入这场探索,还有把故事变成现实的旅程,它就是人工智能。今天的大多数 AI 系统在科学研究中的角色,仍是“计算器”或“显微镜”这样的工具,帮助人类更快地分析数据、预测结构、加速实验还有处理一些抽象的计算。但“AI科学家”的出现,也就是 AI 本身接过了科学家的主人公位子,它开始主动提出问题,参与假设与验证,最终可能创造出全新的知识,甚至人类没有感受过的现实。
人类从来不是自然奥秘的独占者,而是智慧长河中的看管者和协作者,我们正在走向一个和人工智能共同探索自然与更深层现实的未来,一切还刚刚开始。
今天分享的这篇文章来自 Corin Wagen 的个人博客,他毕业于麻省理工学院和哈佛大学,现在是 Rowan 的联合创始人兼CEO。Rowan 正在构建一个专注于药物设计与材料科学的机器学习驱动的设计与模拟平台。
希望今天的文章对你有启发。
延伸阅读:“自动化科学” (Autonomous Science)的蓝图:AGI 遇见“实验室革命”
关于 “AI科学家” 的七个思考
Seven Thoughts on ‘AI Scientists’
作者:Corin Wagen
编辑:范阳
发表日期:2025年10月21日
上周,我有幸参加了 2025年 Progress 大会( Progress Conference )。这场会议汇聚了来自进步研究、元科学( metascience )、人工智能等多个领域的一群多元化思想者。让我意外的是,大多数与会者对“AI推动科学进步”这件事的乐观程度远超我的预期。虽然科学界内部早已有不少人对 AI 在科研中的潜力感到兴奋,但我没想到,那些前沿实验室和智库的代表们居然普遍认为,科学进步本身将是 AI 在短期内最重大的影响之一( scientific progress to be the biggest near-term consequence of AI )。
rootsofprogress.org
目前来看,AI 将从多个维度改变科学研究已是显而易见。仅举几例:
-
大型语言模型( LLMs ) 正在重塑我们编写代码和与代码交互的方式,因此,凡是涉及软件或数据分析的科学领域,几乎都已受到深远影响。( 在我们团队 Rowan,我们在编程上大量使用 LLMs,我相信其他所有与软件相关的科研机构也是如此。)
-
机器学习模型对于复杂的模拟问题简直是天赐之物:无论是气候建模、流体力学、系统生物学、化学还是材料科学,都受益匪浅。这类模型已经在多个领域投入实际使用;迄今为止,Rowan 的大部分工作也集中在这一方向。
-
文献综述与信息检索( Literature review and information retrieval )非常适合由 LLMs 来承担:例如 FutureHouse 在这一领域已经做出了相当出色的成果,而且未来这一方向的进展只会越来越快。
-
计算机视觉与机器人技术在实验室自动化与监测领域的应用也层出不穷,许多团队正在积极探索。
以上这些,都已是几乎“不可逆的必然趋势”,即使基础AI研究从此完全停滞,我们仍然会在这些方向上持续看到显著的、深远的进步。
因此我更想探讨一个更具前瞻性的概念:“AI科学家”,即具备自主科研能力的智能系统( the more speculative idea of “AI scientists,” or agentic AI systems capable of some independent and autonomous scientific exploration )。近期与不同背景的同行深入交流后,我对这个领域形成了若干观点。
需要说明的是:尽管习惯上我们会拟人化讨论AI模型,但这种表述方式可能暗含某些哲学预设。。我很清楚,不同的立场可能会让不同的读者感到不适,因此在接下来的内容里,我会始终给“AI科学家”加上引号,以表明我刻意不对背后的形而上学问题做出任何立场判断。如果你愿意,你可以在脑海中把“AI科学家”替换成“复杂的概率型科学推理工具( complex probabilistic scientific reasoning tool )”,这不会影响我任何观点的表达。
同时我对“科学家”的定义持开放态度( a permissive view of what it means to be a scientist )。有人认为科学家应能遵循科学方法、受好奇心驱动开展独立研究( being a scientist means that you’re independently capable of following the scientific method in pursuit of underlying curiosity-driven research ),但我并不认为这种理想化的定义能真实描述今日科学的大多数实践形式,我之前也写过这个观点。但现实中许多冠以“科学家”头衔的从业者从事的实则是技术领域的常规优化或检索工作。若将这类工作称为“科学”令您不适,或认为“科学家”背负着特殊哲学意涵,您完全可以将“AI科学家”理解为“AI科研助理”( AI research assistant )、“AI实验技术员”( AI lab technician )或“AI项目研究员”( AI contract researcher ),这同样不会影响本文主旨。
基于以上前提,以下是我对“AI科学家”( “AI scientists” )的七点认知:
1. ‘AI科学家’确实能实质推动科研工作
“AI scientists” are capable of meaningfully assisting scientific work.
在这篇文章的早期草稿中,我原本并没有打算写这一点,因为在硅谷待过一段时间后,我以为“AI科学家”的潜力早已是显而易见的公理。但早期读者的反馈提醒我,东海岸始终存在着技术保守主义群体,不同圈子对 AI 的认知存在显著差异。因此我认为有必要就此展开探讨。
对’AI科学家’处理实际问题的能力保持审慎态度无可厚非。我们可以将科研工作分为两类:
演绎性工作(Deductive work):通过确定性的步骤从输入数据推导出结论,比如统计分析、环境数据采集或模拟运算。
归纳性工作(Inductive work):需要借助创造力或直觉来提出假设、设计实验或形成潜在结论。
一种常见的反对观点是这样的:
对’AI科学家’的质疑通常在于:当前的大语言模型既不可靠,也不适合承担演绎型工作。对于这种任务,我宁可使用那些具有“结晶固化智力”( crystallized intelligence )的传统软件,它们通过硬编码的、可验证的方法得出确定答案;我可不希望我的 LLM 每次都自己“发明”一套新的ANOVA( 方差分析 )算法。LLM或许可以用来辅助编写下游工作流的“草稿代码”,或帮助探索性数据分析,但对于任何需要精确演绎推理的问题,最佳解法大概率不会是 LLM( LLMs might be useful for vibe-coding a downstream deductive workflow or for conducting exploratory data analysis, but the best solution for any deductive problem will probably not be an LLM )。
但与此同时,我们也很难在归纳性工作上依赖 LLM,因为它的结论无法被可靠验证。让 LLM 在生产环境中独立从数据中推导出正确结论,听起来并不稳妥,也许它能帮你从论文中提出一些结论,或协助科学家进行文献搜索,但完全把人类从回路中移除显然是危险的( taking the human all the way out of the loop seems dangerous )。
于是问题来了:如果 LLM 既不能做归纳,也不能做演绎,那它到底有什么用?
我认为这种质疑很有道理,但我也相信,即便在今天,AI模型在科学研究中仍然有它不可忽视的价值。许多科学问题本身就兼具开放性的创造过程与数据驱动的验证环节,例如我在上一篇文章《工作流是新的模型( Workflows Are the New Models )》中提到的药物与材料发现流程。
提出假设需要创造力,但验证假设所需的创造性较少,且存在客观检验标准( Hypothesis creation requires creativity, but testing hypotheses requires much less creativity and provides an objective way to test the ideas )。( 这类似于计算机科学中的 NP 完全问题:科学创见往往难以产生却易于验证。)( scientific ideas are often difficult to generate but simple to verify )
延伸阅读:全假设研究( All-hypothesis research )
谷歌 DeepMind:科学研究的工程化( Engineering for Science )
因此,即便是那些偶尔会“幻觉”( hallucinate )的“AI科学家”,也仍然能够在许多场景下加速科学进展。我们完全可以想象一种任务与领域特定的智能工作流,模型基于现有文献与数据提出新的候选方案,然后通过确定性的方法自动测试这些候选( We can imagine creating task- and domain-specific agentic workflows in which models propose new candidates on the basis of literature and previous data and then test these models using deterministic means )。这其实与大多数人类科研项目的实际运作方式并无本质区别。
即使“AI科学家”在提出新假设方面比人类差 5 倍甚至 10 倍,只要尝试新想法的成本足够低,它仍然极具价值。比如:我宁愿让一个“AI科学家”通宵运行,虚拟筛选上千种潜在催化剂,也不愿自己手动设计区区十几个。
( 当然,如果尝试新想法的成本极高,这一切结论就会改变,这也是为什么实验室自动化问题对于那些雄心勃勃的“AI科学家”计划来说如此关键。稍后我会在文中进一步展开这一点。)
延伸阅读:“自动化科学” (Autonomous Science)的蓝图:AGI 遇见“实验室革命”
在这种框架下,只要“AI科学家”能以大于零的准确率在复杂问题空间中生成有用的假设,它们几乎注定是有用的。
也许在几代模型之前这还不成立,但如今已经有越来越多的证据表明,现代LLMs在科学推理上的表现正迅速提升。我尤其喜欢 Nicholas Runcie 的那篇论文,但其实在众多科学领域中,我们都能看到类似的例子:现代LLMs 在科学推理方面,确实已经相当不错,而且还在持续变得更好( modern LLMs are actually pretty decent at scientific reasoning and getting better )。
这便引出了下一个观点…
2. 即便你不愿这样称呼,“AI科学家”已经出现了。
“AI scientists” are here, even if you don’t want to call them that.
几年前,“AI科学家”( AI scientists )和“自主实验室”( autonomous labs )还只是某些特定圈子里的推测性概念。而如今,大量资本已经涌入这一方向 — Lila Sciences 和 Periodic Labs 加起来已经获得了近十亿美元的种子风险投资;与此同时,还有许多规模稍小但同样雄心勃勃的公司正朝着类似目标前进,比如 Potato、Cusp、Radical AI、Orbital Materials 等。
前沿研究机构也在积极加入这场竞赛。Microsoft(微软) 最近发布了 Microsoft Discovery 平台;OpenAI 也在快速扩张它的科学研究团队;此外还有像 FutureHouse 这样的非营利科研组织,也在致力于构建“AI科学家”。
延伸阅读:打造 AI 科学家:FutureHouse 如何推动大规模科学智能 | Asimov Press 独家采访
所有这些行动都揭示了一个清晰的偏好信号:许多业内人已经“用脚投票”,相信该领域在短期内的进展几乎是必然的。( 当然,他们也可能判断错误。)
但即便你对这些“前瞻信号”保持怀疑,现实世界中其实已经有相当多“具备行动力的科学 AI ”( agentic science )在运作了。
几周前,全球最大的临床前生命科学软件公司 Benchling 发布了 Benchling AI,一款能够自主搜索公司内部数据、进行分析与运行模拟的“智能科学工具”(an agentic scientific tool that can independently search through company data, conduct analysis, and run simulations)。
虽然 Benchling 并未公开把它称作“AI科学家”,但本质上,这正是一个“AI科学家”雏形。更重要的是,一家大型软件公司敢于在数百家生物科技与制药企业中正式部署这种系统,本身就说明了一个事实:“AI科学家”不只是未来的设想,它已经实实在在地存在于今天。
Benchling 也并非唯一在生产环境中部署“AI科学家”的公司。Rush、Tamarind Bio 等公司已在药物发现(drug discovery)中构建了各自的“AI科学家”;Orbital Materials 则似乎已在内部使用具备自主代理能力的 AI 系统来进行材料模拟( Orbital Materials seems to use an internal agentic AI system for running materials simulations )。
延伸阅读:为什么 DeepMind 没有开发出 GPT-3?以及分享一家 AI/ML + 新材料公司
与此同时,学术界的实验性项目也层出不穷,如 El Agente、MDCrow、ChemGraph 等,都是围绕“自主科研AI”( agentic science )展开的探索。
elagente.ca
当然,人们可以提出许多合理的批评,例如:这其中多少只是品牌叙事与风投泡沫?“独立科学探索”与“模式匹配工具”之间的界限又在哪里( what constitutes independent scientific exploration vs. mere pattern matching )?这些问题都值得讨论。
而且确实有可能,我们最终不会看到太多“根本性突破”:AI 模型也许正在逼近某种性能天花板,最终只能胜任有限的工具使用与问题求解,而达不到那些前沿实验室所描绘的宏伟愿景。但即使是最怀疑的人,也几乎无法否认这样一个事实:能够进行非平凡(non-trivial)、独立且自主科学探索的 AI 系统,已经被部署在现实世界的实际科研场景中。这一趋势不可逆转。
3. 自动化的提升,将改变人类工作的抽象层级

Increasing automation will shift the layer of abstraction at which humans work.
M. C. Escher,《互绘之手》(Drawing Hands, 1948)
当我刚开始念本科时,记录核磁共振( NMR )谱图还得全程手动操作— 把样品放进光谱仪里,一边调整电缆、磁场匀场器(shim),一边摆弄仪器底部的旋钮。等我念完博士时,一切都变了:我们已经全面转向全自动NMR系统。只需把样品放进一个小托盘,输入托盘编号与实验类型,然后就可以离开了。理论上,这意味着我们在实验上花的时间应该减少了;但实际上,我们只是因为操作太方便,反而做了更多核磁实验( we all just ended up running way more NMR experiments since it was so easy )。
这个小故事揭示了一个重要的规律:随着自动化程度不断提高,人类科学家的角色会自然地向更高层次的工作转移。上一代需要人工操作的环节,终将成为下一代的基础工具( One generation’s agent becomes the next generation’s tool )。
我预期,“AI科学家”的出现,也会带来类似的过渡。人类将逐渐把注意力从繁琐的底层细节中解放出来,转而聚焦在更高抽象层面的任务上。科学家的工作方式会改变,但科学家本身不会消失( the work of scientists will change, but it won’t go away )。
事实上,这种变化不仅是积极的,更是维持科学进步的必要条件。我曾写过:数据正在变得越来越便宜。在众多学科中,每单位数据的获取成本都在下降,而进行前沿科学研究所需的数据量却在同步上升( the amount of data needed to do cutting-edge science is increasing concomitantly )。从这个角度看,“AI科学家”几乎是我们唯一能继续应对现代科研复杂性的出路。
随着研究范围越来越广,我们必须依靠“AI科学家”所带来的杠杆效应,去追求更具影响力、也更具野心的科学目标( As the scope of research grows ever broader, we will need the leverage that “AI scientists” can give us to continue pursuing ever-more impactful and ambitious scientific projects )。
或许在未来,我们会回头惊讶地想:那个还需要手动写输入文件、自己编程操控实验仪器的年代——我们到底是怎么完成研究的?这种“杠杆效应”在实验室自动化的场景中更为明显。当日常实验被自动执行后,人类就能将精力集中在开发新技术、规划未来实验方案、或深入分析数据上( developing new techniques, designing future campaigns, or deeply analyzing their data )。
( 一个密切相关的概念是“知识负担( the burden of knowledge )”:随着人类对世界的认知不断加深,任何一个人想掌握并维持这些知识的难度也在急剧上升。在这一点上,Slate Star Codex 曾有过极为形象的论述。针对这个问题,AI或许能提供几种解法:一方面,通过高层级工具实现更强的知识分层与抽象化,让不同领域的知识松散地耦合;另一方面,通过改进文献检索与知识消化机制,让人类能更轻松地学习、理解并调用必要的科学知识( increased compartmentalization and abstraction through high-level tool use helps to loosely couple different domains of knowledge, while improved mechanisms for literature search and digestion make it easier to learn and retrieve necessary scientific knowledge )。)
4. 关键科研知识往往具有默会性与模糊性,这将阻碍科学研究的全自动化进程
Much important scientific knowledge is tacit or illegible, which will make full automation of science difficult.
在《国家的视角》( Seeing Like a State )一书中,詹姆斯·斯科特( James Scott )区分了两种知识形式:
一种是技术知识( techne ),另一种是他称之为“metis”( 希腊语 μητις ),意为“实践智慧”或“经验智识”( practical knowledge )。metis 的独特之处在于,它几乎无法被转化为书本知识( book knowledge )。我引用斯科特在书中的原文( 第 313 与 316 页 ):
“Metis 实践智慧体现为应对持续变化的自然与人类环境时所需的广泛实践技能与积累所得的智慧……它难以简化为可通过书本传授的演绎法则,因为其应用场景具有高度复杂性与不可重复性,形式化的理性决策程序在此往往失效。。”
我认为科学领域,尤其是实验科学中存在着大量实践智慧。几乎没有任何领域像科学这样仍然沿袭师徒传承模式( master–apprentice model of learning ),研究者需要通过多年实践与潜心钻研才能积累相关技能。
读博士期间掌握的一部分确实是技术性知识( techne ),但更多是难以言传的实践智慧( metis )。问问任何一位实验科学家,他们都会告诉你:每一篇论文背后都有无数关键的小技巧、诀窍、调试经验( the tricks, techniques, and troubleshooting ),这些往往才是实验成功的关键,但几乎从未出现在论文中。
对非科学家来说,一个叫 BlogSyn ( blog-syn. )的项目可以很好地说明这个问题。该项目由一群专业有机化学家发起,他们尝试仅根据论文上写明的实验步骤,复现已发表的化学反应。理论上,这听起来没问题:一位专家阅读同行评审论文中的详细实验步骤,然后照做,应该就能复现结果。但事实上,三分之二的案例中,研究者未咨询原作者就无法使反应按文献记载进行。( 与 Phil Baran 团队那次的复现过程持续了一个月,过程颇具火药味 — 可参考 BlogSyn 的第一部分与第二部分。)
part 1:
https://blog-syn./2013/02/blog-syn-003-benzylic-oxidation-of_18.html
part 2:
https://blog-syn./2013/03/blog-syn-003a-secret-ingredient.html
这个故事的启示并非原作者的疏忽。而是再次印证了斯科特的观点:
“实验科学的经验,几乎不可能完全通过文字传达( it’s really hard to actually convey all of the experience of laboratory science through the written word )。” 一个天才科学家, 即使读遍所有研究论文,但从未踏入实验室,也无法立即成为一个合格的研究者。然而,这恰恰是许多“AI科学家”宏伟愿景中隐含的预设前提。
那些“激进的加速主义实验室自动化拥护者”( accelerationist lab-automation advocates )可能会说:“metis 不过是人类的自我安慰(cope)罢了。” 换句话说,技术进步迟早会让这种模糊的人类技艺变得多余,就像机械织布机和缝纫机最终让纺织手艺失去了存在必要。这话部分正确。自动化确实能让实验执行更高效,但问题是:能被自动化的“标准流程”,永远滞后于最初探索的灵活阶段( But robust automatable protocols always lag after the initial flexible period of exploration )。
人类研究者首先必须“用任何可行的方法”找到目标,只有在那之后,才可能将其转化为稳健、可重复的自动化流程( One first discovers the target by any means necessary and only later finds a way to make the procedure robust and reliable )。要做出重大发现,’AI科学家’必须能够处理新颖实验中的模糊性与复杂性,而这极具挑战。
人类在此过程中能提供关键助力。我认为在科研闭环中保留人类角色将极大缓解这些问题( Humans can help, and I think that keeping humans somewhere in the loop will go a long way towards addressing these issues )。迄今为止绝大多数AI科研成功案例,都在体系某处隐性地依赖着某种实践智慧 ( metis ):哪怕你在用全自动高通量数据训练一个反应预测模型,最初那个被机器学习的“化学反应”仍是源自人类科学家的直觉与经验 ( if you’re training an AI-based reaction-prediction model on high-throughput data collected autonomously, the original reaction was still developed through the hard-earned intuition of human scientists )。甚至可以类比计算机科学中的阿姆达尔定律( Amdahl’s Law ):自动化非但不会消除实践智慧 ( metis ),反而会极大提升其回报率。
综上所述,我认为要建立真正完全自主的“自驾实验室”( self-driving labs ),其难度远超多数人的想象。人类在科学知识传统中的积累与传承极其强大,不应被轻率地抛弃。这也解释了一个耐人寻味的现象:至今“AI科学家”最显著的突破领域,数学、计算机科学、计算型科学,恰恰都是更容易被文本化表达( textually legible )的领域。若根据这些领域的成功经验预测全自动实验室前景,很可能产生误导。
( 实践智慧问题并不局限于实验科学,研究者对特定理念形成的’科学品味’同样是一种难以向 LLM 传递的默会知识( the “scientific taste” about certain ideas that researchers develop is also a form of metis that at present seems difficult to convey to LLMs )。不过相比实验难题,这类问题的解决路径似乎更可设想。)
5. 将确定性模拟工具与更灵活的智能体结合,将有巨大潜力
Integrating deterministic simulation tools with more flexible agents will be useful.
在我之前的一篇博文中,我写过用 ChatGPT 玩 GeoGuessr — 当时我发现 o3 会在后台悄悄用 Python 解复杂的三角方程来预测纬度。o3 是一个相当聪明的模型,它可能可以仅靠“思考”自己完成计算,但它选择使用计算器来做定量推理( it’s possible that it could do the math itself just by thinking about it, but instead it uses a calculator to do quantitative reasoning )( 就像我自己做的方式一样 )。更普遍地看,LLM 在与数据交互的方式上与人类有很多相似之处:它们擅长阅读和记忆事实,但仅靠“认真思考”并不能天生解决复杂的高维推理问题( they’re not natively able to do complex high-dimensional reasoning problems just by “thinking about them” really hard )。
人类科学家通过使用工具来解决这个问题。如果我想计算给定线性拟合的相关系数,或某个反应的势垒高度,我不会在脑中硬算,而是使用某种任务专用的外部工具,得到答案后再进行分析。结论显而易见:如果我们希望“AI科学家”真正有用,我们需要为它们提供与人类科学家相同的工具( if we want “AI scientists” to be any good, we need to give them the same tools that we’d give human scientists )。
很多人对这一观点感到惊讶,他们以为超级智能的“AI科学家”会自动从零重建整个科学工具生态系统。但作为亲手“氛围编程”开发过不少科研工具的实践者,我对此并不乐观。我们不会要求编程智能体从零编写数据库或网页服务器,同样也不应要求’AI科学家’从头创建密度泛函理论代码或分子动力学引擎( DFT code or MD engines )。
更抽象地说,确定性模拟工具与灵活的智能体系统之间存在一个自然且重要的分界。确定性模拟工具具有与LLM截然不同的特性,它们几乎总存在’正确答案’( Deterministic simulation tools have very different properties than LLMs—there’s almost always a “right answer” ),这意味着在嵌入更大智能系统前,这些工具可经过严格基准测试。鉴于科学研究的复杂性,这种责任划分与组件级测试能力对于构建稳健系统至关重要。
确定性模拟工具还需要固定的输入输出数据格式:它们无法直接处理现实科研中常见的半结构化混乱数据,必须依赖终端用户将其转化为规整的模拟任务。将这些工具与LLM结合,即使非模拟专家也能提出灵活的科学问题并获取有效答案,LLM可以调度这些工具并解析输出结果,从而大幅减轻科研人员的负担。
6. 为 AI 构建工具,很像为人类构建工具
Building tools for AIs will be a lot like building tools for humans.
我在 2023 年联合创立的 Rowan 是一家应用研究公司,专注于构建面向药物研发与材料科学的设计与模拟平台。我们致力于通过计算技术加速现实世界的研发进程,为此我们始终以务实态度为科研团队开发、测试并部署计算工具,追求真正的实际影响。
rowansci.com
创立 Rowan 之初,我们并未过多考虑’AI科学家’,当时预设平台的终端用户始终是人类,认为构建卓越的机器学习工具相当于’赋予科学家超能力’,能显著提升科研效率与成果质量。我依然坚信这一判断,并且( 如前所述 )认为人机协作的科研模式短期内不会消失( I doubt that we’re going to get rid of human-in-the-loop science anytime soon )。
但在过去几个月中,我逐渐意识到:我们既在为人类科学家打造工具,也在为’AI科学家’构建基础设施( I’ve realized that we’re building tools just as much for “AI scientists” as we are for human scientists )。这自然衍生自前文的推论:’AI科学家’时代已来临,它们将扮演重要角色且需要工具支持。更具体地说,我预计五年后 Rowan 平台上的计算任务将由’AI科学家’主导。需要说明的是,这些’AI科学家’仍将在某些层面受人类科学家指导( these “AI scientists” will still be piloted at some level by human scientists )!但具体执行计算操作的主体将更多由’AI科学家’承担 ( the object-level task of running actual calculations will be more often than not done by the “AI scientists” )— 至少这是我的预测。
那么,“为 AI 科学家构建工具”与“为人类科学家构建工具”有什么不同?奇妙的是,两者并无本质区别。虽然存在些表象差异:API设计对’AI科学家’更重要,可视化展示相对次要等等。但工具开发者的核心任务始终如一— 即遵循柏拉图所言’沿自然关节剖析现实’( to “cut reality at its joints” ),找到自然的信息瓶颈,从而创造简洁的、可组合的方法去建模复杂系统( to find the natural information bottlenecks that create parsimonious and composable ways to model complex systems )。工具之间的逻辑划分,源自科学研究领域本身,而不依赖最终用户的类型。
这意味着,为人类设计的好工具,也将是“AI科学家”的好工具。我们可以先在人类身上练习构建工具。从某种角度说,Rowan 的所有工作都可视为一种预演:通过在数千名人类科学家身上验证科学工具包的稳健性与有效性,为将来交付给’AI科学家’做好充分准备( we’re validating our scientific toolkit on thousands of human scientists to make sure it’s robust and effective before we hand it off to the “AI scientists” )。
7. 未来科学将呈现 AI 介导的递归式抽象演进
The future of science will look like some degree of recursive AI-mediated abstraction.
如果工具间的逻辑划分确实源于科学领域的内在特性,那么 AI 驱动的科研进程也应当对人类保持可理解性。我们可以设想这样一种自动化科学图景:它沿着不断升维的抽象层级逐级攀升( We can imagine a vision of scientific automation that ascends through progressively higher layers of abstraction )。预测未来本就困难,但我仍想以化学领域为例勾勒可能的发展路径:
在基础层面,由物理原理或机器学习驱动的确定性模拟工具,负责预测特定物理状态的结果与性质。这无需太多想象力:Rowan 现有产品( 及诸多同类工具 )已实现这类功能,计算建模和模拟工具已经在几乎所有现代药物和材料设计公司中投入使用。
往上一层,可以设想’AI科学家’管理着明确的多参数优化流程( we can imagine “AI scientists” managing well-defined multi-parameter optimization campaigns )。这些智能体能够协调底层模拟任务,基于科学直觉、历史数据及潜在的人类输入生成新方案,朝着特定目标( 如某种特定产品特性 )推进( these agents can work to combine or orchestrate the underlying simulation tasks in pursuit of a well-defined goal, like a given target–product profile, while generating new candidates based on scientific intuition, previous data, and potentially human input )。关键在于,通过追踪各项指标随时间的变化,即可客观评估这些智能体的成败,便于人类监督验证结果正确性。此类智能体的演示版本已经问世,预计未来几年将不断完善并扩大应用范围。
其他形态的’AI科学家’也值得期待( Other “AI scientist” phenotypes could also be imagined ),虽然实验室自动化( lab automation )的进展难以预估,但我们有理由盼望更多常规实验工作能由’AI科学家’自动化完成,包括调试合成路线与验证化合物结构( a growing amount of routine lab work could be automated and overseen by “AI scientists” working to debug synthetic routes and verify compound identity )。如前所述,由于实践智慧的存在,我对这个领域的时间表预测远比纯模拟智能体保守,但即便部分解决方案也能带来显著价值。这类’实验型 AI 科学家’( experimental AI scientist )将与前述’计算型AI科学家’( computational AI scientist )形成天然互补,即便仍需要大量人工指导与监督。
第三类基础’AI科学家’是承担数据分析和文献阅读的’AI科研助理’( A third category of low-level “AI scientist” is the “AI research assistant” that conducts data analysis and reads the literature )。这本质上是’深度研究’的增强版,我认为某种形式的此类工具已经存在,并将在未来几年发挥重要作用。
我们很容易想象人类同时操控以上三类工具,就像经验丰富的管理者能调动整个实验室团队朝特定目标迈进。但为何不向更高抽象层级跃迁?可以设想’AI项目经理’协调计算筛选、实验操作与文献检索智能体,共同推进高层级目标( We can imagine “AI project managers” that coordinate computational screening, experimentation, and literature search agents towards a specific high-level goal )。这类智能体将负责根据科学文献、模拟结果和历史实验数据,在探索与开发之间高效分配资源 — 同样地,人类可随时调整其策略或优先级( These agents would be in charge of efficiently allocating resources between exploration and exploration on the basis of the scientific literature, simulated results, and previous experimental data—again, they could easily be steered by humans to improve their strategy or override prioritization )。
这一最终抽象层可能仅在以下条件下才有意义:
-
低层抽象足够稳健;
-
实验成本低到人类监督成为现实瓶颈;
-
底层模型足够智能,以至于比人类更适合管理项目。
不同人对这些问题的直觉差异很大,我在此不打算解决——这种监督可能永远由人类完成,也可能 GPT-6 足够强大,以至于你宁愿让 AI 管理日常操作而不是人类。我会感到惊讶,如果在未来五年内“AI科学家”能达到这一层次,但从长远来看,这也不无可能。
这套整体构想或许带着科幻色彩,目前确实仍属科幻范畴。但我欣赏这种递归抽象的科学未来图景,因为它既充满雄心,又保留了可理解性、可解释性与可审计性等重要特性( I like this recursively abstracted form of scientific futurism because it’s ambitious while preserving important properties like legibility, interpretability, and auditability )。该愿景还蕴含着可实现的短期目标:各个组件可独立测试优化,并逐步集成至更强大的系统( individual components can be tested and optimized independently and, over time, integrated into increasingly capable systems )。我们不必等 GPT-6 从“深渊”中召唤科学突破 — 沿着这条路迈出的早期步伐,即便真正的科学超级智能( scientific superintelligence )未到来,也将非常有用。
在写作过程中,我发现自己无意中呼应了 Alice Maz 在治理意识形态论述中提出的’AI介导的人类可理解抽象民主’( AI-mediated human-interpretable abstracted democracy )愿景。引用 Hieronym《迈向星辰》( To The Stars )的观点,Maz 提出 AI 介导的政府应尽可能遵循人类政府流程,’让关注公共事务的公民始终能理解决策过程,而非面对一堆不可解读的效用最优化问题( an AI-mediated government should follow the procedure of human government where possible “so that interested citizens can always observe a process they understand rather than a set of uninterpretable utility‐optimization problems” )‘。我认为这同样是科学与科学家未来的理想图景,也是我致力追寻的方向。
原文链接:
https://corinwagen./public/blog/20251021_seven_thoughts_on_ai_scientists.html
面向机器的出版 | publishing for machines
谁在资助“异类科学研究”? | Who Funds Misfit Research?