从生物神经到人工智能，注意力机制升级版NAC构建兼具稳定性与通用逼近能力的连续时间注意力模型

李飞飞教授在多次演讲中提到，正是观察到低龄儿童在视觉理解上的惊人能力，让她意识到机器视觉必须借助大规模数据集来模仿人类的学习过程，于是才有了 ImageNet 的诞生。这种跨学科的启发，正在成为推动人工智能走向更深层次的关键力量。

在时序数据的世界里，建模的挑战更为复杂。时间序列、空间–时间模式、预测与控制，几乎涵盖了从金融市场到自动驾驶、从工业设备到医疗监测的所有智能应用场景。

传统的 RNN、LSTM、GRU 曾经是这一领域的主力军，它们通过迭代更新隐藏状态来捕捉序列依赖。然而这些模型往往假设数据是规则采样的，一旦遇到不规则采样就显得力不从心。同时，梯度消失与长依赖难以建模的问题，也让它们在复杂场景下表现受限。

为了解决这些问题，研究者们提出了连续时间 RNN（CT-RNN）与液体神经网络（LNN）。它们通过常微分方程来描述隐藏状态的演化，使模型能够处理任意时间间隔的输入，甚至赋予神经元可变的时间常数，从而提升适应性与鲁棒性。但这些方法依然面临训练难度大、计算开销高的现实挑战。

注意力机制的出现曾被视为一次革命。Transformer 通过点积相似度让模型在序列中自由选择关注点，缓解了长依赖问题。然而，它的本质仍是离散的矩阵运算，难以捕捉连续动态轨迹。即便有 Sparse Attention、Longformer 等改进，依然无法彻底解决连续时间建模的需求。

这正是研究空白所在，我们缺乏一种真正生物启发的连续时间注意力机制，既能继承注意力的表达力，又能像生物神经系统一样处理不规则的时间动态。于是，神经元注意力回路（Neuronal Attention Circuit, NAC）应运而生。

它将注意力 logits 的计算重构为一阶线性 ODE 的解，并引入源自秀丽隐杆线虫神经电路策略（NCPs）的稀疏门控结构。通过这种方式，NAC在生物合理性与计算效率之间找到了平衡点，既能保证稳定性与通用逼近能力，又能在实际应用中展现出优越的性能。

这项研究来自中国科学技术大学自动化系与合肥综合性国家科学中心人工智能研究院的联合团队。主要作者包括 Waleed Razzaq、Izis Kankaraway，以及Yun-Bo Zhao教授。团队长期致力于人工智能的连续时间建模与跨学科探索，尤其关注如何将生物神经系统的启发转化为可落地的算法架构。

NAC 的核心思想与数学建模

注意力机制曾被视为改变深度学习格局的关键一步，但 NAC——神经元注意力回路的提出，试图让这一机制走得更远，不仅是矩阵点积的算术游戏，而是一次真正的“动力学革命”。研究团队将注意力logits 的计算重新表述为一阶线性常微分方程的解，

这条公式背后蕴含着一种全新的思维方式。它不再把注意力看作静态的相似度，而是让注意力随时间演化，像神经元的电信号一样在连续时间中流动。这里的ωτ与ϕ就是两道关键的门控，一个决定速度，一个决定方向。

所谓时间常数门ωτ ，它像是神经元的“节拍器”，控制着收敛的速度与稳态的幅度。数值越大，系统越快收敛到稳定状态；数值越小，注意力的轨迹则更缓慢、更持久。另一边的内容目标门ϕ，则像是信息的“放大器”，决定哪些信号被强调，哪些被抑制。两者相互作用，让 NAC 的注意力机制既有动态节奏，又有内容选择。

在计算模式上，研究团队提供了三种路径，最简单的 Euler 积分，像是用最粗糙的笔触描绘动态；闭式解则是数学上的精确答案，揭示了轨迹的完整形态；而稳态近似，则回到传统注意力的熟悉场景，直接取收敛后的结果。这三种模式的并存，赋予 NAC 在不同任务与算力约束下的灵活性。

更令人印象深刻的是稀疏 Top-K 拼接的设计。在传统注意力中，query 与所有 key 都要两两交互，计算与内存消耗呈平方级增长。而 NAC 的思路是“只挑最相关的”，通过 Top-K 筛选保留最重要的交互对，再进行拼接。这不仅大幅降低了内存消耗，也让注意力机制更贴近人类的认知逻辑——我们在观察世界时，也不会对每一个细节都平均关注，而是选择性地聚焦。

这一切构成了 NAC 的核心思想，让注意力机制从离散走向连续，从算术走向动力学，从全连接走向稀疏。它既是数学建模的创新，也是生物启发的再现，更是人工智能在表征学习上的一次结构性突破。换句话说，NAC 不只是一个新的模块，而是一种新的范式，试图让机器的注意力更像神经元的注意力。

再现性代码可在以下网址获得：https://github.com/itxwaleedrazzaq/neuronal_attention_circuit

稳定性与理论保证

在人工智能的叙事中，任何新架构的提出都必须回答一个根本问题，它是否稳定、是否可靠、是否具备理论上的普适性。NAC 的设计者们深知这一点，因此在提出神经元注意力回路的同时，给出了完整的稳定性与理论保证。这不仅是数学上的自洽，更是对产业界的一种承诺——这套机制不会在复杂场景中失控，而是能够像生物神经系统一样保持稳健。

所谓状态稳定性，指的是注意力轨迹在正衰减率下不会发散。研究团队通过对单连接与多连接场景的分析，证明了 NAC 的注意力状态在合理的参数设定下始终保持在有界范围内。换句话说，注意力的动态演化不会出现无限增长或不可控的震荡，而是像神经元电位一样在稳定区间内收敛。这种保证让 NAC 在处理不规则时间序列时具备了天然的可靠性。

更进一步，团队给出了指数收敛误差界。他们证明了 NAC 的解不仅会收敛，而且收敛速度遵循精确的指数规律。误差的衰减与时间常数门ωτ 成反比，意味着只要设定合理的参数，系统就能在有限时间内达到预设的精度。这种数学上的优雅，让 NAC 不再是黑箱，而是一个可预测、可控制的动力学系统。

图1：（a）具有预定接线的NCP的图示；（b）感觉门，其中感觉神经元处于活动状态，其余神经元在q、k和v投射时被禁用；（c）骨干，显示运动间投射，延伸头部的感觉神经元在计算ϕ和ωτ时被禁用。

在理论层面，研究者们还扩展了经典的通用逼近定理（UAT），证明 NAC 具备逼近任意连续函数的能力。这意味着 NAC 不仅是一个特定任务的工具，而是一个具有普适表达力的架构。它能够在足够的维度与稀疏度下，模拟任何连续映射，从而在理论上站稳了“通用表征学习器”的位置。

从生物神经到人工智能，注意力机制升级版NAC构建兼具稳定性与通用逼近能力的连续时间注意力模型

网络设计与实现机制 NCPs 的重构

团队从秀丽隐杆线虫的神经电路策略（NCPs）出发，将原本固定的生物 wiring 转化为可配置的稀疏结构，这种重构让 NAC 保留了生物神经系统的稀疏性与局部性，同时具备了人工网络的灵活性。

在具体实现上，感官门（Sensory Gate）承担了结构化投影的任务。它将 q、k、v 的表示投射到稀疏的神经元组中，保持输入的局部性与模块化，而不是像传统注意力那样一股脑地全连接。这种设计让信息流动更有秩序，也更贴近生物神经的工作方式。

骨干网络（Backbone）则是 NAC 的核心，它共享表示，并通过分支分别计算内容目标门 ϕ与时间常数门ωτ。这种共享与分支的结合，使 NAC 能够同时捕捉结构依赖与时间动态，既保证了表达力，又提升了训练收敛速度。

时间向量的构建是 NAC 的另一大亮点。研究者们引入了伪时间（pseudo-time）的概念，通过归一化与动态调节，让模型在不同任务中都能拥有一个平滑、可控的时间表示。这不仅解决了不规则采样的问题，也让 NAC 在无时间标签的任务中依然能够发挥作用。

最后，多头扩展让 NAC 保持了与 Transformer 一致的灵活性。不同子空间的注意力头学习独立的动态兼容性，再通过拼接与线性投影汇合成整体输出。这样一来，NAC 不仅继承了多头注意力的优势，还在每个头中注入了连续时间的动力学，使得整体架构更具表现力。

实验与评估不规则时间序列

在不规则时间序列的实验中，Event-based MNIST成为首个试金石。这个数据集将经典的 MNIST 图像转化为事件驱动的时间序列，要求模型能够处理不均匀的采样与复杂的时间依赖。结果显示，NAC-PW 模式取得了最高的准确率，超过了 GRU-ODE 与 ContiFormer 等连续时间基线。这一成绩意味着 NAC 在处理非规则数据时具备天然优势，它的动态演化机制能够更好地捕捉时间的细微变化。在人体活动识别（PAR）任务中，NAC-PW 再次拔得头筹，准确率领先于 GRU-ODE 与 NAC-Exact。这表明 NAC 在真实传感器数据的分类任务中同样表现出色，能够有效理解复杂的动作模式。

图2:说明（a）神经元注意回路机制的架构；（b）多头延伸。

自动驾驶车道保持是另一个关键场景。在 CarRacing 模拟环境中，NAC-PW 的表现略优于 LSTM 与GRU，取得了最优的准确率。这说明 NAC 不仅能处理时间序列，还能在需要长因果链条的任务中保持稳定的性能。而在 Udacity 模拟器中，NAC-32k 模式取得了最低的均方误差（MSE），优于 NAC-Exact 与ContiFormer。这一结果尤为重要，因为自动驾驶任务对精度与稳定性要求极高，NAC 的表现证明它能够在复杂动态环境中提供可靠的预测。

工业预测性维护（Industry 4.0）是 NAC 的另一大应用舞台。团队将 NAC 应用于轴承寿命预测任务，跨数据集进行泛化测试。结果显示，NAC 在不同数据集之间保持了优异的表现，展现出强大的跨域适应能力。这对于工业场景至关重要，因为设备的运行条件往往多变，模型必须具备在不同环境下依然准确预测的能力。NAC 的成功意味着它有潜力成为工业智能化的核心工具。

图3：退化估计结果。

在效率与内存的对比中，NAC 的表现同样令人印象深刻。它在速度上介于 CT-RNN 与 CT-Attention 之间，既不如 CT-RNN 那般轻量，但也避免了 CT-Attention 的高昂开销。更关键的是，Top-K 稀疏拼接的设计显著降低了内存消耗。传统注意力机制在长序列下往往因全连接计算而陷入内存瓶颈，而 NAC 的稀疏拼接让它能够在保持表达力的同时，大幅减少资源占用。这一特性让 NAC 更适合在资源受限的设备上运行，为边缘计算与嵌入式智能提供了可能。

研究意义与未来展望

NAC 的提出是一次跨学科的突破，它首次将生物启发的连续时间注意力机制带入深度学习的舞台，不仅在数学上证明了稳定性与指数收敛的误差界限，还扩展了通用逼近定理（UAT），确认 NAC 能够逼近任意连续函数。

这意味着 NAC 不只是一个巧妙的工程设计，而是一个在理论上站得住脚的通用表征学习器。它让我们看到，注意力机制不必局限于离散点积，而是可以在连续时间的动力学中找到新的表达力。

应用价值同样不容忽视。NAC 在不规则时间序列建模中展现出强大的优势，能够处理复杂的事件驱动数据；在自动驾驶的车道保持任务中，它提供了更稳定的预测，证明了在动态环境下的可靠性；在工业智能场景中，它跨数据集的泛化能力尤其突出，为预测性维护与设备健康管理提供了新的工具。

这些应用场景的共同点在于，数据往往不规则、环境复杂、要求高精度与高稳定性。NAC 的设计恰好契合了这些需求，它的出现为 AI 在关键行业的落地提供了新的可能。

未来的方向更值得期待，研究团队提出了自适应稀疏优化的构想，进一步降低计算复杂度，让 NAC 在长序列与大规模数据中更加高效。他们还计划扩展至更复杂的神经电路结构，借鉴更丰富的生物神经模式，从而提升模型的表达力与适应性。

更令人振奋的是，NAC 有望与大规模预训练模型结合，成为跨领域泛化的关键模块。这意味着 NAC 不仅能在特定任务中表现优异，还可能成为未来通用智能架构的一部分，推动 AI 在更广阔的场景中实现突破。

总结来看，NAC 的定位非常清晰，它介于 CT-RNN 与 CT-Attention 之间，既继承了连续时间建模的优势，又保留了注意力机制的表达力。它是生物启发与工程落地的结合，从秀丽隐杆线虫的神经电路到人工智能的表征学习，跨越了学科的边界。

对行业而言，NAC 的出现传递了一个重要信号，未来 AI 的突破，可能更多来自跨学科的生物认知启发，而不仅仅是算力的堆叠或数据的扩张。它提醒我们，真正的智能或许就在于模仿自然的智慧，而 NAC 正是这一理念的最新注脚。（END）

参考资料：https:///pdf/2512.10282

波动智能旨在建立一个基于人类意图与反应的真实需求洞察及满足的价值体系，融合人工智能与意识科学，构建覆盖情绪识别、建模与推荐的智能引擎，自主研发面向社交、电商等场景的多模态意图识别引擎、意图标签系统及意图智能推荐算法，形成从情绪采集、意图建模到商业转化的完整解决方案。波动智能提出“意图是连接人、物与内容的新型接口”，其产品广泛应用于AI社交、个性化内容推荐、虚拟陪伴、电商体验优化等领域。波动智能正在探索“EMO-as-a-Service”技术服务架构，赋能企业实现更高效的用户洞察与精准情绪交互，推动从功能驱动到意图驱动的产业范式升级。

#artContent h1{font-size:16px;font-weight: 400;}#artContent p img{float:none !important;}#artContent table{width:100% !important;}

微精选

从生物神经到人工智能，注意力机制升级版NAC构建兼具稳定性与通用逼近能力的连续时间注意力模型

最近文章