如何设计真实世界功能性近红外光谱研究：入门指南

意义

功能性近红外光谱技术 (fNIRS) 是一种独特的神经影像学方法，具有高度的便携性和对运动的耐受性，使其非常适合在动态的真实世界环境中进行研究。然而，为了适应真实世界研究环境的独特要求，精心设计 fNIRS 范式至关重要。我们概述了 fNIRS 研究的关键设计原则和注意事项。

目的

在本文中，我们旨在解决 fNIRS 实验设计指导匮乏的问题，这在我们这个不断发展的领域中，有助于教育新的 fNIRS 研究人员，并提高 fNIRS 研究在各种环境中的质量和适用性。

方法

在此，我们就如何设计 fNIRS 研究以及克服 fNIRS 实验设计中的挑战提供了一份入门指南，重点关注近年来引起研究兴趣日益增加的自然主义真实世界研究。

结论

最后，我们概述了七个关键的设计原则，研究人员可以利用这些原则来指导 fNIRS 研究的实验设计。本文发表在Neurophotonics杂志。

1. 引言

功能性近红外光谱技术（或称 fNIRS）是一种快速发展的方法，在真实世界神经科学和社会神经科学领域具有巨大的潜力。然而，在如何设计自然主义情境下的 fNIRS 研究以在非传统、相对不受约束的环境中有效利用这一技术方面，存在着巨大的挑战。如何设计既能捕捉有意义的真实世界行为，又能利用 fNIRS 设备巨大灵活性的研究，是本文关注的重点。本文是一篇入门指南，旨在帮助那些在实验设计方面专业知识较少或缺乏的研究人员。它阐述了使用 fNIRS 进行认知神经科学研究的任务设计核心原则。首先，我们将在 1.1 节介绍 fNIRS 并探讨其优势和局限性。然后，我们将讨论 fNIRS 研究的一般设计原则（第 2 节），之后专门讨论自然主义研究（第 3 节）、超扫描（Hyperscanning）研究（第 4 节）和发展研究（第 5 节）。最后，我们将重申 fNIRS 实验设计（特别是在真实世界环境中）的关键挑战和建议，并强调该领域未来的潜在方向。

1.1 fNIRS 能做什么和不能做什么

fNIRS 是一种光学神经影像技术，利用近红外光来估算血液中氧合血红蛋白 (HbO) 和脱氧血红蛋白 (HbR) 浓度的相对变化。基于神经血管耦合机制，HbO 和 HbR 的变化被认为是脑活动的间接指标。这是因为在神经元放电后，可靠地观察到脑血流量增加，同时伴随着 HbO 的增加和 HbR 的减少——这被称为血流动力学响应。fNIRS 测量的血流动力学响应与功能性磁共振成像 (fMRI) 测量的 BOLD 响应具有直接可比性，后者利用了脱氧血红蛋白的顺磁特性。然而，fNIRS 测量的是 HbO 和 HbR 两者的相对浓度变化，分析这两种信号可以深入了解生理过程并辅助解释。例如，Cui 等人开发了一种基于 HbO 和 HbR 之间负相关的“激活信号”，这可能反映了功能性激活。同样，Yamada 等人开发了一种方法，将 fNIRS 信号分离为功能成分（HbO 和 HbR 呈负相关）和受系统生理影响的成分（可能导致 HbO 和 HbR 呈正相关）。关于 fNIRS 信号的成分及其如何导致假阳性和假阴性的进一步讨论，可见于以前的研究。

fMRI 可以捕捉全脑数据（全脑记录的典型分辨率为 3 毫米，频率为 0.5 至 0.3 赫兹），而 fNIRS 仅捕捉皮层表面的数据，对深度超过约 2 厘米的区域不敏感。目前大多数 fNIRS 设备以约 25 至 30 毫米的分辨率和 5 至 10 赫兹的频率采集数据，但较新的扩散光学层析成像（diffuse optical tomography）在相同频率下将分辨率提高到了 6 毫米。

由于 fNIRS 和 fMRI 测量的是相同的脑信号，这意味着 fNIRS 研究可以借鉴经过数十年研究成功开发的 fMRI 实验设计原则。源自 fMRI 的实验设计原则为学习使用 fNIRS 的新研究人员提供了一个极好的起点，我们在 2.1 节中对此进行了总结。然而，fNIRS 也可以超越 fMRI，因为它便于在传统且严格控制的实验室环境之外的更复杂背景下收集数据，从而拓宽了不同实验设计、研究问题及相关应用的可能性。其他神经影像模态不具备如此广泛的用途。fMRI 要求参与者保持完全静止，仅允许有限的手部和眼部运动，而脑电图 (EEG) 记录极易受到即使是微小的眼部或面部运动引起的运动伪迹的影响。这使得这些模态在实验室外使用具有挑战性。此外，fNIRS 相比 fMRI 具有更高的时间分辨率，能够深入了解血流动力学信号的更快速变化。这允许更清晰地测量和追踪信号中的生理成分，如心跳，从而更容易将其从信号中分离出来或提取这些生理信号进行进一步处理。因此，更高的时间分辨率有助于更精确地过滤和去除 fNIRS 信号中的伪迹，同时避免较快生理成分的混叠。

与 fMRI 相比，fNIRS 的一个关键优势是其对运动的耐受性和便携性，使其能够应用于真实世界环境——尤其是新一代的无线和可穿戴设备。例如，研究人员已使用 fNIRS 探索与舞蹈、现场戏剧以及在真实街道环境中行走相关的问题。fNIRS 也非常适合社会互动研究。佩戴 fNIRS 帽的参与者可以参与对话、模仿任务、合作任务以及许多其他社会活动，而不会严重影响信号质量。这种灵活性正在真实世界社会神经科学和第二人称神经科学（second-person neuroscience）领域开辟新的研究途径，并使真正自然主义的社会互动研究成为可能。

然而，带着 fNIRS 走出实验室的自由也给实验设计带来了新的挑战。真实世界的行为和自然的社会互动并不总是落入整齐的实验组块（blocks）中，例如 30 秒的一项任务后紧接着 30 秒的另一项任务，或者具有可以平均在一起的清晰可重复的实验条件。本文的一个重点是如何设计既能捕捉有意义的真实世界行为，又能充分利用 fNIRS 设备灵活性的研究。

2. 我们应该如何设计 fNIRS 研究？

选择合适的实验设计对于神经影像研究项目的成功至关重要，但这并未在教科书中被明确教授或描述。一个好的设计应该捕捉到与感兴趣的功能相关的脑活动，应该在没有混淆因素的情况下易于解释，并且数据中应具有良好的信噪比以支持适当的统计分析。在本节中，我们将首先概述与 fNIRS 相关的 fMRI 一般知识，然后讨论选择合适的对照条件的重要性。

2.1 fMRI 的经验教训

从脑活动模式推断认知过程的挑战对 fNIRS 研究领域来说并不新鲜。使用 fMRI（以及之前的正电子发射断层扫描 PET）的研究人员在过去 30 年中制定了核心原则和复杂的实验设计，以便能够将血流模式与认知联系起来。在此，我们借鉴 Friston 等人及其他人的工作，简要回顾这些原则。

大多数认知神经影像研究始于人类认知的（隐性）模型，即一种信息处理模型，其中感觉信息进入大脑，以各种方式被处理，然后发出运动反应。这种处理可能涉及记忆、语言、模仿、心理理论（Theory of Mind）或任何其他认知系统，具体取决于给予参与者的任务。虽然这种类型的“方框和箭头”模型受到了广泛批评，但大脑不同区域有助于不同认知过程的基本观点仍然是大多数认知神经科学研究的核心假设。对于计划研究的研究人员来说，从他们希望测量什么核心认知过程以及该过程在不同实验条件下可能如何变化的想法开始是非常有帮助的。

我们首先考虑比较条件 A 和条件 B 下脑反应的经典实验设计。例如，条件 A 可能涉及检测面孔图像，而条件 B 涉及检测房屋图像。通常，此类研究中的参与者会在电脑上看到刺激并作出反应，刺激和任务的时间由实验者控制，但应该使用什么样的任务计时和顺序呢？血流动力学响应函数 (HRF) 提供了一个方便的数学模型，描述神经活动如何与该区域随后的 HbO 和 HbR 变化相关联，这种响应通常在神经活动开始后约 5 秒达到峰值。鉴于血流动力学响应的这种缓慢上升时间，模拟表明，交替进行 30 秒任务 A / 30 秒任务 B 的组块（blocks）可以最大化 fMRI 或 fNIRS 可记录到的信号功率。图 1 的左侧面板展示了这种经典的组块设计，显示了两种卷积响应是如何清晰且可分离的。这种经典的组块设计已广泛用于成人和婴儿研究。

图 1：功能性神经影像学的经典设计。

在组块设计（block design）中，两个具有长组块持续时间的条件在与 HRF 卷积后导致截然不同的预测脑信号。在事件相关设计（event-related design）中，两个条件持续时间短且不规则交替，而是采用伪随机计时。这意味着当短事件与 HRF 卷积时，仍然可以获得两个截然不同的预测脑信号。这些基本设计的许多不同组合和变体也是可能的。

在所有这些例子中，我们假设数据将使用 fMRI 研究中常用的一般线性模型 (GLM) 方法进行分析。在这种方法中，目的是建立一个完整的设计矩阵（design matrix），捕捉实验会话中所有重要的任务和事件，然后将每个通道的 fNIRS 数据拟合到设计矩阵，以提供统计检验，说明哪个任务/事件最能解释该通道的数据。在上面的例子中，设计矩阵将模拟对面孔的潜在神经反应和对房屋的潜在神经反应（图 1 中的 AHRF 和 BHRF）。设计矩阵还可以包括模拟参与者在任务中反应（如按键）或生理变量（如心率）的因素，从而允许对任务的许多方面进行综合建模。这与 fNIRS 数据的组块平均（block-average）方法形成对比，后者将任务的不同组块彼此分离然后平均。

GLM 方法很灵活，因为它还可以处理无法将刺激或任务分离成明显的 30 秒组块的情况。如果事件具有不规则的计时和/或顺序，仍然可以使用具有更短事件的事件相关设计。这种不规则性确保了在将预测的脑信号与血流动力学响应函数卷积后，不同事件的信号可以相互区分。也就是说，图 1 右侧面板中的信号 AHRF 和 BHRF 必须互不相关。如果两个信号太相似，它们就不能作为独立预测变量包含在一般线性模型（或设计矩阵）中。使用 GLM 分析神经影像数据允许研究人员根据与 HRF 卷积的条件计时，确定脑活动与给定条件的预期模式的一致程度。如果任务 A 和 B 中的事件在时间上发生得太近或遵循规律模式，AHRF 和 BHRF 可能会重叠并变得太相似（共线性），从而无法在一般线性模型中分离它们。这将导致脑活动估计不可靠。

这种仅用两个不同实验条件模拟脑激活的经典方法通常被称为认知减法 (cognitive subtraction)。该设计的逻辑如图 2（面板 1）所示，即两个实验条件都利用相似的输入系统（例如视觉系统）和相似的运动输出（如按键），但在其间发生的认知处理不同。然后我们可以测试感兴趣条件（条件 A）下的脑活动是否大于对照条件（条件 B）。如果发现这些条件之间存在差异，我们可以有一定信心认为被激活的脑区参与了特定于条件 A 的过程。使用各种不同的对照条件可以提高对激活模式特异性的信心，正如 Kanwisher 等人关于面孔处理的经典论文所证明的那样。

图2：实验设计的类型。

面板 1 显示了认知减法设计，其中任务 A 和任务 B 尽管具有相似的输入和输出，但涉及不同的中枢认知过程。

面板 2 显示了认知交互作用，其中任务 B 影响任务 A。

面板 3 显示了认知重叠，其中任务 A 和任务 B 尽管具有不同的输入和输出，但涉及相似的过程。

虽然认知减法为神经影像研究提供了一个有用的起点，但也可能超越这一点。交互作用设计 (Interaction designs) 是另一种选择（图 2，面板 2）。在这里，研究人员测试过程 B 是否调节或与过程 A 相互作用；例如，当参与者看到左边是房子、右边是面孔的图像时，注意左侧刺激的指令是否会改变神经激活？图 2 的面板 3 显示了认知重叠设计 (cognitive overlap design)，其中使用不同的输入和输出模态来测试是否存在用于处理两种不同类型刺激的共同脑激活。fMRI 中一个清晰的例子来自 Wicker 等人：参与者闻到令人厌恶或愉快的气味，并且在单独的扫描中，看到其他人闻到令人厌恶或愉快气味的视频。对比“体验到的厌恶 > 体验到的愉快”显示前脑岛的激活与“看到的厌恶 > 看到的愉快”的对比相重叠。这被视为厌恶刺激在嗅觉和视觉模态中具有共同神经处理的证据。在所有这些案例中，与不同实验条件相关的脑激活是与另一个紧密匹配的实验条件进行比较，而不是与休息进行比较。替代方法包括加法因子法和使用重复抑制的方法，但对此的详细描述超出了本文的范围。

2.1.1 选择合适的对照条件

在所有这些类型的设计中，一个关键的考虑因素是使用什么对照条件。一般来说，对照条件必须尽可能紧密地与实验条件匹配。例如，在比较看面孔（条件 A）或看房子（条件 B）的脑反应的经典实验中，“面孔”条件和“房子”条件中使用的图像应具有相同的亮度/对比度/颜色和相同的多样性（即 30 张不同的面孔对比 30 栋不同的房子，而不是对比 5 栋不同的房子）。条件之间的良好匹配意味着研究人员可以确信任何效应都是特定于被操纵变量的，而不是由低级视觉因素（如亮度/对比度）驱动的。这也称为精细切割 (fine-cuts) 技术，使用这种方法意味着研究人员必须像关注实验条件一样密切关注用作对照条件的内容。这是必不可少的，因为只有通过在实验任务和对照任务之间进行精心选择的对比，才可能得出关于大脑认知过程的有意义的结论。

基于这种精细切割的想法，我们强调好的设计通常不需要包含休息条件。休息通常是一个非常糟糕的对照条件。人脑从未处于休息状态：参与者总是在思考某些事情，无论是他们晚餐的购物清单、最近与伴侣的争吵，还是仅仅是实验设置引起的不适。因此，指示参与者“休息 30 秒”并不会创造一个什么都不做的大脑，而是每个人都会做些不同的事情，伴随不同的认知需求，并且对大脑中发生的事情没有实验控制。人们在“休息”条件下思考自己或他人是很常见的；事实上，有证据表明“静息态网络”与社会认知相关的大脑网络有很大重叠。因此，“休息”是一个特别糟糕的对照条件，尤其是当目标任务是关于社会认知或社会互动时，因为参与者在休息期间也很可能在思考社会话题。

我们反对将“休息”作为实验条件的论点不应被视为反对研究“静息态”的论点，即在没有任何实验任务的情况下测量数分钟的脑活动。静息态脑活动的研究在许多方面可能很有价值，但它们与本文关注的真实世界任务研究截然不同。在 fNIRS 研究开始时通常也会包含一小段“休息”时间，以允许参与者适应实验环境，让系统生理稳定下来，并建立一个基线参考，以便使用修正的 Beer-Lambert 定律量化血流动力学变化。在主要实验之前记录一小段休息时间的脑活动，由于静息态和任务诱发激活之间的关联，可以辅助解释基于任务的 fNIRS 数据。然而，这与在研究设计中使用“休息”作为对照条件是不同的。未来的研究可以探索静息态神经活动、研究开始时的基线神经活动和任务相关脑活动之间的关系，但这是一个单独的问题，超出了本文的范围。

在设计实验对照条件时，关键的想法是每个对照条件必须根据实验条件来选择——没有通用的“对照”适用于所有实验设计。在视觉处理研究中（例如，看面孔），最好的对照条件可能也是视觉的（例如，看房子）。在听觉处理研究中，可以将听句子的实验条件与听杂乱或倒放句子的对照条件进行比较。在基本运动系统的研究中，手部运动可以合理地与休息（无运动）进行比较，但比较复杂的手部运动与简单的重复性手部运动可能也很有用。在社会互动研究中，合适的对照条件可能是一项要求很高的非社会任务，例如在一堆字母 L 中搜索字母 T，或者整齐地给一个复杂的形状上色。在设计和解释神经影像研究结果时，至关重要的一点是要相互关联地考虑实验条件和对照条件。

总而言之，fNIRS 研究中的实验设计可以从使用 fMRI 的研究人员的经验中学到很多（见表 1 的总结）。我们看到组块设计是最佳的，但经过对任务计时的仔细考虑，也可以使用事件相关设计。所有这些实验设计最好是结合所调查的具体认知过程以及分离大脑中不同认知过程的精细切割方法来开发。

表1：一般 fNIRS 实验的简单设计规则总结

序号	内容
1	尽可能让实验条件与对照条件紧密匹配
2	不要把“静息”作为对照条件
3	30 秒长度的区块最为理想
4	事件应该随机化
5	样本量很重要

3. 如何将 fNIRS 带入真实世界

fNIRS 的主要优势之一是参与者可以自由移动并与世界上的其他人、物体和地点互动。这为各种各样的实验设计创造了选择，这些设计可能看起来与前一节描述的传统 fMRI 研究或基于实验室的认知任务截然不同。

Burgess 及其同事的工作是使用可穿戴和便携式 fNIRS 进行的首批真实世界研究之一。这项研究建立在调查前瞻性记忆 (prospective memory, PM) 时对结构不良和开放式情境的需求之上。此类研究考察了当人们必须在未来做某项任务（PM 目标任务）时，尽管存在各种真实世界的干扰所带来的挑战。这反映了真实世界的过程，例如尽管火车延误，也要记得在下班回家的路上买牛奶。实验室研究无法轻易捕捉这种情况的复杂性；因此在这项研究中，Burgess 等人使用移动 fNIRS 来测试当人们在真实世界中执行前瞻性记忆任务时，是否可能评估前额叶皮层的激活模式。实验在伦敦街头进行，没有对环境进行特别准备；参与者在佩戴移动 fNIRS 设备的同时可以自由移动，并被要求寻找并到达特定的 PM （前瞻性记忆）目标（例如，站在街道另一边的同伙），同时还要完成需要关注环境的进行中任务（例如，数门铃）。任务设计中增加了三种类型的基线：(1) 认知基线（无身体活动的认知任务）；(2) 行走基线（无认知任务的身体活动）；(3) 环境基线（在实验区域周围行走）。包含这些是为了拥有涉及与实验 PM 条件相似的认知过程和/或相似身体活动水平的时间段，从而允许研究人员理清在 PM 条件下观察到的脑血流动力学的显著变化是与任务本身施加的认知需求有关，还是系统性伪迹的结果。作者将社会和非社会 PM （前瞻性记忆）条件与基线进行了比较，发现 PM 条件下内侧前额叶皮层 (PFC) 有显著活动，并且在维持社会 PM 意图时比非社会意图有更高的外侧 PFC 参与。这些结果证明了使用移动 fNIRS 在实验室外评估执行功能的可行性。它也说明了在真实世界中使用具有长组块和多种主动基线条件的减法设计。

3.1 系统生理学

真实世界 fNIRS 设计的一个重要考虑因素是系统生理信号与 fNIRS 记录的相互作用。系统生理信号（包括心率、呼吸频率、血压、动脉血氧饱和度和二氧化碳分压）之所以重要，是因为这些因素影响流向大脑的血流和血液的氧合。因此，即使神经活动没有变化，系统生理的变化也会改变 fNIRS 信号，导致假阳性或假阴性。最近在年仅 3 岁的自由移动幼儿以及成人中也显示了这种情况的发生。在许多情况下，这会降低信噪比，使得很难从数据中得出有意义的结论。然而，在生理变化与参与者从事的任务相关的情况下，系统生理问题尤为重要（见图 3）。例如，如果条件 A 涉及参与者观看一部恐怖电影，他们的心率和呼吸频率都会增加，而对照条件 B 涉及观看中性电影，那么条件 A 中增加的脑活动可能与情绪本身有关，或者仅仅与条件 A 中出现的心率和呼吸变化有关。

图3：即使参与者在完成简单的电脑任务时静坐不动，心率也会发生剧烈变化——这名参与者在静止并完成简单的基于电脑的数学任务（根据心率变异性评估，该任务并未导致压力显著增加）时，心率从每分钟 54 次变化到 86 次。如果不进行测量并在分析中加以考虑，这些生理波动可能导致假阳性或假阴性。

人们已经提出了各种方法来最小化 fNIRS 信号中生理相关成分的影响。一种选择是通过特定的短距离通道（short-separation channels）回归出浅层污染，这些通道捕捉头皮的浅层血流，但不捕捉脑活动——从而解释浅层血流变化对 fNIRS 数据的潜在影响。另一种减少生理影响的选择是全局均值去除 (global mean removal)，这涉及计算所有通道的平均值（认为这反映了各通道间共同的、与局部脑活动无直接关系的系统性波动），然后从每个单独通道的数据中减去该平均值，以减少广泛生理变化的影响。最近的一项研究收集了 3 至 7 岁儿童的 fNIRS 数据，比较了传统的基于电脑的任务与沉浸式虚拟现实 (VR) 环境中的动态任务，同时也纳入了短距离通道。该实验在标准计算机化和沉浸式 VR 环境中均采用了使用去/不去（go/no-go）抑制任务的减法设计。这种 VR 环境促进了参与者的自由移动，这对生态效度很重要，特别是在发展人群中。研究结果表明，年仅 3 岁的儿童的 fNIRS 数据可能会受到生理变化的污染（就像成人的情况一样），并且通过在分析中包含短距离通道可以改善这一点。

另一种替代方法是采用系统生理增强方法 (SPA-fNIRS)，即通过并发的生理测量来丰富 fNIRS 记录（关于 fNIRS 研究的最佳实践建议，请参见 Yücel 等人）。在这里，生理信号可以从主 fNIRS 信号中回归出来。第三种选择可能是在设计阶段考虑生理因素，并确保实验条件尽可能在生理变化方面相匹配。在上面的“恐怖电影”例子中，研究人员可以包含第二个对照条件，要求参与者快速呼吸并进行快速运动以稍微提高心率。生理因素应在实验设计阶段予以考虑，特别是在涉及参与者运动的真实世界研究中。

4. 用于超扫描和社会互动的 fNIRS

fNIRS 数据可以在两个或更多人于同一物理空间从事任务时收集，这使得许多新型研究成为可能。这种技术被称为超扫描 (hyperscanning)，以前曾用于 fMRI、EEG 和 fNIRS，但 fNIRS 是主导的模态。超扫描研究的设计和数据解释涉及特定的挑战，解决这些挑战需要了解测量方法和跨脑效应背后的理论。大多数超扫描研究使用量化两个大脑活动相似程度的指标来分析数据，也称为人际神经同步 (Interpersonal Neural Synchrony, INS)。计算 INS 的方法包括相关性和小波相干性测量。一个普遍的发现是，从事互动任务的两个人的大脑之间存在相似的激活模式。

虽然对超扫描效应有多种解释，但最清晰的解释之一是相互预测理论 (mutual prediction theory)。该理论假设，当两个人进行互动时，每个人都会执行动作并预测其伙伴的动作 [图 4(a)]。由于这两个人处于同一物理空间，执行的动作和预测的动作之间几乎总是存在密切的对应关系。因为执行动作和预测动作的大脑系统是重叠的，因此两个人的脑活动模式之间也会存在密切的对应关系。也就是说，两个大脑将参与相互预测，而 INS(人际神经同步)将源自每个个体中发现的预测-行动网络。这种相互预测效应不仅仅是对同一刺激的共同反应（图 2，面板 1），因为它涉及每个人积极地与对方互动并预测对方。

图4：超扫描的解释。

当两个人在同一空间进行互动时 (a)，他们相互预测对方的动作（蓝色）。此外，他们可能都以相似的方式对来自环境的任何共同输入做出反应（红色）。也可以在非互动背景下研究这种对共同输入的反应，例如顺序 fMRI 扫描 (b)。在这里，两个人在不同的日子体验相同的输入并参与相似的脑区。相似的反应是由共同输入（红色）驱动的。不区分这两个过程的分析可以捕捉到神经一致性 (neural conformity) 的测量。

然而，在解释超扫描效应时，考虑相关两个人如何对来自环境的共同输入做出反应也很重要 [图 4(b)]。许多研究使用 fMRI 或 EEG 顺序扫描（见表 2）来捕捉独自观看电影从而体验丰富且有意义的视听输入的参与者的脑活动。这些研究显示了人与人之间脑活动模式的受试者间相关性。在 fNIRS 超扫描的背景下，我们区分了两种不同类型的研究问题，以及对研究人员可能有价值的两种不同类型的实验设计。

表2：脑间同步的潜在机制：顺序扫描对比超扫描

4.1 神经一致性是否高于随机水平？

一个务实的选择通常是将整体人际神经同步水平解释为涵盖相互预测和对共同环境反应的神经一致性 (neural conformity) 指标，并测试这种神经一致性是否与感兴趣的其他变量（例如，学习、归属感、社会关系）相关。例如，测量课堂上学生和老师的神经一致性可以提供学习或课程成功的实用衡量标准，而治疗背景下的一致性测量可以与治疗结果相关联。这些方法使我们能够在真实世界互动条件下捕捉和解释脑活动，并将其与结果联系起来。在此类研究中，确定观察到的神经一致性模式是否不同于随机水平至关重要。

测试 INS 是否高于随机水平的一种常用方法是将真实数据与伪数据 (pseudodata) 进行比较。伪数据可以通过在参与者之间打乱记录（如果 A 和 B 一起做任务，伪数据可能将 A 与在不同日期做任务的 C 匹配），或通过打乱记录内的时间（将 A 在任务第 0 到 5 分钟的数据与 B 在同一会话第 5 到 10 分钟的数据匹配），或通过使用相位加扰 (phase-scrambling) 生成伪 fNIRS 信号来创建。在所有这些情况下，逻辑是伪数据包含与真实数据相同的核心特征，包括实验背景和音频/视觉/运动成分，但没有实时互动中存在的精确时间匹配。因此，真实配对和伪配对之间的比较应该揭示特定于实时互动的脑活动模式。然而请注意，所有旨在为脑活动创建“零条件 (null condition)”的伪数据方法也为行为协调创建了零条件，因此不能为音/视/运动对配对的影响提供完美的控制。要理解这一点，想象一项超扫描研究，其中一个人在实验第 3 分钟冲进实验室大喊大叫，激起参与者 A 和 B 强烈的大脑反应，导致当两个数据集一起分析时出现强大的 INS 信号。如果现在使用伪数据分析来打乱 B 的大脑数据，使用上述任何方法，我们预计与对闯入者的反应相关的 INS（共同环境的影响）会消失，因为伪数据信号的时间不再与实验室真实世界事件的时间相关。也就是说，伪数据方法不提供可以消除共同环境影响的对照条件。这意味着伪数据分析可以是识别显示 INS 效应的脑区的有用方法，但这些分析并不一定揭示不同实验任务对 INS 的影响。

主动对照条件可以是理解任务与 INS 效应之间关系的更好方法。例如，Fishburn 等人追踪了三名参与者组成的小组在各种条件下完成拼图时出现的脑模式。具体来说，将共同完成拼图时的 INS 与 (a) 独自完成同一拼图，(b) 观看另外两人完成拼图，以及 (c) 一起看电影时的 INS 进行了比较。单独任务 (a) 为完成拼图的运动动作提供了对照条件，而其他两项任务为视觉输入和共同观看提供了对照。这种主动对照条件的使用支持了 Fishburn 及其同事的论点，即联合拼图条件下更高的 INS 反映了参与者之间的协调或共享意图，而不仅仅是拼图任务的视觉或运动方面。这些结果与这样的主张一致：当人们在联合任务上共同工作时，存在更强的相互预测，从而驱动更大的 INS。类似的设计已被用于各种背景和群体中。

4.2 人际神经同步背后的认知机制是什么？

在上述回顾的研究中，INS(人际神经同步)被视为神经一致性的衡量标准，但要区分导致 INS 效应产生的潜在机制仍然不容易。根据相互预测理论，协调的脑活动模式之所以出现，是因为互动中两个人的行为是协调的，因此，对 INS 原因的研究需要对行为进行详细的记录和分析。跨脑 GLM 方法 (xGLM) 是将行为和生理信号纳入 INS 模型的一种方式。在这里，多模态模型试图根据另一名参与者的背景和行动尽可能多地解释单脑效应（图 5）。

图5：多模态数据分析。真实世界 fNIRS 研究可以包含来自许多不同模态的数据，例如脑活动、运动（如手和视线）、生理（如呼吸和心脏）和任务组块。单人脑模型将测试如何将脑数据理解为任务、运动和生理因素的函数。双脑 xGLM 模型将把第二人的行为、生理和脑活动添加到模型中。在这两种情况下，包含行为和生理数据增强了神经模型的可解释性，并且比仅包含任务组块要丰富得多。

追踪行为有助于将对环境的一般反应与社会互动的特定效应分离开来。Jiang 及其同事的研究是这种方法的一个很好的例子，作者记录了三名对话者在没有先验领导者的情况下进行小组讨论时的脑活动。然后对组内每个人的对话行为进行编码，根据沟通质量和某些行为（包括发起和轮流发言）的频率来识别领导者的出现。行为变量被用于模拟脑同步，以检查在整个讨论过程中谁将与谁同步，以及何时同步。结果揭示了一种复杂的动态，即脑同步表征了自然出现的追随者-领导者互动，而不是追随者-追随者互动，并且与“高质量”沟通时刻相关联。如果不采用多模态数据方法，这种 INS 将很难解释。

总而言之，我们确定了设计 fNIRS 超扫描研究的三个主要考虑因素。首先，适当使用伪数据方法可以提供 INS 的基本识别。其次，包含主动对照条件使研究人员能够分离出可以增加或减少 INS 的不同因素和任务。第三，行为数据的详细记录和整合使得信息量更大的 xGLM 分析成为可能，这有可能识别 INS 背后的单脑认知机制。在所有这些方法中，我们建议重要的是要对 INS 的潜在理论有很好的理解，严格设计研究，并在解释这些复杂数据集时保持谨慎。

5. 在婴儿和幼儿中使用 fNIRS

fNIRS 是婴儿和幼儿的极佳方法，因为它具有高运动耐受性且非常安全。在这里，我们提供了一些可以进行的研究类型的例子，重点关注不同的实验设计。

一项探索社会脑发展的经典 fNIRS 任务测试了婴儿对看到人或物体的反应。这是一个组块设计研究，交替进行 16 秒的社会试验（即，一位女演员移动眼睛或嘴巴，或表演婴儿友好的手部游戏，如“躲猫猫”）和 16 秒的非社会基线试验（即，不同类型交通工具的静态图像，如汽车或直升机）。这种简单的设计能够在双侧颞叶诱发统计上稳健的激活，并已在许多场合和不同背景下使用。

在评估年幼婴儿时，试验的持续时间尤为重要，因为众所周知婴儿的 HRF 峰值比成人慢。几项婴儿 fNIRS 研究采用了 Lloyd-Fox 等人的方法，采用持续 8 到 12 秒的试验，以最大化允许 HRF 达到峰值的可能性，同时最小化婴儿变得无聊或注意力不集中的风险。测试年轻参与者时，HRF 的形状和达峰时间可能因年龄、参与者状态和测量的脑区而异。事实上，有几项针对新生儿和年幼婴儿的研究报告了倒置的 HRF（即 HbR 增加和 HbO 减少）或非典型反应，表明神经血管耦合可能仍然不成熟，可能在生命的最初几年发育。因此，在设计 fNIRS 神经发育研究时，重要的是要记住年轻群体中血流动力学响应时间动态可能存在的差异。

向更自然主义的 fNIRS 社会神经发育研究迈进的一步是使用真人作为刺激，而不是视频或图片。这在一项研究中得到了开创性的应用，在该研究中，实验者用直视或回避的目光，以及婴儿导向或成人导向的语言与 6 个月大的婴儿交谈，表明这些信号调节了婴儿的脑激活。即使有真实的实验者-儿童互动，这项研究仍遵循组块设计结构，交替进行 15 秒试验和 10 秒基线。鉴于实验的自然主义性质，具有真实的实验者-婴儿互动，基线试验涉及实验者低头看一本小册子，偶尔有身体动作。采取这种方法是为了大致匹配实验试验期间的运动程度，同时避免与婴儿进行社会接触。在这些真实互动研究中，条件的持续时间可能会略有不同；因此，研究人员需要考虑实施手动事件标记或离线编码条件的开始。

超扫描研究最近已扩展到发展领域。例如，在两项研究中，母亲-婴儿配对在进行互动游戏会话时测量了她们的神经同步。这两项研究都发现，互动的方面，即轮替行为和情感同步，调节了配对的神经同步。这种方法从母亲和孩子之间神经一致性的全局测量开始，但对轮替行为和情感同步的额外编码允许研究人员实施将 INS 与行为同步联系起来的更详细分析。

自然主义社会神经科学研究的一个令人兴奋的前沿是虚拟现实。虚拟现实环境是未受控的真实世界与受限的实验室设置之间理想的中间点，因为研究人员可以控制实验变量，同时仍让参与者沉浸在类似于他们真实生活的场景中。在洞穴自动虚拟环境 (CAVE) 系统（但不是成人尺寸的头戴式 VR）中，可以轻松实施可穿戴 fNIRS 来记录儿童在移动并与虚拟环境互动时的脑激活。在一项原理验证研究中，Bulgarelli 等人记录了学龄前儿童在与首选和随机分配的虚拟人互动时氧合和脱氧血红蛋白的自发变化（图 6）。

图6：在 VR 设置中对 3 至 5 岁儿童进行的自然主义 fNIRS 任务示例，调查社会偏好。第一部分涉及让参与者熟悉不同年龄和性别的虚拟人。然后，参与者被要求选择一个首选的虚拟人一起玩，戳泡泡 3 分钟，然后与随机分配的虚拟人执行相同的任务 3 分钟。同意继续佩戴设备的参与者被要求再次与首选虚拟人玩 3 分钟。

这里出现的一个有趣的方法问题是平衡实验条件顺序的挑战。这项自然主义研究以固定顺序呈现条件以反映现实生活情况，从而排除了平衡顺序的可能性。为了在考虑顺序效应的同时仍保留任务的自然主义方面，一些参与者被要求在任务结束时再次与首选虚拟人一起玩（图 6）。对最后一次首选虚拟人条件（而不是第一次）期间自发脑波动的 fNIRS 分析，与分配的虚拟人相比，显示出与比较最初的第一次首选虚拟人条件与分配的虚拟人时相似的结果。这表明在两种条件下发现的社会脑区之间不同的连接模式更可能是由任务本身驱动的，而不是由顺序效应驱动的。在自然主义研究的规划阶段解决这些考虑因素对于能够得出有意义的结论非常重要，这也是研究人员在设计模拟现实生活互动同时坚持统计严谨性的任务时遇到的新挑战的一个例子。

在更自然主义的方案中，拥有一个“休息”组块具有挑战性。如 2.1 节所述，“休息”条件通常是一种控制不佳的认知状态，参与者在其中思考实验背景之外的事件，或者可能经历无聊或挫折，特别是在幼儿的情况下。与上述经典设计一样，在运动和视觉复杂性方面与实验条件相匹配的主动对照条件比休息有用得多。虚拟现实范式非常适合主动对照条件，即参与者可以体验相似的环境，仅操纵一个因素，这是控制良好的实验设计的关键要素。

6. 挑战与未来方向

上述三种方法（真实世界 fNIRS、超扫描和发展研究）提供了使用 fNIRS 探索人类认知的不同方式，每种方法在设计研究时都提出了独特的挑战。在最后一节中，我们考虑一些在许多类型的 fNIRS 研究中常见的共同问题，并讨论我们的设计必须如何适应以应对这些挑战。

6.1 真实世界任务的可变性

真实世界互动的核心特征之一是其多样性和可变性——每次与朋友的对话或去新地方的旅行都会涉及不同的话题和场景，并且不能被另一个人完全相同地重复，甚至不能被同一个人在另一天重复。这意味着真实世界并不完全落入实验设计所需的类别中。即使当参与者被给予简单的重复任务以实现数据收集时（如本文中的许多例子），精确的计时和行为也可能因试验而异，因参与者而异。处理这种复杂性的一种选择是以高细节水平记录参与者的行为，然后事后重建任务的时间线。记录可以包括运动追踪、摄像机、生理监测、眼动追踪、GPS 和其他几种测量（见 6.2 节关于多模态成像）。这些额外的数据模态可以作为额外的回归量包含在 GLM 分析中，以更好地解释个体的脑活动模式（图 5 中的单脑模型）。然而，从视频片段中编码行为非常耗时且并不总是准确的。机器学习和计算机视觉系统可以提供帮助，有用的工具包括 OpenFace 和 DeepLabCut。这些可以使用计算机视觉算法进行丰富，允许从视频记录中估计身体运动和面部表情。然而，通常也需要一些手动编码。

除了行为追踪之外，还需要数据驱动的方法，这些方法能够准确恢复功能事件的时间线，并使分析在不受约束的环境中记录的 fNIRS 数据成为可能。功能事件自动识别 (AIDE) 算法代表了直接从 fNIRS 数据中识别有意义事件开始的首次尝试。该方法在 fNIRS 信号中寻找特定模式（即血流动力学响应函数的形状），以检测功能性脑活动的开始和结束，而无需实验设计的任何先验信息。Burgess 等人证明了 AIDE 在评估真实世界中（即伦敦街头）前瞻性记忆的神经相关性方面的应用，并发现脑活动在空间和时间上发生在感兴趣的特定目标所在的环境部分。在这种情况下，检测到的开始时间与视频记录中的相应行为进行了手动匹配。为了进一步改进此算法和类似算法，未来的工作应将它们与行为测量和用于自动分类事件的人工智能方法相结合。

6.2 多模态成像

如第 3 节所讨论的，在进行自然主义实验时，通常必须记录几种不同模态的数据（大脑、生理和行为），以便在单脑或双脑模型中准确理解通过神经影像设备测量的脑活动模式（图 5）。从硬件角度来看，fNIRS 特别适合多模态集成，因为其他设备不会干扰光学组件，除非外部仪器发射强红外辐射（例如，某些运动追踪或眼动追踪系统）。多模态神经影像的重要性已在不同应用及各种研究中得到证明。

除了 fNIRS 之外还测量额外信号的优势是双重的。首先，生理信号在最小化影响 fNIRS 信号的系统性干扰（即 SPA-fNIRS）或改善血流动力学响应的恢复方面非常有用。这些生理信号可以被视为 GLM 等方法中的干扰回归量，其贡献可以从测量的 fNIRS 信号中回归出来。其次，生理和行为信号可以提供对所涉及认知过程的整体视图，并有助于理解观察到的脑活动模式，因此不能仅仅被视为噪声。例如，在社会互动框架内，以前的研究发现人际同步可以发生在多个层面，互动的人不仅表现出同步的脑活动，还表现出同步的心率和呼吸频率以及同步的动作，无论是在言语互动还是非言语行为期间。这很可能是因为任何跨脑同步都是由身体动作和信号（如面部表情、言语或目光注视）的交换介导的。例如，Greaves 等人量化了成对演员在脑、生理和行为层面的人际同步，并发现这三个层面在不同频段都有显著的相干性。因此，检查跨模态的人际协调可以提供关于什么驱动脑对脑同步的关键信息。多模态信息在人际脑同步量化中的整合可以使用双脑 xGLM 来实现，其中一个伙伴的 fNIRS 信号可以结合另一个伙伴的脑信号、他们的生理反应和行为进行检查（图 5）。

由于最近的硬件发展和传感器微型化，我们现在有机会在更现实的背景下以及更广泛的应用、人群和环境中同时追踪大脑、生理和行为。然而，多模态神经影像由于一些持续存在的挑战尚未成为常规。首先，市场上尚未提供完全集成的多模态平台；开发和使用干扰最小的多模态设置仍然取决于研究人员，他们必须自己集成传感器，这需要大量的技术技能。其次，尚未开发出可以无缝集成来自不同来源的数据流（例如，大脑 + 行为 + 生理）并自动组合信息以实现更彻底的结果解释的数据融合算法。

6.3 统计与解释

即使设计了一个完美的认知实验，研究人员也必须考虑统计和数据解释的重要问题。这些已在许多其他论文中探讨过（参考文献如下），因此在这里我们仅提供关键问题的简短指南。样本量和统计功效是所有研究的关键考虑因素，尤其是对于通常功效不足的神经影像研究而言。小样本量问题一直是神经影像研究可复制性的一个重大问题。可以运行功效分析来估计给定实验的最小适当样本量，这最好在事前进行，以确定前瞻性实验所需的样本量。fMRI 研究的指南提供了一个起点，但我们不知道有任何专门针对 fNIRS 研究的类似工具。事后功效计算也可能是一种有用的方法。

在检查个体差异的研究中，大样本量更为关键，因为此类研究的数据往往高度可变。Lakens 和 Evers 清楚地描述了高功效研究的重要性，认为低样本量可能导致结果不可靠和无法复制发现。此外，重测信度对于任何临床或个体差异方法都至关重要。也就是说，如果一个范式周一测量了条件 A 对参与者脑活动的影响，那么如果结果测量要作为有用的临床指标或诊断测量，它应该能够在周二测量同一参与者的相同效应大小。在旨在临床应用的研究中，评估重测信度因此应该是设计任何范式的早期步骤。少数研究使用 fNIRS 对此进行了评估，发现信度中等至良好。良好的实验设计、头皮上光极的精确定位以及协议和数据分析流程的标准化对于最大化 fNIRS 的信度可能都很重要。

获得统计上可靠的结果对于使研究人员能够评估发现的稳健性非常重要。神经影像数据有许多选项可用，fMRI 领域由参数方法主导。类似的方法可以应用于 EEG 数据（如 Fieldtrip）和 fNIRS 数据（如 SPM-fNIRS）。这些方法通常用设计矩阵模拟每个参与者每个通道或脑位置的脑活动，然后在组水平评估统计数据，并使用随机场理论为多重比较提供适当的校正。使用非参数统计和多元统计的其他方法也是可能的，但在 fNIRS 研究中考虑多重比较问题对于避免虚假结论至关重要。

6.4 逆向推断

即使有完美的实验设计，在解释 fNIRS 数据时仍有一些重要问题需要考虑。首先是逆向推断的挑战，这在 fMRI 研究中已被认识数十年，同样适用于 fNIRS。简单来说，脑活动与认知功能之间没有直接的映射。例如，如果你向 MRI 扫描仪中的人展示恐惧面孔的图像，这将可靠地激活杏仁核，这是一个前向推断（从任务到大脑）。然而，如果你只知道参与者的杏仁核在条件 X 下活跃，你不能断定条件 X 涉及恐惧面孔或恐惧的主观体验。这是因为还有许多其他认知过程也会激活杏仁核——例如学习、惊讶和注意。对于所有其他脑区也是如此——许多不同的认知任务激活每个区域——所以我们不能仅仅通过了解脑激活模式来推断参与者的认知状态。

这是一个挑战，因为能够轻松地给脑激活模式贴上认知标签是非常诱人的（而且确实会非常有用！）。例如，如果我们能自信地说，每次背外侧前额叶皮层 (dlPFC) 活跃时，参与者一定是在努力完成任务，并且 dlPFC 活动因此是认知负荷的稳健测量，这对研究人员、工程师以及任何想在应用环境中使用 fNIRS（例如，用于训练或干预）的人来说都将非常有用。然而，逆向推断的问题意味着看到 dlPFC 高活动并得出“此人正在努力工作”的结论是无效的，因此脑活动不能用作任何单一认知过程的直接测量。

有一些方法可以缓解这种情况。首先，如果一项研究发现区域 Y 的脑活动出现特定于某个任务/条件的意外结果，可以使用正式的元分析软件（如 Neurosynth）来获取关于哪些其他任务涉及同一区域的统计数据。这将帮助研究人员了解设计的任务是否可能意外地涉及了最初未打算由任务引发的其他认知过程或功能。其次，一些人认为，在具有许多旨在精确隔离特定过程的条件的特定任务设置内，逆向推断可以具有预测能力。第三，实证研究可以测试特定脑区与认知概念之间的映射在各种真实世界条件下是否有效。例如，如果研究表明 dlPFC 活动确实在广泛的任务中与认知负荷相关，那么在适当的警告下使用它作为一个测量指标可能是务实的。此外，虽然不适合所有实验范式，但一些方法如经颅磁刺激和经颅电刺激可以通过暂时改变或破坏特定区域的脑活动来阐明认知过程的因果机制。这些方法有助于直接测试破坏特定区域脑活动对行为的影响，这可以提供因果证据，补充基于相关性影响的传统神经科学方法。

总之，意识到神经影像研究中逆向推断的问题，并避免懒惰的假设(例如每个脑活动位点必须指示特定的功能或认知过程)对于寻找 fNIRS 数据的适当和有效解释至关重要。

7. 结论

fNIRS 正在彻底改变认知神经科学领域，促进新研究途径的探索并极大增强自然主义实验。特别是，自然主义研究和发展研究得益于 fNIRS 的便携性、对运动的鲁棒性和易用性，以及即使在资源有限的环境中也能测试清醒婴儿的能力。尽管如此，精心设计 fNIRS 研究以确保认知解释和结论的有效性至关重要（表 3）。在本文中，我们说明了 fNIRS 研究人员如何从 fMRI 过去的工作中学习，并主张使用 fNIRS 的研究人员应仔细考虑可以用我们的仪器记录的脑激活模式（即皮层结构）背后的认知机制。我们提供了一系列例子，说明 fNIRS 如何超越传统 fMRI 方法，探索真实世界、社会认知和虚拟现实中的认知。随着研究人员努力应对设计具有生态效度且挖掘认知重要方面的研究的挑战，这个快速发展领域的实验设计进步也是极有可能的。

表3 关键设计原则总结

时间很重要：在设定试次与事件时序时，要考虑血流动力学因素。
精细对照很重要：将实验条件与一个“主动对照条件”进行比较，有助于形成有力的认知解释。避免使用“静息”作为对照条件。
行为很重要：fNIRS 研究，尤其是真实情境研究与超扫描（hyperscanning）研究，应记录被试行为，并在可能的情况下把行为纳入分析中。
生理很重要：在任务过程中测量全身生理变化非常重要，以便控制这些指标如何与脑信号相互作用，尤其是在动态任务中。
生态效度高的任务很重要：选择能够真正吸引参与者（尤其是婴幼儿和儿童），并能触及你要研究的认知过程的任务是至关重要的。那些更像真实世界情境的任务，虽然实验控制可能较弱，但往往能引发更强、更有意义的脑激活模式，而不是传统计算机任务。
统计很重要：实验效能、重测信度，以及多重比较校正等问题，应当在任何研究的设计阶段就加以考虑。
认知很重要：为了正确解读 fNIRS 结果，必须考虑大脑活动模式如何与不同类型的信息加工以及在大脑中实现的认知机制相关联。