第一部分 引言
脑电图(EEG)是一种记录大脑皮层大群神经元突触后活动产生的电场的方法。这通常通过在受试者头皮上放置电极来实现。记录到的EEG信号是一种振荡的连续信号,其特征随受试者的意识和一般神经活动而变化 [1]。
一般来说,有两种类型的EEG记录:静息态和任务态。静息态EEG记录通常涉及参与者坐在椅子上,被指示放松并保持睁眼或闭眼。相反,任务态记录是指参与者被指示执行特定任务(即认知、运动等)的记录。静息态和任务态记录都是对EEG的直接测量,不需要刺激或标记。
另一方面,诱发电位——EP(也称为事件相关电位,ERP)是一类EEG记录,其中向受试者展示通常为音频或视频的刺激,并向EEG测量设备发送标记以记录刺激呈现开始的时间。这些刺激会在记录的EEG中引起特定的已知反应,例如用于视觉识别的P300波或针对振荡刺激的驱动反应,其中EEG波与刺激频率同步。EEG信号与刺激是锁时的(time-locked),表现为体感、视觉或听觉电位。例如,P300波是一种ERP,表明受试者在一系列非目标刺激项目中检测到了目标项目。
从医学角度来看,EEG用于研究和检测参与者异常已有很长的历史。有记录的人类EEG记录最早的实验之一是检测睡眠期间的EEG变化,指出了睡眠不同阶段的存在。如今,它在临床环境中用于癫痫诊断、阿尔茨海默病诊断、睡眠研究,以及监测麻醉深度、昏迷和其他大脑状态。它也被用于其他神经和精神疾病的研究。脑机接口(BCI)是一个活跃的研究领域,它利用EEG让瘫痪或有神经运动困难的人控制计算机。BCI还研究如何识别人类参与者的情绪状态。文献 [17] 对BCI的EEG分析方法进行了全面概述。
随着移动可穿戴设备的发展,EEG头戴设备现在对于消费者和研究人员来说都更加容易获得和使用。同时,深度学习(DL)模型的开发使得自动分类和诊断疾病及状况成为可能。例如,DL模型在癌症诊断中的错误率已低于人类。具体在EEG分析方面,DL模型的表现优于传统的非DL方法。
高质量的数据集是成功的DL算法的基石。尽管许多科学家支持数据共享,但要使这种做法成为标准仍存在障碍。主要原因包括缺乏时间、资金和技能。研究人员也对他人收集的数据质量持谨慎态度,因为无法确定数据收集者的技能水平,也无法确定数据采集过程中是否遵循了正确的方法。此外,在讨论数据集的可重用性时,还存在关于数据文档的担忧。数据的背景信息通常对于充分理解和复现分析是必要的,但这给研究人员发布数据带来了更高的负担。
然而,共享研究中使用的数据是解决影响AI在健康领域使用的可重复性危机的基本机制之一。这在机器学习领域尤为重要,因为开发的模型依赖于用于训练它的数据。即使可以访问原始数据,也不总是能够复现ML结果。实际上,在训练模型时,传递给软件包的各种设置会改变模型的训练方式。此外,深度学习模型是通过随机非确定性方法训练的。正如Summers和Dinneen所指出的,如果初始化参数稍有不同,即使使用相同数据的相同模型也会产生截然不同的结果。因此,要完全复现一个DL模型,不仅需要数据,还需要用于开发模型的训练方法,包括软件代码、初始化和所有涉及的参数。
研究数据的可用性随着出版年限的增加而降低,这意味着较旧的出版物不太可能共享其数据。随着时间的推移,托管和维护数据的成本是出版多年后数据可用性的障碍。此外,Miyakawa提出,有些结果并不受原始数据的支持——在41篇被标记为审查并被编辑要求提供原始数据的手稿中,97%被撤回或拒绝。在某些情况下,由于开展研究所获得的伦理批准允许共享的内容有限,原始数据可能会受到限制。
近年来,人们越来越强调使科学更加开放和可重复。诸如FAIR数据之类的努力以及资助机构对数据管理计划要求的增加,提高了数据共享最佳实践的可见度。
鉴于此,为了确定哪些包含EEG信号的数据集可用,并了解这些数据集中涵盖了哪些医疗状况,以及这些数据集的可重用性如何,作者进行了以下范围综述。
本范围综述旨在解决的研究问题如下:
RQ1 – 有哪些专注于医疗保健应用(非癫痫相关)的包含EEG信号的数据集可用?
RQ2 – 这些数据集涵盖了哪些健康状况?
RQ3 – 这些数据集的可重用性如何?
癫痫诊断和癫痫发作检测在引文 [32] 和 [33] 中有详尽讨论,因此包含癫痫患者或发作信号的数据集被排除在本次审查之外。此外,最大的EEG数据集之一是TUH-EEG数据集,其中包含26,846个临床EEG记录和注释。由于它包含癫痫发作事件,因此已被排除在本次审查之外。该数据集可在 https://isip./projects/tuh_eeg/ 获取。
相当一部分可用的EEG数据集与医疗保健无关;相反,这些数据集是BCI和情感/情绪检测工作的结果。作者建议感兴趣的读者阅读出版物 [引文19] 以获取关于一般EEG数据集的信息,引文[16] 和 [35] 关于情绪识别数据,[36] 关于运动想象,[37] 关于抑郁症,而 [19] 和 [38] 提供了关于深度学习和EEG的深入综述。
第二部分 方法
本综述遵循范围综述的PRISMA指南。审查的方法详述如下。
A. 搜索策略
搜索使用了以下出版物数据库:PubMed、Web of Science和Scopus。在这些数据库上,搜索集中在描述和/或分析EEG数据集的已发表文章。搜索还在以下数据门户网站上进行:Data Cite(包括来自IEEE DataPort、FigShare和Zenodo的结果)和Mendeley Data。进一步的数据集是从表1中列出的已知EEG数据集存储库中筛选出来的。搜索是在2022年11月14日这一周进行的。
表1 筛选合适数据集的EEG存储库列表
出版物使用了以下搜索字符串:
(((dataset[Title]) OR (database[Title]) OR (repository[Title]) OR (data[Title])) AND (available) AND (health*) AND (EEG or electroencephalography) NOT (epilepsy OR seizure OR “brain-computer interface” OR emotion))
数据门户使用了以下搜索字符串:
health TITLE(EEG OR electroencephalogram OR electroencephalography) DATA_TYPE (DATASET) NOT epilepsy NOT emotion NOT (BCI OR “Brain-Computer Interface”) NOT seizure
B. 纳入和排除标准
如果是描述数据集的出版物,则被视为符合条件。被认为符合条件的数据集是那些具有有效且唯一DOI引用的数据集。
数据集的纳入标准为:
-
数据集具有有效且唯一的DOI;
-
数据集描述(如果是出版物)具有数据集的链接或直接引用;
-
数据集可以是任何类型的访问权限(开放、受限、申请);
-
数据集必须包含EEG信号;
-
数据集可以包括其他类型的数据,但这并非必需;
-
数据集必须是为了研究健康状况、疾病或诊断而收集的;
-
数据集必须包含关于每个记录的信息,例如该记录属于哪个组(即诊断,或患者与健康对照)。
数据集的排除标准为:
-
在出版物的情况下,如果该出版物使用了数据集但未对其进行描述;
-
为干预性研究收集的数据,即该研究正在分析对一组参与者进行干预(药物或治疗)的结果;
-
调查癫痫和/或癫痫发作的数据集;
-
非健康相关的数据集,如一般BCI数据集、运动BCI、情绪识别、冥想等;
-
未提及研究伦理批准的数据集(无论是在数据集描述中还是在其相关出版物中);
数据集通过三种方法找到:(i) 搜索出版物数据库中描述数据集的文章;(ii) 通过数据引用和数据聚合门户(如DataCite)搜索数据集;以及 (iii) 在专门用于神经和生理数据集的存储库中搜索已发布的数据集。这些特定的存储库(如OpenNeuro、PhysioNet等)是通过在通用搜索引擎(Google)中搜索EEG存储库识别出来的。
结果
首先通过标题、关键词和描述进行筛选(如果这些对数据集可用),或者在出版物的情况下通过摘要进行筛选。在这一步中,未提及EEG信号的数据集被排除。根据排除标准,如果关键词和描述中未提及医疗状况或状态,或提及癫痫和/或癫痫发作,则排除数据集。初步筛选后,检索并调查了描述数据集的文章全文。如果未找到数据集的引用(链接或带有DOI的引用),则予以拒绝。上述其他纳入和排除标准也进行了评估。对于数据集,访问并筛选了带有元数据的存储库页面以确定其适用性。如果文件名为非英文,或描述性不足以让人理解文件内容及文件所属类别(患者或对照组),数据集也被拒绝。在初步筛选中识别出的一个数据集尚未发布,这使得无法检索其完整元数据,因此也被排除。整个过程如图1所示,其中显示了检索、筛选、拒绝或纳入的记录数量。
图1 – 使用PRISMA框架的数据集纳入选择流程
对于本综述中包含的每个数据集,相关出版物通常在数据集描述中链接,或被指示为该数据集的首选引用方式。在未链接出版物的情况下,通过数据集元数据中列出的作者搜索相应的文章。这样做是因为对于大多数数据集,数据收集协议通常不在数据集描述或文件中描述。相反,它通常在相关出版物的方法部分中描述。对于本综述中包含的所有数据集,关于在哪里描述数据收集协议的信息均包含在提取的数据中。
C. 提取信息
对于每个包含的数据集,提取了以下信息(从数据集链接或其相关出版物中):
-
数据集引用(DOI和完整引用);
-
相关出版物引用;
-
数据集URL(唯一);
-
访问类型;
-
国家和数据收集地点;
-
出版年份;
-
关注的健康状况或诊断;
-
数据集中包含的数据模态(如受试者人口统计学、临床病史或电子健康记录-EHR、心理测量或心理测试、生理信号等);
-
包含的人群和每组参与者的人数;
-
数据集中的类别数量(例如,患者与对照组、睡眠阶段、患者亚组);
-
EEG数据收集类型:静息、任务、诱发电位;
-
记录会话数、记录时间、试验/任务数和持续时间;
-
EEG数据注释模式:手动、任务/刺激/事件标记、自动/算法/机器;
-
使用的EEG设备和外形(即电极帽、自由电极、头戴设备/头带、多导睡眠图-PSG-设置)、通道数、电极放置和参考、采样频率;
-
EEG数据格式(.eeg, .bdf, BIDS等);
-
提供的EEG数据是原始数据还是经过预处理的(如果是后者,实施了哪些预处理);
-
记录协议是在数据集描述/文件中、相关出版物中可用,还是不可用;
-
数据集是否包含关于如何分析它的解释、描述数据/变量/等的文件,或研究人员用于分析数据集的代码。
D. 记录评估
对于本综述中包含的每个数据集,我们评估了数据集的可重用性以回答研究问题3。这通过两种方法进行:第一种是由FAIRsFAIR项目开发的自动化工具,第二种方法是作者在从数据集中提取元数据时完成的问卷调查。
FAIR指导原则 [31],即可发现性(Findability)、可访问性(Accessibility)、互操作性(Interoperability)和可重用性(Reusability),为研究人员、数据生产者和发布者提供了发布数据和其他研究对象的最佳方法的指导。FAIRsFAIR项目是一个欧洲项目,旨在为存储库的FAIR认证制定全球标准。由FAIRsFAIR项目开发的“F-UJI自动化FAIR数据评估工具” 是一个REST Web服务工具,用于根据FAIRsFAIR数据对象评估指标以编程方式评估数据对象。这些指标由FAIRsFAIR项目开发,提供了一种系统评估数据对象的方法。对于本综述,我们使用了F-UJI工具的v2.0.2版本,可在 https://github.com/pangaea-data-publisher/fuji/releases/tag/v.2.0.2 获取。F-UJI Web服务器在计算机上运行,并针对本综述中包含的每个数据集进行编程查询。用于此操作的代码可在补充材料和代码库的永久链接中找到。
F-UJI自动化工具报告按照原则(可发现、可访问、互操作和可重用)分组的每个FAIR评估指标的分数。在本综述中,我们以百分比形式报告:其中一项指标的最高可能得分显示为100%,最低得分(零)显示为0%。
考虑到FAIR数据要求,还收集了关于数据集文档级别和提供的文件格式的信息。为此,在数据提取过程中记录了数据文件的文件格式。创建了一个0到3分的量表来确定数据集的文档级别——这代表了所提供数据的背景解释得有多好,即数据集是否包含数据收集协议、方法论和用于分析的代码。对于数据集中存在的每种类型的文档,其得分将获得一分。这样,0分意味着数据集没有背景信息(即仅提供数据文件和简短摘要),3分意味着数据集包括收集协议、文件结构和内部变量的解释以及用于分析的代码。仅在相关出版物中提供收集协议的数据集已被注明,并扣除了0.5分。
第三部分 结果
A. 概述
从试图检索的141条记录(数据集)中,有一个数据集尚未发布,因此未被检索。在评估资格的140条记录中,37条是不描述数据集的期刊文章,23条记录没有EEG数据,13条记录未探索特定的诊断/状况,9条没有DOI,8条是一般BCI数据集(非医疗保健相关),7个数据集在数据集元数据或相关出版物中均未披露伦理信息,5条没有找到数据的链接或参考,3条重复(相同数据集但DOI不同),2条与癫痫发作相关,2条没有关于每个文件代表什么的解释,1条不是英文。总共排除了110条记录,纳入了30条记录。
总的来说,包含的数据集属于三个广泛的关注状况类别:睡眠研究及相关障碍、精神状况和神经状况。睡眠及相关问题找到的数据集数量最多,有7个数据集。每个状况找到的数据集数量如图2a所示。发现了两个与恐惧症相关的数据集,每个专注于不同的恐惧症(幽闭恐惧症和蜘蛛恐惧症),但被归入同一状况。一个数据集包含针对儿科人群的多种状况(发育障碍),因此未包含在任何单一状况中。
图2 – 每个健康状况、国家、出版年份以及包含的辅助数据模态的数据集分布
每个国家发布的数据集数量如图2b所示。一些数据集是由多个地点的研究人员合作收集的,因此该数据集被计入合作中的每个国家。例如,[73] 是在意大利、德国和瑞士的多个站点收集的,[47] 是在美国和挪威收集的。
每个数据集的出版年份也被记录并显示在图2c中。已发布的数据集数量在过去几年中有所增加,这可能是由于最近在开放科学和数据共享方面的努力。
数据集中包含的除EEG以外的主要数据模态如图2d所示。包含的最常见数据模态与生理学相关:肌电图(EMG)、心电图(ECG)和眼电图(EOG)。由于本综述中有相当数量的睡眠数据集,许多包含的数据类型属于PSG记录,例如检测肌肉活动的EMG、捕获心率指标的ECG、记录眼球运动的EOG、呼吸频率、气流、用于打鼾的音频记录、体位、血氧饱和度(SaO2)和CO2测量。结构磁共振成像(MRI)和功能性MRI(fMRI)也包含在一些数据集中以进行进一步的大脑分析。除了上面列出的模态外,在本综述包含的数据集中未发现其他生理数据收集。
以下部分将列出并讨论本综述中包含的数据集。数据集根据关注的健康状况(根据研究问题RQ2)进行组织,分为三大类:睡眠研究、精神状况(如抑郁症、精神分裂症等)和神经状况(如帕金森病和阿尔茨海默病)。
B. 状况
1) 睡眠
CAP睡眠数据库是一个包含108名参与者多导睡眠图记录的数据集——16名健康对照组,以及其他睡眠相关病理,如失眠、发作性睡病、睡眠呼吸紊乱等。每个记录包含三个或更多EEG通道、EOG、EMG、气流、呼吸、SaO2和ECG。EEG记录标注了睡眠阶段和循环交替模式(CAP)事件,这些与睡眠不稳定及相关病理相关。相关出版物描述了如何分类CAP事件,以及它们在EEG记录中的表现。
ISRUC-Sleep数据集由108名睡眠障碍参与者的多导睡眠图记录组成,其中8名有两个不同的记录会话,以及10名健康参与者。每个记录包含6个EEG通道、每只眼睛的EOG通道、EMG(在下巴和腿部测量)、ECG、气流、呼吸、SaO2和体位。对于每个受试者,数据集包括人口统计数据(年龄和性别)、服用的药物和睡眠评分等细节。相关出版物详细描述了数据集以及一种自动睡眠阶段分类方法,并评估了其与手动专家注释相比的性能。自动睡眠阶段分类方法包括预处理、基于最大重叠离散小波变换(MODWT)的特征提取,以及使用支持向量机分类器的监督学习步骤。
引文[68] 中描述的数据集由22名参与者在短时间睡眠期间的64通道EEG记录组成,具有手动注释的睡眠阶段和纺锤波(REM睡眠第二部分期间发生的特定EEG模式)。记录是在两天分别进行的,即在参与者进行了高负荷或低负荷视觉工作记忆任务之后。除了EEG原始数据外,作者还提供了用于信号处理和使用独立成分分析(ICA)进行伪影校正的python代码。这对于重用数据集特别有用,因为它使研究人员能够复现作者的数据处理并验证其发现。它还使其他研究人员能够基于收集的数据构建解决方案。
NCH Sleep DataBank是一个大型数据集,包含3,673名唯一患者的3,984项儿科睡眠研究,并关联了EHR,包括药物、测量值、诊断等。包含的数据模态有用于睡眠阶段识别的EEG、下巴和腿部的EMG通道、EOG、ECG、气流和呼吸努力、血氧饱和度和呼出气体的二氧化碳测量。数据由技术人员实时注释,随后由另一位专家审查。该数据集通过凭证分配限制访问。用于数据分析的Python代码也在单独的github存储库中提供。出版物 [76] 指定了对原始数据进行的转换(文件名、EDF头文件、随机日期偏移等)以匿名化患者。该出版物是对数据集及其包含内容的完整描述,深入细节如文件命名约定、文件中包含的变量以及如何进行注释。包含文件的描述对潜在用户很有帮助,因为他们可以识别包含的内容以及是否符合其目的。此外,由于大量的注释原始EEG数据,它非常适合深度学习模型的开发——作者在出版物中强调了这一点。他们还建议了数据的潜在应用并提供了用于分析的入门代码。
引文[70] 中的数据集是另一个涉及儿科睡眠的数据集,包含婴儿(一周至七个月大)的睡眠记录,配有高密度EEG帽和用于测量运动的视频。对该数据集文件的访问仅限于获得授权的用户。数据的分析在相关出版物 [77] 中进行。该出版物报告称,用于分析的MATLAB代码在GitHub存储库中共享,但截至2023年4月,该存储库已不存在。数据收集协议在出版物中描述。
Haaglanden Medisch Centrum睡眠分期数据库由151个全夜多导睡眠图记录组成,包含EEG、EOG、下巴EMG和ECG,包括技术人员的手动注释。数据集网页描述了数据收集协议和每个文件包含的内容及其格式的数据描述,以及关于如何打开和与提供的文件交互的使用说明。相关出版物 [78] 展示了一个使用该数据集和其他开放睡眠数据集进行自动睡眠分期的深度学习模型。
引文[72] 中的数据集包括33名健康参与者在视觉运动适应任务前后的静息态和睡眠期间收集的EEG和fMRI信号。数据收集协议在数据集描述中简要描述,但在相关出版物 [79] 中进行了扩展和详细说明。
2) 精神状况
a: 抑郁症
引文[50] 和 [52] 中的数据集收集了122名18-25岁大学生在静息态 [50](睁眼和闭眼)以及认知任务期间 [52] 的EEG记录。参与者使用贝克抑郁量表筛查重度抑郁障碍(MDD),并被归类为4组之一:MDD、既往MDD诊断(但非当前)、不符合MDD诊断标准、以及未测试MDD。与该数据集相关的文章是 [80],探讨了抑郁和焦虑如何与大脑中的奖赏系统相关联。该数据集以BIDS格式提供,这是该领域的标准。该数据集的数据收集协议未完全描述,且数据集描述指出部分数据可能标记错误,部分EEG通道已插值,且无原始数据可用,导致其在未来工作中的可用性存疑。数据集的认知任务部分包含用于产生向参与者呈现的刺激的相关代码,以及用MATLAB开发的用于分析数据和复现研究的代码。
另一个在抑郁症研究中开发的数据集是 [51],它提供了来自24名临床诊断为抑郁症的患者和29名匹配的健康对照组的EEG和音频数据。EEG记录是使用标准医疗128通道设备和一种新型3通道可穿戴设备在休息以及回答问题、阅读和图片描述等活动期间创建的。该数据集以BIDS格式提供,并包含一个README文件、一个描述数据收集所用方法的文件,以及提供给患者以同意参与研究的信息表。与该数据集相关的出版物是 [83],其中详细描述了该数据集。
b: 发育障碍:ASD, ADHD, 学习障碍等
[44] 中的数据集包含了一项关于工作记忆和反应抑制的研究 [84] 的原始数据。这项研究是在9-16岁的参与者中进行的,其中34人被诊断为注意缺陷多动障碍(ADHD),25人为典型发育参与者。数据收集的协议在出版物中,未给出其他人口统计数据。在研究中,参与者必须执行工作记忆任务和反应抑制任务。EEG数据来自21个通道,采样率为500 Hz,以.cnt格式提供。
另一个数据集 [46] 拥有从18-68岁的成年人获取的EEG数据,其中28人诊断为自闭症谱系障碍(ASD),28人为神经典型对照。该研究调查了患有ASD的成年人与健康对照组的大脑衰老有何不同。数据是在每位受试者闭眼休息150秒期间收集的。为每位受试者提供了成对的文件:.fdt用于原始EEG,.set包含有关记录参数的详细信息。然而,未提供关于哪些参与者患有ASD以及哪些是对照组的信息。
数据集“健康大脑网络(HBN)生物库” [55] 包括超过4,000名5至21岁参与者的数据。数据模态包括EEG、MRI、行为和认知表型、体动记录、眼动追踪、遗传学、音频和视频。该出版物详细介绍了数据收集的完整方法:受试者筛查、纳入和排除标准、评估测试以及每种数据模态的记录协议。对于数据集中包含的每种不同诊断,均提到了相关的相应评估测试。包括的评估有焦虑、ADHD、ASD、认知和执行功能、抑郁和情绪、强迫症、身体测试、睡眠、家庭结构和创伤、药物滥用或成瘾行为、语言学习等。此外,该出版物还包含了在大规模数据收集实施过程中吸取的教训,这对其他同样收集大量数据的研究人员大有裨益。对完整数据集的访问受限于请求/项目提交以进行验证。
c: 精神分裂症
[63] 中的数据集由14名偏执型精神分裂症患者和14名健康对照组的EEG记录组成。在数据集存储库中,只有关于采样频率和所用电极的信息。各组通过文件名识别,以h或s开头。分析该数据集的出版物 [85] 描述了用于EEG记录的协议,以及通过使用从EEG数据中提取的连接性测量来比较对照组与患者的分析实施。
[64] 中的数据集是19名患者和24名健康对照组在最后通牒博弈任务期间记录的EEG数据集。数据收集协议在相关论文 [86] 中描述。EEG使用128通道以2048 Hz记录。没有关于患者或数据预处理的其他信息可用。
另一个用于精神分裂症的数据集分为两个DOI:[65] 和 [87]。在该数据集中,为两个独立的健康对照组和首发精神病(FEP)个体样本记录了EEG和MEG(脑磁图)数据。对于每位受试者,数据集包括使用60通道电极帽设置收集的5分钟静息EEG。相关论文 [88] 包含所使用的测试协议以及对收集数据进行的分析。
d: 恐惧症
为了研究患有恐惧症的人的反应,找到了两个数据集。
第一个数据集 [61] 由9名自我认定为幽闭恐惧症的参与者和13名健康对照组组成。EEG是在3种不同条件下记录的:在光线充足的宽敞房间中、在光线适中的腔室中,以及光线适中的较小房间中。关于每个参与者的信息,如年龄、性别和分组,都存在于数据集中。相关出版物 [89] 详细描述了数据集的组织和文件,以及数据收集协议。
[62] 中的第二个数据集由40名蜘蛛恐惧症患者和53名对照组的EEG记录组成。未给出参与者的人口统计信息。数据收集协议在相关出版物 [90] 中详细说明。然而,该数据集包括了用于出版物分析的代码,这允许其他研究人员审查方法论并复现结果。
3) 神经状况
a: 帕金森病
[56] 中的数据集研究帕金森病中的步态冻结。测试队列由14名经历步态冻结的帕金森病参与者、14名患有帕金森病但无步态冻结的患者以及13名健康对照组组成。除了参与者所属的组别外,数据集中未呈现其他数据。相关论文 [91] 描述了数据收集协议,即如何筛查参与者,以及EEG记录期间进行的运动任务。参与者在坐在椅子上并注视指定点时执行脚踝背屈动作被记录下来。
[57] 中的数据集是源自 [92] 的精选数据集。它包含15名帕金森病患者和16名健康对照组的EEG记录。该数据集提供了关于参与者的其他信息,如年龄、性别、利手和临床病史。数据收集协议在 [92] 中解释,包括静息和停止信号任务。数据集策展人要求使用该数据集的研究人员通过电子邮件联系他们,因为他们已开放获取发布了数据集,但希望人们请求许可和指导以使用。
[58]、[59] 和 [60] 中的三个数据集均由同一研究小组在同一研究所收集。该数据集由28名帕金森病参与者和28名健康对照组的EEG记录组成(最后一个数据集 [60] 仅包含每组25名参与者的记录)。EEG是在认知任务 [58]、强化学习 [58] 以及静息和听觉刺激 [60] 期间收集的。数据收集协议的一些简要描述出现在数据集描述中,作者引用了一篇解释任务的文章,并提供了复现任务所需的Matlab代码。数据集中还存在用于进一步数据分析的其他代码文件。分析结果分别发表在 [93](针对第一个数据集)、[94](针对第二个数据集)和 [95](针对第三个数据集)。
b: 阿尔茨海默病
对于阿尔茨海默病,数据集 [45] 包括230名参与者,分为5个亚组:33名健康老年对照、34名主观认知下降、79名轻度认知障碍、48名阿尔茨海默病参与者和36名健康年轻对照。完整数据集访问受限,但开放版本中包含4个样本。数据集描述对数据收集协议、EEG设备和设置以及对数据进行的预处理非常有参考价值。该数据集的分析发表在 [96] 中。
c: 脑损伤
[47] 中的数据集包含14名单侧前额叶皮层损伤患者和20名匹配的健康对照组的EEG记录。包含原始和预处理数据,以及用于复现结果的分析代码。数据收集协议和结果发表在 [97] 中。对数据集的访问是凭证式的——例如,用户需要创建一个帐户才能下载数据集。
[48] 中的数据集由创伤性脑损伤(TBI)患者的EEG记录组成。人群由23名慢性TBI患者、38名亚急性轻度TBI和24名健康对照组组成。该数据集还包含人口统计数据和神经生理学评估。部分数据收集协议在数据集描述中解释,但在相关文章 [98] 中有完整详细的解释。在该数据集中执行的任务使用3刺激怪异范式(其中不同刺激的呈现具有不同的发生概率)产生听觉诱发电位,并且还在静息期间收集了EEG。

d: 其他 – 认知障碍、听力障碍、中风、偏头痛等
[73] 中的数据集是一个多中心(意大利、德国和瑞士)数据集,包含为研究上肢运动而收集的各种模态数据。该数据集包含65名中风后参与者和91名健康参与者。包含的数据模态有EEG、ECG、EMG、体动记录和运动学数据,以及fMRI。出版物 [99] 包含了数据收集程序的所有细节以及数据集中包含的内容。该数据集还包含用于绘制数据的Matlab脚本。
[54] 中的数据集包含17名偏头痛患者和18名健康对照组的高密度(128通道)EEG记录。记录是在静息和视觉及听觉诱发电位期间获得的。数据集中包括带有文件描述的README文件、用于生成视觉和听觉刺激的Matlab代码,以及一份详细描述数据收集协议的文档。数据的分析可在出版物 [100] 中找到。
用于研究听力障碍的EEG和MEG记录存在于数据集 [53] 中。它包含17名听力正常的年轻成年人(18-30岁)、14名听力正常的老年人(60岁以上)和17名听力受损的老年人(60岁以上)的记录。数据集描述包含数据收集协议和文件命名约定的概述。更多细节和数据分析可在出版物 [101] 中找到。
[49] 中的数据集调查了涉及慢性烧伤后瘙痒的大脑功能。它包含15名患者和14名健康对照组在静息和皮肤刺激期间记录的EEG数据。该数据集还包含描述收集协议的文档、用于统计分析的SPSS脚本以及作者完成的文献综述。对数据集的访问受到限制,即用户需要向数据集所有者请求访问权限才能下载文件。
C. EEG配置
表4显示了本综述中每个数据集数据收集所用的EEG系统配置,以及记录类型和注释方法。
表2 本综述中包含的EEG数据集列表
表3 每个数据集中包含的数据模态
表4 EEG数据收集特征:使用的设备、通道数和采样频率,记录和注释类型,文件格式,以及记录协议可用的位置
D. 评估:数据集的可重用性如何?
表5显示了使用“F-UJI自动化FAIR数据评估工具” 以编程方式评估数据集的结果。对于每个类别(可发现性、可访问性、互操作性和可重用性),显示的值代表数据集满足FAIRsFAIR数据对象评估指标的百分比。
表5 数据集的F-UJI FAIR评估,F是可发现性类别,A是可访问性类别,I是互操作性,R是可重用性。最后一列显示所有标准的组合。百分比值表示数据集符合FAIRsFAIR指标 [43] 的程度。100%的分数表示自动化工具识别出该数据集符合该类别的所有指标。
由于自动化工具无法测试数据集是否使用EEG数据的标准格式(BIDS),或确定数据集的文档级别,我们收集了表6所示的信息。它指示数据集是否有全面的解释、README文件、关于所用文件结构的一些指示、文件名是否具有足够的描述性以使其他研究人员能够识别文件的内容、数据收集协议位于何处(在数据集文件内的文件中、在相关出版物中,或未披露),以及是否有作者提供的用于创建环境和所用刺激及/或所做数据分析的代码。
表6 数据集可重用性: 它有描述吗?是否包含README文件?是否有文档或文本指示数据集的文件组织/结构?文件名是否具有描述性?协议位于何处?用于记录和数据分析的代码是否可用?
第四部分 讨论
脑电图(EEG)是一种可靠的临床诊断方法,可用于不同的健康状况,如癫痫、阿尔茨海默病、睡眠障碍和麻醉监测。在研究方面,EEG被广泛用于各种认知和心理状况的精神病学、心理学和神经生理学研究。它也被用于脑机接口,其中EEG信号可用于控制计算机、语音设备和其他辅助工具。BCI的最新研究还利用EEG来识别参与者的情绪状态。凭借这些多样化的用例并结合其相对较低的成本(与其他神经诊断工具相比),EEG是神经学及相关领域研究的关键工具。
机器学习和深度学习的最新进展为研究开辟了各种新机会。然而,这些方法需要大量的数据。开放数据集极大地推进了关于这些方法的研究。
在分析本综述中选择的此类数据集时,需要考虑若干因素(即伦理、数据可用性等),具体讨论如下:
A. 伦理
七个数据集被排除在本综述之外,因为它们未表明所进行的研究是否有伦理批准。一般来说,除少数例外,包含的数据集仅在相关出版物中披露了伦理批准。此外,一些数据集不包含版权免责声明,而一些存储库(如PhysioNet)默认包含版权。从法律角度来看,这些披露很重要,因为它告知潜在用户谁拥有数据,以及可以对数据做什么。本综述中包含的数据集最常见的版权是“CC0”,即研究人员放弃所有版权,将数据集置于公共领域,可无条件使用。第二常见的是“CC BY 4.0”,它类似于CC0,但要求用户归功于原始发布者。
B. 数据集中普遍存在的健康状况
在数据集涵盖的不同状况中,最常见的是睡眠相关问题。这并不意外,因为记录与其它传感器(如PSG)相关的EEG用于诊断睡眠问题是标准的临床实践。此外,EEG在研究和临床环境中的使用源于Berger [3], [4] 首次在人类身上使用EEG监测睡眠。
尽管一些诊断在普通人群中非常普遍,如偏头痛、抑郁或焦虑,但在本综述中发现的研究这些状况的数据集非常少:偏头痛1个,抑郁症3个,焦虑症0个。例如,就偏头痛而言,据估计全球普通人群的患病率为10亿人,即估计15%的普通人群一年内会发生偏头痛发作 [102]。然而,只有一个相关的可用数据集(来自 [100]),虽然在数据量方面非常有价值,但仍未涵盖整个状况,因为仅有偏头痛患者在发作间期(发作之间,即偏头痛发作前至少3天或后至少3天)的EEG记录可用。截至发布之时,尚无包含处于不同偏头痛阶段患者记录的开放EEG数据集可供使用。
C. 数据可用性
近年来发表的各种研究都有数据可用性声明,作者在其中指出“数据可应要求提供”。然而,正如Tedersoo等人 [103] 发现的那样,总体上只有大约40%的数据请求得到满足。正如 [29] 的作者所发现的,研究数据的可用性随着出版年限的增加而降低。
数据的可用性不仅从复现的角度来看很重要,而且它为使用未来开发的新方法和工具(即开发用于诊断和治疗疾病的深度学习方法)进行进一步分析创造了机会。在医疗应用中使用AI模型的好处在于模型能够处理噪声数据、不确定性,并检测出使用更标准统计方法无法发现的数据模式。可用数据的增加也允许研究人员比较和验证结果,并进一步加强得出的结论。
然而,数据共享增加了研究人员的负担,因为数据集需要准备好以供重用。正如Perrier等人所指出的,研究人员也可能因担心数据被滥用或误解而厌倦共享数据。此外,引文[21] 还指出,缺乏激励研究人员共享数据的机制,因为在学术任命和晋升方面,数据共享的分量不如发表文章重。
本综述中的一个数据集表明相关代码可用并提供了链接,但在撰写本综述时,该链接已失效(数据集 [70],相关论文 [77] 链接至 https://github.com/gsokoloff/Infant-Sleep-Study-I,该地址不存在)。这可以通过将分析和模型的源代码视为数据集来解决,即将其托管在存储库中并提供DOI和元数据。例如,F-UJI自动化工具提供了与包含自动化工具版本的Zenodo记录相关联的DOI(DOI 10.5281/zenodo.4063720)。
D. 数据收集协议
表6显示了哪些数据集在其描述或文件中包含记录协议。在本综述包含的30个数据集中,有16个在其文件或描述中没有任何数据收集协议的描述。它们中的大多数在相关出版物中解释了协议,并非所有出版物都有直接引用或链接——例如,必须用作者姓名和一般关键词搜索出版物数据库。在某些情况下,出版物很难找到,或者根本找不到。协议详细说明了假设、EEG记录任务描述和方法,以及所用方法的其他特殊性。
在睡眠相关数据集的情况下,记录协议是标准化的,例如,多导睡眠图研究协议在各个数据集中通常是相同的,因此,比较来自不同数据集的记录是可能的。对于其他任务情况可能并非如此。即使是观察相同现象的任务(例如视觉诱发电位),记录协议也可能不同,这使得比较不同数据集及其结果变得更加困难。
此外,如果没有协议,数据分析要么非常困难,要么根本不可能,因为收集数据时所做的假设不清楚,因此数据分析师可能会“钓鱼”寻找显著结果(也称为p-hacking)[104]。
然而,本综述中的许多数据集包含了用于生成记录中所用刺激的代码。这使得研究人员能够使用相同的记录协议,甚至细化到相同的刺激,这使得不同记录之间的比较更加可靠。
E. 数据集文件类型和标准
尽管EEG记录的文件类型没有强制标准,但随着Gorgolewski及其同事发布BIDS标准 ,以及Pernet及其同事发布的EEG扩展标准,最近已取得进展。BIDS旨在标准化神经影像数据的文件格式、组织、元数据和分发。这使得研究人员更容易访问和重用数据。此外,BIDS标准允许分析、软件包和流程与任何遵循该标准的数据集进行互操作。这也消除了为每个数据集开发分析和软件的需要,同时也减少了可能的错误。
例如,以.mat格式分发文件的数据集需要特定软件(Matlab)来打开文件,而BIDS文件是一种开放标准,可以通过任何可以处理EEG数据的软件框架或工具打开。这允许更大的灵活性和数据可访问性。30个数据集中有9个使用BIDS发布,这是由于它们托管所在的PhysioNet存储库的强制要求。
除第三部分列出的模态外,在本综述包含的数据集中未发现其他生理数据收集。更多的生理数据在多项研究中将是有益的;例如,在帕金森病的情况下,放置在手腕上的活动追踪器(体动记录仪)可以帮助测量震颤的强度。
F. FAIR指导原则和数据集可重用性
数据集的FAIR评估表明它们很容易被发现,因为F分数通常很高。然而,这可能是由于幸存者偏差,因为本综述的纳入标准要求有DOI。这强制要求数据集在可发现性方面至少得分70%。这一高分的唯一例外是两个数据集 [67], [68],其DOI对应于描述数据集的文章,并未链接到数据集的托管位置。
可访问性标准分析与访问级别相关的元数据,以及数据是否可以使用标准网络协议(如HTTP、HTTPS、FTP等)访问。由于大多数数据集托管在提供数据访问基础设施的存储库中,因此A分数通常很高。
托管在Figshare、Mendley Data和PhysioNet等数据存储库上的数据集在互操作性原则上得分很高。该原则中的指标衡量机器访问和读取数据集元数据的容易程度。大多数数据存储库默认提供元数据,因为它们是为此目的而建立的。在此原则中得分较低的数据集是那些托管在不同地方(其他类型的存储库、自定义服务器等)或其DOI指向已发表文章的数据集。
最后,可重用性原则指标评估数据集是否提供许可证、是否有关于数据来源的信息,以及数据集是否遵循元数据标准并以该标准提供文件。本综述中的大多数数据集得分在50%或更低,这反映了缺乏关于数据来源的信息,以及大多数数据集不以标准格式提供文件的事实。
然而,FAIRsFAIR数据对象评估指标在评估可重用性方面存在局限性,这也被指标作者所强调 [43]。具体而言,与要求丰富元数据的可重用性原则相关的指标FsF-R1-01MD只能验证数据集的存储库是否包含通用元数据标准中描述的信息。对于观察性临床和/或行为数据的情况,“相关属性”应包含数据收集协议,因为这直接影响数据的分析和解释。然而,无法使用F-UJI工具自动或编程地检查这一点。此外,指标FsF-R1.3-01M用于验证数据集是否遵循目标研究社区推荐的标准,它不能正确识别BIDS格式。因此,表5中可重用性类别的低分并不一定代表EEG数据集可重用性的真实负分,因为该工具无法识别社区标准的BIDS格式。数据集发布者应力求完全符合FAIRsFAIR指标,但指标和自动化工具也需要反映EEG研究社区的要求和标准。
F-UJI工具能够检查存储库级别的信息,即诸如作者姓名、标识符、关键词、描述和机器可读信息(文件名、格式、文件结构、日期和标识符)等可用元数据。然而,它无法检查数据集是否包含诸如文件描述、变量描述和编码(如有)、数据收集协议以及其他分析和重用所需的信息等文档。
为了评估文档级别,我们创建了一个0到3分的量表来代表所提供数据的背景解释得有多好。我们专门寻找了数据收集协议、数据集及其文件内容的描述以及用于分析的软件或代码。
Roy等人 [19] 的综述着眼于已发表的深度学习模型和结果,发现53%的文章使用公共数据(即共享数据),42%使用未共享的私人数据,这意味着这些模型是不可复现的。该综述还强调,21%的研究提到需要更多的公共数据来支持EEG数据的深度学习模型研究。该综述提出的另一个问题是缺乏标记的临床数据,而标记需要时间和专业知识。至于模型的源代码,Roy等人发现只有13%的包含在其综述中的研究提供了代码,这意味着154项研究中只有12项是可复现的(共享了代码和数据)。
此外,由于记录协议和电极导联方式(电极放置和参考)不同,很难将多个数据集结合起来用于深度学习模型。正如Yao等人和Hu等人所述,参考方法(单极或双极)会在信号频率功率分布中产生系统性变化。
G. 总结和最终思考
EEG广泛用于临床和研究环境。近年来,EEG数据已普遍用于为诊断和进一步研究不同健康状况而开发的机器学习算法中。然而,DL模型需要更多数据进行训练和验证。为了确定已发布了哪些与医疗保健相关的开放EEG数据集,并确定这些数据集的可重用性如何,进行了范围综述。
发现了大量潜在的数据集,但在检索和评估的140条记录中,只有30个数据集实际符合纳入标准。被拒绝的主要原因是:未指向数据集、与医疗保健或诊断无关,或未披露数据收集的伦理批准。在30个纳入的数据集中,7个与睡眠相关——这是意料之中的,因为EEG广泛用于睡眠的多导睡眠图评估临床环境中。找到的数据集涵盖的其他诊断或状况要么与精神相关,要么与神经相关,如帕金森病、抑郁症、精神分裂症、脑损伤等。我们发现普通人群中一些普遍状况的数据集匮乏。例如,偏头痛是一种折磨15%人口的神经系统疾病,但我们只找到了一个偏头痛数据集。
发现的大多数数据集都是开放获取的,而其他数据集需要凭证(通过注册进入数据集存储库)或向数据集发布者提出请求。一般来说,数据集被许可为完全置于公共领域,或仅要求归功于数据集作者。
发现的最大挑战是,本综述中超过一半的数据集在其数据集中没有任何关于其数据收集协议的描述。其中,大多数在不同的出版物(通常是分析该数据集的已发表研究)中详细说明了协议,在某些情况下,该出版物并未链接到数据集页面。在这些情况下,为了找到协议,我们不得不搜索数据集作者的出版物,并试图确定哪一篇是基于该数据集的。这使得其他研究人员更难重用该数据集。然而,一些数据集不仅有数据收集协议,还有作者用于处理和分析数据的代码,这为其他研究人员提供了极好的文档和资源。通过提供数据和代码,研究人员使其结果更容易复现和验证,也为整个研究社区提供了资源。
此外,FAIR原则是研究社区为改善数据共享和重用而制定的重要准则。它们指定了对可发现性(例如DOI注册、元数据、在索引中注册)、可访问性(元数据必须可使用标准协议访问和检索)、互操作性(元数据遵循特定标准,易于被机器和人类读取)和可重用性(数据来源、属性和领域相关的其他方面清晰且详细)的要求。FAIRsFAIR项目创建了一种按FAIR原则对数据集进行评分的自动化方法。然而,可重用性标准不容易转化为可以通过编程验证的评分标准。自动化方法不评估数据集中是否包含数据收集协议和数据解释。我们创建了一个量表来根据数据集的文档级别衡量可重用性。
总的来说,需要:(i) 共享更多数据,因为某些健康状况没有数据集;(ii) 更好地记录共享的数据,这使得其他研究人员更容易验证和使用数据。
H. 对数据集发布的建议
根据上述讨论以及表6中为数据集评估创建的可重用性指标,我们建议作者在发布研究数据时遵循以下准则:
-
将数据发布在为其分配永久标识符(DOI)的数据存储库中。免费数据存储库的一些例子包括:用于通用数据的Zenodo (https:///) 和 Figshare (https:///);以及用于EEG和生理数据的OpenNeuro (https:///) 和 PhysioNet (https:///)。
-
在发布数据集分析时,包括带有数据存储库链接(或DOI)的数据可用性声明。还要在数据集中包含已发表文章的链接/引用。
-
明确为数据集分配许可证——如果数据集开放供其他研究人员重用,好的许可证是CC0(“无权利保留”)或CC-BY 4.0(要求署名);有关更多选项和信息,请参阅 https:///share-your-work/cclicenses/。
-
填充元数据使其更容易被发现,方法是给它一个有意义的名称,添加相关的关键词,并链接到已发表文章和从文章链接回数据集。
-
确保描述清楚地标识研究目标、参与者、使用的设备和记录协议,以及任何其他相关信息。这应被视为数据集的“摘要”。
-
包括一个README文件,其中包含:
-
负责收集数据的作者或人员,包括电子邮件地址和隶属关系。
-
数据收集日期。
-
数据收集的地理信息。
-
伦理批准信息。
-
施加于数据的许可或其他限制。
-
引用或使用该数据的出版物链接。
-
数据收集协议:使用了哪些设备,多少电极(以及使用的具体导联方式),EEG记录期间执行了哪些任务。这应该有足够的信息,以便另一个研究人员可以复现数据收集协议。
-
是否对数据进行了任何预处理?如果是,请明确说明做了什么。
-
描述数据集的文件组织/结构。记录是按参与者还是按任务分文件夹的?原始数据和预处理数据是否分文件夹?参与者数据(如年龄、性别、参与者所属组别等)位于何处?
如果可能,包括一个单独的文件,其中包含详细的数据收集协议。如果有用于刺激生成的代码(或其存储库的链接),也应包括在内。
文件名应具有描述性。包括参与者ID和记录中完成的任务,以及任何其他相关信息(例如,“HC1 Rest”表示健康对照组ID 1在静息期间的记录)。
确保数据集遵循标准格式。在EEG记录的情况下,标准格式是BIDS。
任何用于分析的代码也应共享。它可以包含在数据集中,或托管在另一个存储库如GitHub中。
第五部分 结论
EEG数据在通过机器学习和深度学习推进医疗保健方面拥有巨大潜力。虽然我们的范围综述确定了关于该主题的众多数据集,但显然在数据共享和文档方面还有改进的空间。许多数据集缺乏必要的数据收集协议和解释,阻碍了其可重用性和结果的复现。随着我们前进,研究社区必须优先共享目前代表性不足的健康状况的数据,并通过遵守FAIR原则专注于全面文档,最终目标是增强数据集的透明度。