专家论坛｜孔媛媛：人工智能相关肝病临床试验的方法学考量

近年来，人工智能（AI）在医学领域，包括肝病临床试验领域迅速发展。在大数据和精准医疗的推动下，AI技术已逐渐成为优化患者筛选、风险预测、终点评价及结果解读等关键环节的重要工具，为创新临床试验设计、优化实施流程带来了新机遇，成为驱动肝病临床试验向高质量和智能化方向转型的重要技术动力。AI相关临床试验主要分为两种类型：一类是AI作为研究对象，即将AI系统本身视作医疗器械或临床技术，通过临床试验系统评估其在诊断、预测或决策支持中的安全性与有效性，本文将其归类为“AI验证型临床试验”；另一类是AI作为研究工具，并非试验的主要干预对象，而是在试验设计与实施过程中辅助完成患者筛选、风险分层、结局评价或数据管理等任务，本文将其归类为“AI辅助型临床试验”。前者强调对AI自身临床价值的验证，后者则突出其在提升试验效率与质量方面的应用价值。

然而，AI在临床试验中的规范化应用仍面临诸多方法学挑战，涉及数据质控、模型可解释性及因果推断能力等。本文将聚焦于肝病领域的相关应用场景，从方法学角度系统梳理AI在肝病临床试验中的应用现状和主要挑战，并结合国际主流AI方法学和医学研究报告规范，探讨相应的解决策略，旨在为促进AI赋能肝病临床试验的规范化应用与可持续发展提供科学参考。

1AI相关肝病临床试验的应用与设计

1.1 AI相关肝病临床试验的基本情况

通过PubMed和ClinicalTrials.gov数据库检索至2025年7月21日已发表的文献及注册的临床试验，检索语言限于英文和中文，检索与肝脏疾病相关且涉及AI在肝病诊断、预后评估、疗效预测或治疗决策中的应用研究。初步检索到83篇文献和236项注册临床试验，经筛选后最终纳入36项AI相关肝病临床试验，其中包含13篇文献和23项注册临床试验。

在纳入的36项AI相关临床试验中，31项为AI验证型临床试验，5项为AI辅助型临床试验。疾病分布以肝癌（61.1%）和脂肪肝（27.7%）为主。AI的应用领域涵盖6个方面：医学影像分析、数字病理分析、基于生物标志物的疾病分型与诊断辅助、临床决策支持、药物剂量个体化管理及实施策略优化等。总体上，AI验证型临床试验主要聚焦于影像分析和诊断支持，AI辅助型临床试验则侧重个体化药物管理和多模态数据融合。部分AI工具已获得监管机构批准，但多数处于试验阶段或尚未正式应用（表1）。

1.2 AI相关肝病临床试验的设计要点

纳入的AI相关肝病临床试验在设计方面呈现多样性。在分配方法方面，以非随机分配最为常见（12项），其次为简单随机（9项）、区组随机（7项），另有顺序分配、阶梯式楔形集群随机、Pocock-Simon动态最小化随机和整群随机各1项，提示简便、可操作性强的随机化方式仍占主导地位。在盲法设置方面，开放标签18项（50.0%），盲法16项（44.4%）。实际样本量范围为20～504例。在干预模式方面，试验组普遍引入AI技术或AI辅助优化手段，具体包括：单纯AI干预10项、AI联合医学影像优化或操作优化11项、AI输出与专家判读对比3项，以及AI辅助临床决策或联合新药/新方案干预12项；对照组均未涉及AI相关干预。所采用的AI算法包括深度学习、卷积神经网络、随机森林、机器学习、自然语言处理及多模态融合模型等。仅有2项研究报告完全符合CONSORT或CONSORT-AI标准，其余研究仅部分满足相关报告要求，特别在统计学设计、AI算法细节及结果呈现等方面信息披露不足，提示AI相关肝病临床试验在报告质量和规范性方面有待提高（表2）。

2AI相关临床试验的主要方法学挑战

2.1 数据集质量参差与共享障碍

当前AI在肝病临床试验领域的应用面临来自真实世界诊疗数据的多重挑战，包括数据的多源异构、质量参差及共享障碍等。不同医疗机构间的数据常存在格式不统一、编码体系各异和数据缺失等现象，且行业内缺乏统一的、覆盖多病种和全诊疗流程的数据标准。尽管国际上已有临床数据交换标准协会等制定注册临床试验数据规范，但此类标准尚难直接应用于多源、多模态、和动态变化的真实世界临床数据。

为突破数据壁垒，实现多源异构数据互联互通，行业正逐步推广与应用多项高新技术，包括建立标准化数据元体系与医学术语库，实现数据结构和内容的统一匹配；采用数据标识与语义对齐技术（如自动化字段映射引擎），提升不同系统间的数据互操作性；引入数据自动治理智能体，通过规则和机器学习实时提升数据完整性和一致性；同时加强数据安全与隐私保护，融合密态计算、联邦学习和可信执行环境，保障跨机构间数据在安全前提下的可信共享。

2.2 模型偏倚与泛化能力不足

在肝病风险预测AI模型的开发过程中，模型偏倚与泛化能力始终是核心挑战。训练与验证过程中的选择偏倚是影响建模有效性和可推广性的关键问题之一。据文献报道，目前大多数研究模型的训练以及验证主要依赖于单中心或区域性研究，样本量从几十例到十余万例不等，其中大部分研究属于小样本队列，仅约30%的模型进行了独立的外部数据验证，大部分仍采用“训练集/测试集”按7∶3或8∶2比例划分内部数据进行验证。这直接削弱了模型的泛化能力和临床适用性。

随着真实世界医疗数据的不断积累，通过跨中心、跨区域的数据共享和验证，以及多时间段、多种族的数据整合，有望进一步增强模型的稳定性及泛化能力。未来模型研发，除强调在原始训练数据上的性能外，外部独立验证应成为常规流程，纳入多样本、多中心长期队列数据是提升模型可信度的关键。

2.3 模型透明度与可解释性差

传统AI模型特别是深度学习（如神经网络）往往被视为“黑箱”，其内部决策机制不透明、难以解释。一项肝病AI模型的系统综述显示，当前AI相关的肝病研究主要采用随机森林和线性模型等可解释性方法，这类模型使用较为广泛，但根据影响力评分［s=AUROC×log₁₀（n）， where n=validation cohort size （scaled to 1.0～1.5）；基于模型AUROC与验证队列规模加权］，其实际影响力相对较低。近年来，深度学习等方法在肝病多模态数据（如组织病理学、组学）中的应用日益增加，展现出处理高维复杂数据的处理优势，且在大型队列和复杂疾病（如HCC、慢加急性肝衰竭）的建模中表现出更高的准确性和影响力。此外，目前大多数研究仍采用特征工程与建模过程分离的策略，端到端建模尚不普遍。综上，肝病AI建模领域正在由传统、可解释模型逐步向深度学习等复杂模型的多元化方向发展。

以AI辅助病理诊断为例，可解释AI方法不仅能够输出肿瘤与非肿瘤的预测结果，还能清晰展示模型决策背后的关键组成部分。首先，透明度指的是让医生了解模型内部的神经网络结构和每一步神经元的激活模式，揭示模型的“思考过程”；其次，语义体现为明确识别那些促使模型做出判断的图像特征，例如哪些细胞核形态或组织结构引起了模型的关注并影响最终结果；最后，解释是在整体上揭示这些关键特征和网络响应是如何共同作用、最终使得模型给出肿瘤或非肿瘤结果。这三方面共同提升了AI模型的可解释性和可信度，让医生能够结合自身专业知识，更好地理解和甄别模型辅助诊断结果。

2.4 AI对传统试验设计与统计分析的挑战

AI的应用为医学研究创造了新的可能，同时也给传统试验设计带来了挑战。AI模型通常需要高维度、大规模、动态变化的数据输入，这与传统临床试验依赖的严格分组、精确样本量估算及随机对照设计存在本质区别。AI研究多采用回顾性数据或真实世界数据，研究人群具有较高异质性，干预和暴露因素难以精确控制，导致经典随机对照试验的核心原则（随机化分配、盲法实施和对照组设定等）难以直接应用。为解决这一问题，研究者需要参考AI相关的临床试验设计规范，以确保研究设计的科学性和临床推广价值。

同时，AI方法也对传统统计分析框架提出了新要求。AI算法主要关注数据变量间的统计相关性和非线性模式识别，而非直接揭示因果关系，这使得模型可能在具备较高预测准确性的同时，缺乏对疾病机制、混杂因素和干预效应的准确判断能力。在评估医学干预措施和研究终点时，忽视因果推断可能导致模型结果包含系统性偏倚，降低研究结论的可解释性和临床实用性。针对这些问题，国际学术界已提出多项指导原则和标准（表3），以及整合因果推断理论的创新分析方法，从而有助于提升AI模型的科学性和可解释性。

2.5 伦理与合规的挑战

除技术与方法学问题，AI相关临床试验亦面临伦理与合规挑战。首先，知情同意应明确涵盖AI工具的功能、潜在风险及其局限性，确保临床试验参与者在充分理解后自愿参与。其次，数据隐私与安全问题需严格把控，AI模型训练通常依赖多中心敏感数据，其跨机构共享与应用应严格遵守合规要求，防止隐私泄露和数据滥用。再次，需关注算法公平性，避免因数据分布不均或样本代表性不足导致对特定人群的系统性偏差。最后，责任归属尚不明确，当AI辅助诊疗发生误判时，研究者、开发者及监管机构之间的责任界定仍存在模糊地带。总体而言，AI临床试验的伦理与合规规范尚不完善，这在一定程度上制约了其规范化和可持续发展。为此，国际上已发布多项规范为相关实践提供参考（表3）。

3AI相关临床研究设计与报告规范

随着AI在医学领域的应用日益广泛，国际学术界相继提出了针对AI临床研究的规范，以弥补传统临床试验设计和报告在AI场景下的不足。研究表明，尽管当前指南已对数据质量控制、模型透明性、外部验证和效果评价等关键环节提出了明确要求，但在实际执行过程中仍面临诸多挑战，包括多中心数据标准不统一、模型验证不足、指标报告单一以及对AI模型动态迭代过程缺乏监管等。为此，国际上已发布或正在制定的多项规范覆盖了AI医学研究的全流程（表4）。遵循相关规范，有助于提升肝病AI研究的透明度、可重复性和标准化水平，从而增强AI在肝病领域的临床转化与推广价值。

4未来前景与方法学创新方向

AI技术在肝病临床试验方法学领域正处于探索发展阶段，其应用范围与深度仍然有限。目前，AI主要以辅助工具形式嵌入数据处理、患者筛选、风险分层和终点评价等环节，这类应用多聚焦于数据挖掘和决策支持，而真正以AI为核心干预对象或验证内容的前瞻性临床试验仍然较为有限。AI辅助型与AI验证型肝病临床试验在设计方法、评估指标和方法学要求上各具特点，有待进一步规范。总体来看，AI相关创新型试验设计和流程优化已初步展现临床应用前景，但高质量循证证据尚不充足，亟需更多大规模、多中心的真实世界研究以推动其规范化和临床转化。

未来，肝病临床试验中AI方法学的优化路径主要包括以下方面：建立规范化数据采集与安全共享机制，确保数据质量与合规性；推动联邦学习等隐私计算技术在多中心研究中的应用，提升模型泛化能力；加强独立多中心外部验证研究，系统评估模型稳定性与临床适用性；深化多学科协作，整合AI、肝病学、流行病学、统计学及伦理学等领域专业知识，共同推动AI方法学标准的制定与实施。随着AI方法学的不断完善及配套规范体系的建立，AI技术将加速融入肝病临床试验，助力该领域实现高质量、高效率和智能化发展。

全文下载 PDF & HTML

https://www./cn/article/doi/10.12449/JCH251105

引证本文 Citation

史立臣, 冯睿时, 贾继东, 等 . 人工智能相关肝病临床试验的方法学考量[J]. 临床肝胆病杂志, 2025, 41(11): 2227-2234