Lingdan: enhancing encoding of traditional Chinese medicine knowledge for clinical reasoning tasks with large language models
摘要
目的:近年来,大型语言模型(LLMs)在各个领域蓬勃发展,但在传统中医药(TCM)领域的应用尚未完全实现。本研究旨在通过开发一个针对中医药知识定制的大型语言模型来填补这一差距,提高其在临床推理任务(如诊断、治疗和处方推荐)中的性能和准确性。
材料与方法:本研究利用了丰富的中医药数据资源,包括中医药古籍、教科书和临床数据,创建了3个关键数据集:中医药预训练数据集、中成药专利药问答数据集和脾胃草药处方推荐数据集。这些数据集支持开发了灵丹预训练大型语言模型以及2个专用模型:灵丹中成药专利药聊天模型,该模型采用思维链过程进行症状分析和中成药推荐;以及灵丹处方推荐模型(灵丹-PR),该模型基于电子病历提出草药处方。
结果:在灵丹预训练大型语言模型上微调的灵丹中成药专利药聊天模型和灵丹处方推荐模型,在中医药临床知识问答和草药处方推荐任务中展现了最先进的性能。值得注意的是,灵丹预训练大型语言模型(Lingdan-PR)的表现超越了所有最先进的基线模型,与最佳基线相比,在Top@20 F1分数上提升了18.39%。
结论:本研究标志着将先进的大型语言模型与中医药学合并的关键一步,展示了人工智能帮助提升医学诊断和治疗策略临床决策的潜力。灵丹预训练大型语言模型及其衍生模型——灵丹中医药预训练对话系统(Lingdan-TCPM-Chat)和灵丹预训练大型语言模型(Lingdan-PR)的成功,不仅革新了中医药实践,也为人工智能在其他专业医学领域的应用开辟了新途径。我们的项目可在https://github.com/TCMAI-BJTU/LingdanLLM获取。
关键词:中医药;大型语言模型;预训练;临床推理;处方推荐。
核心速览
研究背景
- 研究问题
:这篇文章旨在解决如何将大型语言模型(LLMs)应用于传统中医(TCM)领域,以提高其在临床推理任务(如诊断、治疗和处方推荐)中的性能和准确性。 - 研究难点
:该问题的研究难点包括:TCM知识体系的复杂性和理论框架的多样性;古典中文的独特语法结构和语义理解难度;以及缺乏高质量的TCM数据集和基础模型。 - 相关工作
:近年来,已有学者在TCM草药处方推荐(HPR)研究方面取得了显著进展,包括使用结构化电子病历平台进行医学知识发现和决策支持,以及引入多种深度学习模型(如PTM、SMGCN、FordNet和PresRecST)。然而,尽管LLMs在一般领域取得了显著成功,但在医学领域的应用仍然不理想。
研究方法
这篇论文提出了通过开发和训练专门针对TCM知识的大型语言模型来解决上述问题。具体来说,
-
数据集构建:首先,研究者创建了一个大规模的TCM预训练数据集(TCMPT),包括TCM古籍、教科书、病例记录、中国药典和说明书等。然后,开发了TCM专利药品问答数据集(TCPM-QA)和脾胃草药处方推荐数据集(SSHPR)。
-
基础模型选择:选择了Baichuan2-13B-Base作为基础模型,并在其上进行微调。
-
知识语言化:对中药和TCMP的关键信息进行提取和清理,然后通过ChatGPT-3.5生成自然语言文本,以优化模型的训练。
-
模型训练:使用QLoRA进行高效的微调,采用零冗余优化器(ZeRO-2)进行并行化训练。具体参数设置如下:
-
LoRA排名为8,alpha为32,dropout率为0.1。 -
数据采样策略包括9:1和1:1的混合比例。
实验设计
- 数据收集
:收集了包括TCM古籍、教科书、病例记录、中国药典和说明书在内的多种数据资源。 - 数据预处理
:对古籍进行现代汉语翻译,对中药和TCMP信息进行知识语言化处理。 - 数据集构建
:构建了TCMPT、TCPM-QA和SSHPR三个数据集,分别用于预训练、问答任务和处方推荐任务。 - 模型训练
:在Baichuan2-13B-Base和Lingdan预训练模型上进行微调,使用QLoRA和ZeRO-2进行优化。
结果与分析
-
预训练结果:在数据采样比例为9:1时,损失从第50步开始增加,而直接混合采样的损失则逐渐下降并收敛到约2.0。这表明直接混合采样策略提供了更平衡和多样的训练数据。
-
案例分析:通过与多个测试案例进行比较,发现Lingdan-TCPM-Chat在模拟真实患者-医生对话场景中的诊断能力显著提高。与Baichuan2-TCPM-Chat相比,Lingdan-TCPM-Chat在进一步询问症状和避免重复输出方面有更好的表现。
-
定量评估:在处方推荐任务中,Lingdan-PR在所有评估指标上均优于现有基线方法,特别是在Top@20 F1-score上提高了18.39%。
总体结论
这篇论文通过构建大规模TCM数据集和开发专门针对TCM知识的大型语言模型,展示了LLMs在TCM领域的潜力。研究表明,Lingdan预训练模型及其衍生模型在TCM临床知识问答和草药处方推荐任务中表现出色,显著提高了诊断和治疗的准确性和效率。该研究不仅推动了TCM的现代化进程,也为其他专业医学领域的AI应用开辟了新途径。
论文评价
优点与创新
- 全面的中医药数据集构建
:开发了包括中医药预训练数据集(TCMPT)、中医药专利药品问答数据集(TCPMQAD)和脾胃草药处方推荐数据集(SSHPR)在内的广泛中医药数据集,为LLM在中医药领域的训练提供了独特的、全面的数据基础。 - 专门的中医药语言模型开发

:引入了创新的中医药专注LLM,包括 Lingdan 预训练LLM及其衍生模型(TCPMQAChat和Lingdan-PR),专门优化了中医药知识的处理和应用。 - 卓越的模型性能
:与多种基线模型相比,Lingdan-TCPM-Chat和Lingdan-PR展示了卓越的性能,突显了该方法的有效性和在中医药领域应用LLM的巨大潜力。 - 知识语言化
:对所有结构化知识进行了知识语言化处理,以优化其模型训练。 - 数据采样策略
:实验了不同的数据采样策略,证明了整合一定量的公开可用数据资源有助于模型的稳定性和收敛性。 - 高效的参数微调方法
:采用了高效的参数微调方法LoRA,尽管导致性能略有下降,但展示了其在大规模模型微调中的潜力。
不足与反思
- 资源消耗
:训练高性能LLMs在资源消耗方面提出了重大挑战。尽管采用了LoRA等高效参数微调方法,但仍对性能产生了一定影响。 - 专家评估的局限性
:尽管尝试通过专家评估来量化微调模型的改进,但进一步利用专家评估来量化改进仍是一个挑战。 - 数据质量和多样性
:未来工作将专注于扩展数据集、提高数据质量和增加模型的训练参数,旨在开发更强大的中医药预训练模型,以提高其在下游任务中的性能和实用性。 - 疾病和症状的同质性
:由于数据中得出的疾病和症状相对同质,限制了模型性能的全面评估。
关键问题及回答
问题1:在构建TCM预训练数据集(TCMPT)时,研究者是如何选择和处理的古籍?
- 古籍选择
:研究者精心挑选了1522本TCM古籍,涵盖了13个类别,包括医学经典、药材和各种临床专科。这些古籍如《黄帝内经》和《本草纲目》是传递TCM知识的重要载体。 - 翻译工具选择
:由于古典中文的语法结构和语义理解难度较大,研究者对比了BaiChuan2-13B-Chat、ChatGLM3、Llama2-13B-Chat和ChatGPT-3.5在古籍翻译任务中的表现。最终选择了BaiChuan2-13B-Chat作为翻译工具,以确保翻译质量和准确性。 - 翻译质量评估
:通过专家评估,BaiChuan2-13B-Chat在准确性、创造性和文化传承方面的得分分别为0.6、0.25和0.4,均优于其他模型,表明其在处理复杂的TCM古籍翻译任务中具有优势。
问题2:Lingdan-TCPM-Chat模型在多轮对话构建中采用了什么方法?其优势是什么?
- 方法介绍
:研究者引入了基于链式思维(Chain-of-Thought, CoT)方法的TCM互动诊断对话框架(TCM-IDDF)。该方法将基于症状的TCMP推荐任务分解为顺序步骤。 - 步骤详解
- 症状跟进
:用户首先描述一组症状,模型分析这些症状的病因和病理,然后询问第二组症状。 - 诊断和建议
:根据用户的第二组症状,模型确定可能的TCM证候,并推荐相应的TCMP,解释其疗效。 - 进一步询问
:对话扩展到1-2轮,关注推荐的TCMP的草药组成、潜在副作用和安全信息。
- 优势
:TCM-IDDF框架模拟了实际医疗咨询中的深度和复杂性,使模型能够在详细的逐步评估症状的基础上进行全面诊断。实验结果表明,Lingdan-TCPM-Chat在模拟真实患者-医生对话场景中的诊断能力显著提高。
问题3:在处方推荐任务中,Lingdan-PR模型与现有基线方法相比有哪些改进?
- 评估指标
:使用Top@K评估指标,具体包括Precision@K、Recall@K和F1-score@K。 - 性能提升
:在所有评估指标上,Lingdan-PR模型均优于现有基线方法。特别是在Top@20 F1-score上,Lingdan-PR比最佳基线模型提高了18.39%。 - 数据增强
:通过随机打乱处方中的草药成分,增加了数据多样性,显著提升了模型性能。实验结果显示,随着数据增强次数的增加(如5次和10次打乱),模型性能显著提升。 - 直接比较
:与基线模型如LinkLDA、BlockLDA、Link-PLSA-LDA、MLKNN、TCMPR、KDHR和Baichuan2-PR相比,Lingdan-PR在各项指标上均有显著提升,特别是在F1-score上的改进最为显著。
#artContent h1{font-size:16px;font-weight: 400;}#artContent p img{float:none !important;}#artContent table{width:100% !important;}