基于知识增强图主题Transformer的可解释生物医学文本摘要

基于知识增强的图主题Transformer在可解释生物医学文本摘要中的应用

研究背景

由于生物医学文献发表量持续增加,自动生物医学文本摘要任务变得愈加重要。2021年,仅在PubMed数据库中就发表了1,767,637篇文章。现有的基于预训练语言模型(Pre-trained Language Models,简称PLMs)的摘要方法虽然提升了摘要性能,但在捕捉领域特定知识和结果可解释性方面存在显著局限。这可能导致生成的摘要缺乏连贯性,包括冗余句子或重要领域知识的遗漏。此外,变压器模型的黑箱特性使得用户难以理解摘要生成的原因和方式,因此在生物医学文本摘要中,包含领域特定知识和可解释性对提高准确性和透明度至关重要。

研究来源

本文的论文由Qianqian Xie、Prayag Tiwari(IEEE高级会员)和Sophia Ananiadou撰写,分别隶属于曼彻斯特大学计算机科学系、哈尔姆斯塔德大学信息技术学院和曼彻斯特国家文本挖掘中心。该研究发表于《IEEE Journal of Biomedical and Health Informatics》2024年4月卷(第28卷,第4期)。

研究内容

方法流程

本文提出了一种新的领域知识增强图主题变压器(Domain Knowledge-Enhanced Graph Topic Transformer,简称DORIS)用于可解释的生物医学文本摘要。DORIS模型将图神经主题模型(Graph Neural Topic Model)和统一医疗语言系统(Unified Medical Language System, UMLS)知识融入到基于变压器的预训练语言模型中。

a) 研究流程细节

研究包括以下几个步骤: 1. 知识增强编码器:使用PLMs如BERT对输入文档和摘要进行编码,得到句子上下文表示。引入图卷积网络(GCN)和图注意力网络(GAT)进行词和句子的语义关联建模。 2. 图构造:利用UMLS生成词关联图和句子关联图,通过SapBERT获取生物医学实体间的相似性。 3. 主题表示生成:通过GCN从词关联图生成主题词分布。使用GAT基于句子关联图丰富句子表示。 4. 领域知识融合:在提取摘要和推断主题过程中,结合文档和句子的主题表示。最终通过句子分类器选择重要句子形成摘要。

b) 主要成果

研究表现出该方法在四个生物医学文献数据集上的实验结果均优于现有最先进的PLM-based摘要方法。具体来说,DORIS能在摘要生成过程中利用图神经主题模型,使模型具备解释性,用户可以理解模型选择特定句子的原因。此外,领域特定知识的引入使模型更能识别并生成连贯的主题,进而提升摘要质量。

数据集与实验

实验采用了四个不同的生物医学文献数据集,包括CORD-19、PubMed-Long、PubMed-Short和S2ORC,通过比较生成摘要和参考摘要之间的ROUGE分数评估摘要质量。实验还评估了模型的参数敏感性和解释性,通过计算主题一致性和句子的相关话题词,验证模型的解释性。

结果分析

研究结果明确表明,DORIS方法在生成可解释和准确的生物医学文献摘要方面显著优于现有方法。融合领域知识的图神经网络使得模型能更好地理解和区分生物医学领域的特定信息,从而生成更为连贯和富有领域相关性的主题。

结论与意义

DORIS方法的提出不仅提升了生物医学文本摘要的准确性和连贯性,而且通过融合领域特定知识和图神经主题模型,实现了摘要结果的可解释性。这对于用户(如临床医生)理解和信任机器生成的摘要至关重要。今后研究方向包括将该解释性框架应用于生物医学文本的抽象摘要和多文档摘要任务,及扩展到临床笔记数据集。