基于知识图谱推荐的生物医学关系提取

医学关系抽取与知识图谱推荐结合的研究报告

背景介绍

在医学领域,文献的爆炸式增长使得研究人员难以及时跟踪各自领域内的最新进展。从自然语言处理(NLP)领域来看,不断发展的自动化工具能够帮助识别和提取非结构化文本中的相关信息,这一任务被称为关系抽取(Relation Extraction,RE)。RE的主要目标是从文本中提取和分类医学实体之间的关系,增强我们对生物医学过程的理解。

目前,大多数尖端的医学RE系统使用深度学习方法,主要针对同类型实体间的关系,如基因和药物等实体。然而,这些系统大多仅限于从文本直接提取的信息,忽略了专门领域的知识库,如本体论(Ontology),这些本体论通常结构化为有向无环图(Directed Acyclic Graphs,DAG)。

另一方面,基于知识图谱(Knowledge Graph,KG)的推荐系统已经显示出将KG中的额外特征整合到项目信息中以提高推荐效果的重要性。通常情况下,这些系统的用户为人,推荐项如电影、书籍等。这项工作提出了通过推荐模型将KG整合到医学RE中,以进一步扩展其应用范围。

来源介绍

这篇名为“Biomedical Relation Extraction with Knowledge Graph-Based Recommendations”的文章由Diana Sousa和Francisco M. Couto撰写,作者隶属于葡萄牙里斯本大学(Universidade de Lisboa)的研究单位Lasige。这篇文章发表在IEEE Journal of Biomedical and Health Informatics 2022年8月的第26卷第8期上。

研究流程

本文描述了一项单一原创研究,详细研究了医学RE系统如何集成基于KG的推荐系统。

研究流程

数据集整理

研究首先将三个公开的RE数据集转换为兼容KG推荐系统的数据集格式:用户-项目-评分对。选择的数据集包括PGR-Crowd(包括人体表型与基因的关系)、DDI Corpus(包括药物/化学物质间的关系)和BC5CDR Corpus(包括药物/化学物质与疾病的相互作用)。

在PGR-Crowd数据集中,用户为基因,项目为人体表型;在BC5CDR数据集中,用户为药物/化学物质,项目为疾病;DDI Corpus则由于其关系涉及同类型实体,通过检验关系对称性划定了用户和项目。为每对用户-项目对分配评分,1表示关系为真,-1表示关系为假。

模型训练

  1. 深度学习模型Biont:该模型使用外部知识源(如本体论)作为信息层,增强标准深度学习模型。通过随机梯度下降优化算法训练,计算损失函数并调整权重。主要的超参数包括学习率、损失函数类别交叉熵(Categorical Cross-Entropy)以及各层的丢弃率(Dropout rate)。

  2. 基于知识图谱的推荐模型TUP:该模型用于对一个用户-项目对输出一个相关性评分,指示用户是否喜欢该项目。利用软策略结合多个偏好,通过加载不同偏好的注意力机制从知识图谱提出推荐,使用BPR损失函数进行优化。

  3. K-Biont结合模型:将Biont与TUP模型结合,通过深度学习模型提取关系,再利用推荐模型提供额外支持信息。通过对置信度矩阵的分析,主要参考推荐模块提出的关系,如果模型产生的标签为假,而推荐模块为真,则考虑推荐模块的标签。

研究结果

深度学习模型

应用三个数据集(PGR-Crowd, DDI Corpus, BC5CDR Corpus)到Biont和BioBERT深度学习模型中,结果显示Biont和BioBERT模型在PGR-Crowd数据集上表现相似,在DDI Corpus数据集中BioBERT表现优于Biont,可能由于Biont中的Chebi本体兼容问题。

知识图谱推荐模型

调整后的TUP模型使用软推荐策略,尽管数据稀疏性问题存在,但在PGR-Crowd数据集中显示出较好的推荐性能。由于PGR-Crowd数据集中的项目实体100%链接到HPO本体,推荐模块展示了显著的改善作用。

结合模型的评价

综合评估表明,在PGR-Crowd和BC5CDR数据集中,K-Biont结合模型的性能随着推荐数的增加有所提高。DDI Corpus未显示明显改进,这表明由于项目实体覆盖度较低,推荐模块在此情境下效果有限。

研究结论与应用价值

这项研究为深度学习模型与基于知识图谱的推荐系统相结合提供了新的方向。通过将现有KG知识整合到医学RE中,增强了模型在识别稀有关系上的能力。尽管目前KG覆盖度不足是一个限制因素,推荐模块仍然提升了RE系统的性能。

研究展示了在本体覆盖度充足的情况下,知识图谱推荐能有效补充深度学习模型,通过推荐系统发现未被深度学习模型识别的真实关系。

研究亮点

  • 创新性:首次将基于KG的推荐系统整合到医学RE中,展示了增强RE系统的新方法。
  • 实用性:推荐系统能够补充深度学习模型的不足,特别是在知识稀疏领域。
  • 前景广阔:未来可扩展涉及更多类型关系和多种本体间的联结,提升推荐系统的广泛适用性。

其他有价值的信息

后续研究可拓展多类型关系的KG整合,并尝试更多生物医学本体,增强KG覆盖度。同时,结合KG完成技术以提高推荐可靠性,为医学RE系统带来更多升值空间。

参考文献

文章中包含了丰富的参考文献,涉及知识图谱、深度学习、医学信息处理等多个领域,为研究提供了坚实的理论基础。具体值得关注的部分包括: - 医学本体论如HPO、Chebi、DO等的最新进展; - 基于知识图谱的推荐系统发展和在生物医学领域的应用; - 深度学习方法在关系抽取中的最新研究成果。

通过本文的研究,可以预见在未来的医学信息处理中,知识图谱和深度学习的结合将会成为新的突破口,进一步提升信息抽取的精度和全面性。