用于膳食营养和人类健康问答的综合知识图谱
背景与研究动机
众所周知,食物营养与人类健康密切相关。科学研究表明,膳食营养不当与200多种疾病有联系,尤其在考虑肠道微生物代谢的情况下,食物营养成分与疾病之间的复杂交互作用更是难以系统化和实际应用。正因为如此,开发一个整合全面知识并提供实用应用的框架变得十分迫切,以支持获取饮食相关的查询。
研究来源
本文是一项由Chengcheng Fu、Xueli Pan、Jieyu Wu、Junkai Cai、Zhisheng Huang、Frank Van Harmelen、Weizhong Zhao、Xingpeng Jiang和Tingting He共同撰写的研究。这项研究的参与者来自湖北省人工智能与智能学习重点实验室、华中师范大学计算机科学学院以及Vrije Universiteit Amsterdam计算机科学系,部分作者还隶属其他机构如上海浦东新区精神卫生中心。这篇文章已经被IEEE Journal of Biomedical and Health Informatics接受,并将在2023年正式发表。
研究流程
这篇研究主要分为以下几个部分:数据收集、三元组的提取、知识整合与扩展、以及问题回答系统的研发。
数据收集
研究人员从PubMed上搜索了关于食物、营养和人类疾病的文章,收集了2012年至2022年期间发布的230,573篇文章的标题和摘要。这些文本经过斯坦福CoreNLP分词和句子分割处理,生成更多细粒度的标记。
三元组提取
概念识别
研究人员使用EURECA项目提出的概念识别工具(CI)来识别和分类文本中的营养物和疾病实体。例如,“2型糖尿病”作为疾病实体被识别,并关联到多种分类。通过概念识别,共识别了46,807个营养实体和47,749个疾病实体。
关系抽取
对于关系抽取,研究人员采用了BiolinkBERT模型进行训练,并优化了模型参数以确保高效的关系抽取。最终,模型自动从大量句子中提取关系,共计识别27,873个关系,包含706种营养和2,705种疾病。
知识整合与扩展
整合了多个来源的知识如FD C(FoodData Center)和KEGG (Kyoto Encyclopedia of Genes and Genomes)等。这些知识通过图数据库工具GraphDB进行存储,并应用具有传递性和对称性的预定义规则进行知识扩展。最终构建的知识图谱包含约255,017,496个三元组、154个语义关系和7,437,819个实体。
问题回答系统的研发
问题设计
系统根据食物与健康研究中的三大关键主题(营养分析、营养代谢、食物对人类疾病的影响)设计了三种类型的问题:描述类、比较类和原因类。每类问题提供了可被SPARQL查询的模板,以便从知识图谱中提取答案。
基准数据集
基准数据集包含120个问题,涵盖三类主要用户群体:患者、医生和营养师、研究人员。问题经过专家仔细设计,并提供了标准答案。这些问题用于系统的有效性验证和评估。
主要结果
对比实验
研究通过对比分析BiolinkBERT、Biobert和BlueBERT等模型的性能,表明BiolinkBERT在关系抽取任务中表现更佳,其精确度达到0.92,召回率为0.81,F1评分为0.86。
解释实验
通过计算营养节点在关系图中的重要性,研究发现叶酸和蔗糖在众多营养物中具有较高的重要性。
消融实验
研究进行了消融实验,评估了不同知识源对问答系统的贡献,结果显示,移除现有的知识会显著降低问答系统的准确性和其他指标。
比较讨论
研究团队将其问答系统与ChatGPT进行了比较,发现其系统在准确性和一致性上更具优势,但在鲁棒性和解释性上有待改进。
质量评估
通过SHACL框架设计了一些约束规则评估知识图谱的数据结构质量,并发现了一些数据导入过程中的错误和不完整的概念定义,这些发现有助于进一步改进知识图谱。
结论和意义
这项研究开发了一个全面、不断更新的膳食营养与人类健康的知识图谱,通过自动化三元组提取和知识整合实现。基于此知识图谱,研发了一个基于查询的问题回答系统,为三种类型的问题提供精确答案。五个精心设计的实验验证了该方法的有效性。总体来说,这项研究展示了一种系统化的膳食营养与人类健康知识图谱构建方法,并为研究人员、临床医生和患者提供了探索膳食与健康复杂关系的有力工具。
在未来的研究工作中,团队计划进一步优化关系提取模型,整合大规模语言模型和无监督学习技术,并扩展问答系统的分类,以涵盖更多种类的问题。此外,通过引入先进的自然语言理解技术提升系统的适应性和响应性。