使用异构图卷积网络进行电子健康记录文本分类的增强混合方法

EHR-HGCN:一种用于电子健康记录文本分类的新型混合异构图卷积网络方法

学术背景介绍

随着自然语言处理(NLP)的迅速发展,文本分类已经成为该领域一个重要的研究方向。文本分类不仅帮助我们理解文献背后的知识,还在生物医学文本,包括电子健康记录(Electronic Health Records, EHR)等领域有着广泛的应用。现有的研究主要集中在基于双向变压器的编码表示方法(如BERT)和卷积神经网络(CNN)的深度学习方法。然而,这些方法在处理医学长文本时往往面临输入长度的限制和高计算资源的需求。与此同时,针对文本分类的代表性CNN方法往往只提取了附近上下文特征,忽略了文本中更长范围的关系。

为了解决这些问题,近年来异构图卷积网络(Heterogeneous Graph Convolutional Networks, HGCNs)作为一种新的方法被提出,用以考虑文本中的广泛关系。然而,将GCNs应用于不同的实际问题如文本分类仍然面临着挑战。在此背景下,本文提出了一种新的混合异构图卷积网络(EHR-HGCN)方法,通过将词汇和句子的上下文嵌入与结构化的句子级和词汇级的关系信息结合起来,以实现更高效的文本分类。

EHR-HGCN的架构

论文来源介绍

本文由Guishen Wang、Xiaoxue Lou、Fang Guo、Devin Kwok和Chen Cao共同撰写。作者分别来自长春工业大学和南京医科大学,及加拿大麦基尔大学。论文发表在2024年3月的IEEE Journal of Biomedical and Health Informatics第28卷第3期。

研究细节介绍

研究工作流程

EHR-HGCN方法包含三个主要部分:词嵌入、异构图构建和异构图分类。

1. 词嵌入

首先,本文采用GloVe生成初始词嵌入,GloVe模型结合了全局矩阵分解和局部上下文窗口框架,用以生成初始的词嵌入。然后,在这些词嵌入的基础上,利用双向递归神经网络(BiRNN)获取上下文信息,并计算出句子嵌入。

L = ∑ f(xij)(viᵀ vj - log(xij))^2
f(x) = {(x/xmax)^0.75, if x < xmax
        {1, if x ≥ xmax

通过公式(1)和公式(2),GloVe模型能够为文本中的每个关键字生成上下文嵌入。

2. 异构图构建

获取上下文词嵌入向量后,利用余弦相似度计算词汇间远距离关系。如果余弦相似度超过预设阈值,将会在两个词节点之间创建边。此外,如果一个词存在于某个句子中,则在该词和句子之间创建边。每个异构图由句子和词汇作为节点,句子-词汇和词汇-词汇作为边组成。由此,将每个文档转换为异构的图结构,从而将文本分类问题转变为图分类问题。

如下图3所示,每个文档被转化为包含节点和边的图,通过由前文词汇和句子构建的异构图,将文档带来的文本分类问题转化为异构图分类问题。

3. 异构图分类

第三步是使用异构图卷积网络(HGCN)进行异构图级别的分类。HGCN主要由聚合操作和异构图卷积操作组成。通过这些操作,将文档表示为图形,然后通过全连接层输出预测结果。

ĥ lk_i = f(∑ aij ĥ lk-1_j ⊗ θijk)

如公式(5)和(6)所示,HGCN将不同类型边的卷积操作应用于图中,并将结果输入图嵌入层以获取图表示,并最终通过全连接层得到分类结果。

主要结果展示

为了验证提出方法的有效性,本文在多个标准基准数据集以及一个EHR应用基准上进行了实验。标准基准包括20 Newsgroups、R8和R52数据集、Ohsumed和Movie Review数据集。实验结果表明,EHR-HGCN方法在准确率和F1-score上都优于其他对比的传统深度学习和GCN方法。

示例结果

例如,在20 Newsgroups数据集上,EHR-HGCN方法较第二名方法TextGCN在准确率和F1-score上分别高出1.65%和4.28%。在Ohsumed数据集上,仅有EHR-HGCN方法的准确率超过了50%,达到了52.3%。

结论与价值

本文提出的EHR-HGCN方法在文本分类中展现了卓越的性能,特别是在EHR领域。通过将上下文信息与文本的结构关系综合考虑,并引入异构图卷积网络,达到了提升分类效果的目的。这一方法不仅在科学研究中具有重要价值,也为实际的电子健康记录处理提供了新的方向和技术手段。

研究亮点

  1. 创新性:结合GloVe、BiRNN和异构图模型,提出了一个全新的方法。
  2. 性能提升:在多个基准数据集上表现优异,特别是EHR数据集。
  3. 结构全面:考虑了词汇和句子的复杂关系,带来了更高效的文本分类效果。

由此可见,EHR-HGCN方法为文本分类特别是电子健康记录的处理提供了有力的工具,展示了大数据和人工智能结合在医疗领域的潜力和应用前景。未来的研究可能会在更大规模的数据集上进一步测试和优化该方法,以提升其在真实应用场景中的表现。