基于注意力机制的多层子词联合学习的中文词嵌入研究
学术背景
近年来,中文词向量(Chinese Word Embedding)在自然语言处理(Natural Language Processing, NLP)领域引起了广泛关注。与英语不同,中文的字符结构复杂且多样,这为语义表示带来了独特的挑战。传统的词向量模型(如Word2Vec)在处理中文时,往往无法充分捕捉汉字内部的细微语义信息,尤其是忽略了不同层次的子词信息对语义的贡献差异。例如,汉字由笔画、部首、拼音等多个子成分构成,这些子成分在不同语境下对语义的理解起着重要作用。然而,现有的模型在处理这些信息时,往往采用统一的方式,未能有效区分各子成分的权重。
为了解决这一问题,本文提出了一种基于权重的中文词向量模型,该模型将中文词的内部结构分为六个层次的子词信息:词、字、部件、拼音、笔画和结构。通过引入注意力机制(Attention Mechanism),模型能够动态调整各子词层次的权重,从而更全面地提取词的语义信息。这一研究不仅提升了中文词向量的质量,还为处理中文文本的复杂语义结构提供了新的思路。
论文来源
本文由Pengpeng Xue、Jing Xiong、Liang Tan、Zhongzhu Liu和Kanglong Liu共同撰写。作者分别来自四川师范大学计算机科学学院、重庆移动通信学院、中国科学院计算技术研究所、惠州大学数学与统计学院以及香港理工大学中文及双语研究系。论文于2025年2月16日被接受,并发表在《Cognitive Computation》期刊上,DOI为10.1007/s12559-025-10431-3。
研究流程
1. 模型设计
本文提出的模型名为“基于注意力机制的多层次子词联合学习中文词向量模型”(Attention-enabled Multi-layer Subword Joint Learning Chinese Word Embedding, ASWE)。该模型的核心思想是将中文词的语义表示分解为六个层次的子词信息,并通过注意力机制动态调整各层次的权重。具体流程如下:
- 输入层:模型首先从大规模中文语料库中提取目标词及其上下文词。上下文词进一步分解为多个子词层次,包括词、字、部件、拼音、笔画和结构。
- 嵌入层:每个子词层次通过嵌入矩阵(Embedding Matrix)转换为向量表示。这些嵌入矩阵是随机初始化的,并在训练过程中不断优化。
- 子词内注意力层:在每个子词层次内部,模型使用自注意力机制(Self-Attention)计算各子词的权重。例如,对于词层次的上下文词,模型通过自注意力机制学习上下文词的权重,并生成临时目标向量。对于其他子词层次,模型通过点积计算子词向量与临时目标向量的相似性,从而获得子词的权重。
- 层次间注意力层:在子词内注意力层的基础上,模型进一步应用层次间注意力机制,计算各子词层次对目标词语义表示的贡献。最终,模型通过加权求和的方式生成目标词的语义向量。
2. 实验设计
为了验证ASWE模型的有效性,本文设计了一系列实验,包括词相似度、词类比、文本分类和案例分析。实验使用的语料库为中文维基百科,经过预处理后,最终生成了233,666,330个词汇标记和2,036,032个唯一词。实验参数设置为:上下文窗口大小为5,词向量维度为200,迭代次数为100,负采样数为10,初始学习率为0.025。
- 词相似度实验:使用WordSim-240和WordSim-297两个数据集评估模型的词相似度表现。实验结果显示,ASWE模型在两个数据集上的表现均优于大多数基线模型,尤其是在WordSim-297数据集上取得了最佳结果。
- 词类比实验:使用包含1124组中文类比问题的数据集评估模型的词类比能力。实验结果显示,ASWE模型在首都、城市和家庭三个主题上的表现均优于其他模型,尤其是在家庭主题上表现尤为突出。
- 文本分类实验:使用复旦大学中文文本数据集评估模型在文本分类任务中的表现。实验结果显示,ASWE模型在环境、农业、经济、政治和体育五个主题上的分类准确率均超过98%,表现最佳。
- 案例分析:通过具体案例分析,本文进一步验证了ASWE模型在捕捉中文词语义关联方面的优势。例如,在处理“强壮”和“朝代”等词时,ASWE模型生成的语义相关词更加准确,且与目标词的语义关联更为紧密。
主要结果
实验结果表明,ASWE模型在多个任务中均表现出色,尤其是在词相似度和词类比任务中取得了显著提升。具体结果如下:
- 词相似度:ASWE模型在WordSim-240和WordSim-297数据集上的Spearman相关系数分别为0.5434和0.6254,均优于基线模型。
- 词类比:ASWE模型在首都、城市和家庭三个主题上的准确率分别为92.91%、92%和56.99%,表现最佳。
- 文本分类:ASWE模型在五个主题上的分类准确率均超过98%,表现优于其他模型。
结论与意义
本文提出的ASWE模型通过引入多层次子词信息和注意力机制,显著提升了中文词向量的语义表示能力。该模型不仅能够更准确地捕捉中文词的复杂语义结构,还为处理中文文本的自然语言处理任务提供了新的解决方案。具体来说,ASWE模型在以下方面具有重要价值:
- 科学价值:ASWE模型为中文词向量的研究提供了新的思路,尤其是在处理多义词、固定搭配和复杂语言现象时表现出色。
- 应用价值:该模型可以广泛应用于中文文本的分类、情感分析、机器翻译等任务,尤其是在处理短文本和复杂语义场景时具有显著优势。
研究亮点
本文的研究亮点主要包括以下几点:
- 多层次子词信息:ASWE模型首次将中文词的内部结构分解为六个层次的子词信息,并通过注意力机制动态调整各层次的权重,从而更全面地提取词的语义信息。
- 注意力机制的应用:模型通过自注意力和层次间注意力机制,有效捕捉了中文词的复杂语义结构,提升了词向量的表示能力。
- 广泛的实验验证:本文通过词相似度、词类比、文本分类和案例分析等多种实验,全面验证了ASWE模型的有效性。
其他有价值的信息
尽管ASWE模型在多个任务中表现出色,但其计算复杂度和训练时间较高。未来研究可以进一步优化模型的时间性能,尤其是在处理大规模语料库时。此外,ASWE模型的概念还可以扩展到动态词向量和大规模预训练模型中,从而进一步提升其应用价值。