基于注意力机制的多层子词联合学习的中文词嵌入研究
学术背景 近年来,中文词向量(Chinese Word Embedding)在自然语言处理(Natural Language Processing, NLP)领域引起了广泛关注。与英语不同,中文的字符结构复杂且多样,这为语义表示带来了独特的挑战。传统的词向量模型(如Word2Vec)在处理中文时,往往无法充分捕捉汉字内部的细微语义信息,尤其是忽略了不同层次的子词信息对语义的贡献差异。例如,汉字由笔画、部首、拼音等多个子成分构成,这些子成分在不同语境下对语义的理解起着重要作用。然而,现有的模型在处理这些信息时,往往采用统一的方式,未能有效区分各子成分的权重。 为了解决这一问题,本文提出了一种基于权重的中文词向量模型,该模型将中文词的内部结构分为六个层次的子词信息:词、字、部件、拼音、笔画和结构...