通过概念化的方法来获取和建模抽象常识知识
引言
人工智能系统对常识知识的缺乏一直是制约该领域发展的主要瓶颈之一。尽管在近年来通过神经语言模型和常识知识图谱获得了长足进展,但”概念化”这一人类智慧的关键组成部分却未能很好地在人工智能系统中体现。人类通过将具体事物或情境概念化为抽象概念并基于此进行推理,来获取和理解世界上无穷无尽的实体和情景。然而,有限的知识图谱无法涵盖现实世界中种类繁多的实体和情景,更不用说对它们之间的关系和推论了。
本项研究深入探讨了概念化在常识推理中的作用,并构建了一个框架来模拟人类的概念归纳过程:从现有的情景常识知识图谱中汲取有关抽象概念的事件知识,以及更高层次的关于这些抽象概念的三元组或推理。该框架首先对常识知识图谱ATOMIC中的事件实例进行概念识别和概念化,利用语言模型和启发式规则生成表示抽象概念的抽象事件和抽象三元组。研究人员通过人工标注的方式构建了大规模数据集,以监督相关神经网络模型的训练,从而在ATOMIC基础上构建了一个规模庞大的抽象知识图谱 “Abstract ATOMIC”。实验结果表明,将该抽象知识图谱并入现有常识模型可以显著提高常识推理和零样本问答等下游任务的性能。
研究背景
现有常识知识的代表形式是以事件为中心的常识知识图谱,其中节点表示为自然语言文本形式。ATOMIC就是一个典型案例,包含了大量人工标注的关于日常情景及其原因和结果的三元组知识。尽管规模庞大,有限的知识图谱仍无法覆盖现实世界中无穷无尽的实体和情景。
研究人员认为,人类依赖”概念化”来获取这些常识知识。我们通过将每个具体经历概念化为抽象概念并将其联系起来,来捕获现实世界中的常识,从而能够理解新的实例。概念是连接我们心智世界的胶水,缺乏概念的智能系统将无法完整地理解这个世界。然而,复制这一人类概念归纳过程并非易事,需要处理语言的本质灵活性、实体/事件与概念的多对多关系,以及报告偏差等挑战。
本研究着眼于通过基于文本形式的常识知识图谱和概念层次关系,利用神经语言模型和规则化方法,获取和建模抽象常识知识。研究对概念化过程进行了三级建模:1)识别事件中的实体/事件并将其概念化为概念;2)根据概念构建抽象事件; 3)验证针对抽象事件的推理(抽象三元组)的典型性。
研究方法
研究人员首先利用启发式规则和语言模型对ATOMIC事件中的实体和事件进行识别和概念化,生成候选的抽象事件。为确保质量,他们人工标注了大规模的事件概念化和三元组概念化数据集,用于监督训练概念化验证器和推理验证器等神经网络模型。具体流程包括:
1) 识别:利用句法和语义特征,设计启发式规则识别事件中的实体和事件作为概念化候选对象。
2) 概念化:通过两条路径生成候选概念 - 基于语言模型的概念生成器直接预测概念;启发式规则将候选对象与概念层次中的概念相链接。所有候选概念需通过概念化验证器过滤,从而形成抽象事件。
3) 推理验证:对每个抽象事件的实例三元组进行推理验证,确定哪些推理通常对该类事件有效,从而形成抽象三元组。
4) 实例化:对任何新出现的事件进行概念化,并基于相应的抽象三元组对其进行推理。
通过这一流程,研究人员在ATOMIC基础上构建了一个包含7万个抽象事件和295万个抽象三元组的大规模”Abstract ATOMIC”知识库。
应用评估
研究人员评估了将该抽象知识库并入现有常识模型后在下游任务上的表现:
1) 常识建模:将抽象知识并入类似COMET的因果语言模型训练中,可显著提升模型在ATOMIC数据集上的性能。
2) 零示例常识问答:将抽象知识并入合成问答对的训练中,能够显著提高商用大模型(如DeberTa)在多个常识QA基准测试中的表现,平均提升1.4%,超越了CHATGPT的水平。
3) 迁移到ConceptNet:初步尝试表明,所构建的基于语言模型的概念生成器可以成功地应用于ConceptNet这一其他常识知识库。
该研究系统性地解决了将概念化引入常识建模和推理的问题,提出了一种获取抽象常识知识的流程,并证明了将其并入现有系统后可以显著提升性能,有望推动人工智能系统更好地掌握常识推理的能力。