本文由Tengxiao Liu(复旦大学计算机科学学院)、Qipeng Guo、Xiangkun Hu(亚马逊AWS AI)、Yue Zhang(西湖大学工程学院)、Xipeng Qiu(复旦大学计算机科学学院)和Zheng Zhang(亚马逊AWS AI)共同完成,发表于2022年12月的Empirical Methods in Natural Language Processing (EMNLP)会议。该研究提出了一种基于强化学习(Reinforcement Learning, RL)的RLET框架,用于生成可解释的问答系统中的蕴含树(Entailment Tree)。
在自然语言处理(NLP)领域,问答系统(QA)的可解释性是一个重要的研究方向。传统的问答系统通常只提供答案,而缺乏对推理过程的解释。近年来,蕴含树作为一种结构化的推理格式,能够通过树状结构展示从问题到答案的逻辑推理步骤,从而提供更透明的解释。然而,现有的方法存在两个主要问题: 1. 单步推理模型:这些模型通过单次推理生成整个推理链,但缺乏对内部决策概率的可视化控制,导致推理步骤的可信度较低。 2. 分步推理模型:这些模型虽然能够逐步生成推理步骤,但训练时仅依赖于单步数据,忽略了推理链的整体性。
为了解决这些问题,本文提出了RLET框架,首次将强化学习引入蕴含树生成任务中,通过累积整个推理树的信号进行训练,从而提升推理链的结构正确性和可解释性。
RLET框架的核心是将推理过程建模为马尔可夫决策过程(Markov Decision Process, MDP),并通过强化学习进行优化。具体流程如下:
RLET在EntailmentBank数据集上进行了实验,该数据集包含1,840个问答对和5,881个推理步骤。实验结果表明,RLET在推理树的结构正确性上显著优于现有基线模型(如EntailmentWriter和IRGR)。具体来说: - 在任务1(仅提供黄金事实)中,RLET在步骤正确性(Steps F1)上提升了3.1个百分点。 - 在任务2和任务3(提供干扰事实)中,RLET在整体正确性(Overall AllCorrect)上也表现出色,尤其是在最复杂的任务3中,RLET的步骤F1提升了4.1个百分点。
此外,RLET在数据效率上也表现出色,仅使用35.6%的训练数据即可达到与全数据训练基线模型相当的性能。
RLET框架的主要贡献和创新点包括: 1. 首次引入强化学习:RLET是第一个将强化学习应用于蕴含树生成任务的研究,通过累积整个推理树的信号进行训练,解决了现有方法忽略推理链整体性的问题。 2. 对齐奖励函数:通过设计与评估指标一致的对齐奖励函数,RLET能够灵活调整训练信号,提升模型的表现。 3. 模块化设计:RLET将推理过程分解为句子选择和推理生成两个模块,便于与其他分步推理方法结合。
尽管RLET在多个任务中表现出色,但仍存在一些局限性: 1. 句子重复使用:RLET在每个推理步骤中移除了已使用的句子,这可能导致性能损失。 2. 多前提推理:RLET仅支持双前提推理,而实际数据中可能存在多前提推理步骤。 3. 强化学习算法的稳定性:RLET使用的策略梯度法对超参数敏感,未来可以探索更稳定的强化学习算法。
RLET框架通过引入强化学习和对齐奖励函数,显著提升了蕴含树生成任务的结构正确性和可解释性。实验结果表明,RLET在多个任务中均优于现有基线模型,尤其是在复杂任务中表现出色。未来,RLET可以进一步应用于其他需要多步推理的任务,并探索更稳定的强化学习算法以提升性能。
关键词:强化学习(Reinforcement Learning)、蕴含树(Entailment Tree)、可解释问答系统(Explainable QA)、自然语言处理(Natural Language Processing)