分享自:

基于强化学习的可解释问答与蕴含树生成框架

期刊:proceedings of the 2022 conference on empirical methods in natural language processing

学术报告:基于强化学习的可解释问答系统——RLET框架

1. 研究背景与作者信息

本文由Tengxiao Liu(复旦大学计算机科学学院)、Qipeng Guo、Xiangkun Hu(亚马逊AWS AI)、Yue Zhang(西湖大学工程学院)、Xipeng Qiu(复旦大学计算机科学学院)和Zheng Zhang(亚马逊AWS AI)共同完成,发表于2022年12月的Empirical Methods in Natural Language Processing (EMNLP)会议。该研究提出了一种基于强化学习(Reinforcement Learning, RL)的RLET框架,用于生成可解释的问答系统中的蕴含树(Entailment Tree)

2. 研究背景与动机

在自然语言处理(NLP)领域,问答系统(QA)的可解释性是一个重要的研究方向。传统的问答系统通常只提供答案,而缺乏对推理过程的解释。近年来,蕴含树作为一种结构化的推理格式,能够通过树状结构展示从问题到答案的逻辑推理步骤,从而提供更透明的解释。然而,现有的方法存在两个主要问题: 1. 单步推理模型:这些模型通过单次推理生成整个推理链,但缺乏对内部决策概率的可视化控制,导致推理步骤的可信度较低。 2. 分步推理模型:这些模型虽然能够逐步生成推理步骤,但训练时仅依赖于单步数据,忽略了推理链的整体性。

为了解决这些问题,本文提出了RLET框架,首次将强化学习引入蕴含树生成任务中,通过累积整个推理树的信号进行训练,从而提升推理链的结构正确性和可解释性。

3. 研究方法与流程

RLET框架的核心是将推理过程建模为马尔可夫决策过程(Markov Decision Process, MDP),并通过强化学习进行优化。具体流程如下:

  1. 任务定义:输入包括一组事实句子(facts)和一个假设(hypothesis),目标是构建一个蕴含树,其中叶子节点为事实,根节点为假设,中间节点为生成的中间结论。
  2. 句子选择模块:在每个推理步骤中,模型从当前状态中选择两个句子(包括事实和已生成的中间结论)作为前提。
  3. 推理生成模块:基于选择的前提,生成一个新的中间结论,并将其添加到下一个推理步骤中。
  4. 奖励设计:通过设计对齐奖励函数(Aligned Reward Function),模型在每个推理步骤中根据其对整个推理树的贡献获得奖励。奖励函数与最终评估指标一致,确保训练与评估的一致性。
  5. 优化:通过强化学习算法(如策略梯度法),模型学习最优的句子选择策略,以最大化累积奖励。

4. 实验结果与分析

RLET在EntailmentBank数据集上进行了实验,该数据集包含1,840个问答对和5,881个推理步骤。实验结果表明,RLET在推理树的结构正确性上显著优于现有基线模型(如EntailmentWriter和IRGR)。具体来说: - 在任务1(仅提供黄金事实)中,RLET在步骤正确性(Steps F1)上提升了3.1个百分点。 - 在任务2任务3(提供干扰事实)中,RLET在整体正确性(Overall AllCorrect)上也表现出色,尤其是在最复杂的任务3中,RLET的步骤F1提升了4.1个百分点。

此外,RLET在数据效率上也表现出色,仅使用35.6%的训练数据即可达到与全数据训练基线模型相当的性能。

5. 研究意义与创新点

RLET框架的主要贡献和创新点包括: 1. 首次引入强化学习:RLET是第一个将强化学习应用于蕴含树生成任务的研究,通过累积整个推理树的信号进行训练,解决了现有方法忽略推理链整体性的问题。 2. 对齐奖励函数:通过设计与评估指标一致的对齐奖励函数,RLET能够灵活调整训练信号,提升模型的表现。 3. 模块化设计:RLET将推理过程分解为句子选择和推理生成两个模块,便于与其他分步推理方法结合。

6. 研究亮点

  • 重要发现:RLET在推理树的结构正确性上显著优于现有方法,尤其是在复杂任务中表现出色。
  • 方法创新:首次将强化学习引入蕴含树生成任务,并通过对齐奖励函数提升训练效果。
  • 应用价值:RLET不仅提升了问答系统的可解释性,还为其他需要多步推理的任务提供了新的思路。

7. 未来工作与局限性

尽管RLET在多个任务中表现出色,但仍存在一些局限性: 1. 句子重复使用:RLET在每个推理步骤中移除了已使用的句子,这可能导致性能损失。 2. 多前提推理:RLET仅支持双前提推理,而实际数据中可能存在多前提推理步骤。 3. 强化学习算法的稳定性:RLET使用的策略梯度法对超参数敏感,未来可以探索更稳定的强化学习算法。

8. 结论

RLET框架通过引入强化学习和对齐奖励函数,显著提升了蕴含树生成任务的结构正确性和可解释性。实验结果表明,RLET在多个任务中均优于现有基线模型,尤其是在复杂任务中表现出色。未来,RLET可以进一步应用于其他需要多步推理的任务,并探索更稳定的强化学习算法以提升性能。


关键词:强化学习(Reinforcement Learning)、蕴含树(Entailment Tree)、可解释问答系统(Explainable QA)、自然语言处理(Natural Language Processing)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com