探索大型语言模型的道德和法律推理心理
当今,大型语言模型(LLM)在多个领域展现出专家级的表现,这引发了人们对其内在推理过程的浓厚兴趣。理解LLM是如何产生这些惊人的结果,对于未来人工智能代理的发展和确保其与人类价值观相一致都具有重要意义。然而,现有LLM的架构使得解释其内在过程颇为困难。因此,研究人员开始借鉴心理学研究中常用的方法来探索LLM的推理模式,产生了”机器心理学”这一新兴研究领域。
本文作者 本论文的作者来自不同机构: - Guilherme F.C.F. Almeida,Insper教育与研究学院,巴西 - José Luiz Nunes,天主教里约大学信息学系,巴西; FGV里约法学院,巴西 - Neele Engelmann,波鸿鲁尔大学,德国;人机中心,马克斯·普朗克人类发展研究所,德国 - Alex Wiegmann,波鸿鲁尔大学,德国 - Marcelo de Araújo,里约热内卢联邦大学,巴西;里约热内卢州立大学,巴西
研究方法: 作者采用实证心理学的方法,复制了8项经典心理学实验,向谷歌Gemini Pro、人工智能公司Claude 2.1、OpenAI的GPT-4以及Meta的LLama 2模型展示相关实验场景,并收集了它们的反应数据。被复制的实验包括:
1) 旁及效应与有意行为
2) 欺骗行为
3) 道德基础理论
4) 违规判断
5) 事后确认偏差(两个不同设计)
6) 同意概念
7) 因果关系
通过将LLM的反应数据与人类参与者的数据进行对比,作者探讨了LLM在这些涉及道德和法律推理的任务中是否与人类反应一致,以及存在何种系统性差异。
主要发现: 1) LLM在大多数任务中都表现出了与人类反应相似的模式,但效果大小往往被夸大。
2) 在一些任务中,不同LLM之间存在明显差异,有的与人类反应高度一致,有的则存在系统性偏差。这暗示LLM的推理过程可能与人类存在根本上的分歧。
3) 作者观察到”正确答案效应”,即LLM对同一问题的不同提问方式给出的答复几乎完全相同,方差极小。
4) 总的来说,GPT-4是对人类反应拟合程度最高的模型。
5) 在同意概念的任务中,所有模型的表现都与人类存在较大差异,暗示在这一重要的法律和道德概念上,LLM可能存在缺陷或偏差。
研究意义:
该研究对LLM在道德和法律领域的推理能力进行了开创性的系统评估。结果表明,虽然目前的LLM在许多方面的确能模拟人类的反应,但也存在系统性差异,有的领域更为突出。这提示我们,对LLM而言,与人类价值观保持一致可能比想象中更具挑战性。该研究为未来更深入的”机器心理学”研究指明了方向。如果能够彻底揭示LLM推理背后的逻辑,并进而改善其设计,将有助于提高人工智能系统与人类的价值对接程度。