大規模言語モデル(LLM)の道徳的および法的推論の心理を探る

現在、大規模言語モデル(LLM)は、さまざまな分野で専門家レベルのパフォーマンスを発揮しており、その内的推論プロセスに強い関心が持たれています。LLMがこれらの驚くべき結果を生み出すメカニズムを理解することは、将来の人工知能エージェントの発展と、それらを人間の価値観と一致させることの両方に重要な意味を持ちます。しかしながら、既存のLLMのアーキテクチャでは、その内的プロセスを説明することが非常に難しくなっています。そのため、研究者は心理学研究で一般的に使用される手法を借用して、LLMの推論パターンを探索し始め、「機械心理学」という新しい研究分野が生まれました。

本論文の著者 本論文の執筆者は以下の機関に所属しています。 - Guilherme F.C.F. Almeida, Insper教育および研究院, ブラジル - José Luiz Nunes, 天主教リオ大学情報学部, ブラジル; FGVリオ法科大学院, ブラジル
- Neele Engelmann, ボン大学, ドイツ; 人間とコンピューターの相互作用研究所, マックス・プランク人間発達研究所, ドイツ - Alex Wiegmann, ボン大学, ドイツ - Marcelo de Araújo, リオデジャネイロ連邦大学, ブラジル; リオデジャネイロ州立大学, ブラジル

研究手法: 著者らは経験的心理学の手法を用いて、8つの古典的心理学実験を再現し、GoogleのGemini Pro、Anthropic社のClaude 2.1、OpenAIのGPT-4、そしてMetaのLLama 2モデルに実験シナリオを提示し、それらの反応データを収集しました。再現された実験は以下の通りです。

1) 副次効果と意図的行動 2) 欺瞞的行動 3) 道徳的基盤理論 4) 規範違反判断 5) 事後確認バイアス(2つの異なる設計) 6) 同意の概念 7) 因果関係

LLMの反応データと人間参加者のデータを比較することで、著者らはLLMが道徳や法的推論を含むこれらのタスクにおいて人間の反応と一致するかどうか、そしてどのような系統的な違いがあるかを探究しました。

主な発見: 1) LLMはほとんどのタスクにおいて人間の反応と類似したパターンを示したが、その効果の大きさは往々にして誇張されていた。

2) いくつかのタスクでは、異なるLLMの間に顕著な違いが見られ、人間の反応と非常に一致するものもあれば、系統的なバイアスを示すものもあった。これはLLMの推論プロセスが人間のそれと根本的に異なる可能性を示唆している。

3) 著者らは「正解効果」を観察した。つまり、LLMは同一の質問に対して異なる表現で尋ねられた場合でも、ほぼ完全に同じ回答をし、ばらつきがほとんどないことを意味する。

4) 総じて、GPT-4が人間の反応に最も適合したモデルであった。

5) 同意の概念に関するタスクでは、すべてのモデルが人間の反応と大きく異なっており、この重要な法的および道徳的概念においてLLMに欠陥やバイアスがある可能性を示唆している。

研究の意義:
本研究は、LLMの道徳および法的推論能力に関する開拓的な系統的評価を行いました。結果は、現在のLLMが多くの面で人間の反応を模倣できるものの、系統的な違いも存在し、特定の領域ではその違いが顕著であることを示しています。これは、LLMが人間の価値観と一致することがこれまで想定されていたよりも難しい可能性を示唆しています。本研究は、さらに深い「機械心理学」研究の方向性を示しています。もしLLMの推論メカニズムを完全に解明し、その設計を改善できれば、人工知能システムと人間の価値観の整合性を高めることができるでしょう。