構成による分布外一般化:トランスフォーマーにおける帰納ヘッドを通じた観点
大言語モデルにおける分布外汎化と組み合わせメカニズムの研究 論文の背景 近年、大言語モデル(Large Language Models, LLMs)は、GPT-4 などのように新規タスクを処理する際、驚くべき創造性を示しています。通常、少数の例で問題を解決できます。これらのタスクは、モデルが訓練データとは異なる分布上で汎化することを要求します。これは「分布外汎化」(Out-of-Distribution Generalization, OOD Generalization)と呼ばれます。LLMs は大きな成功を収めていますが、どのように分布外汎化を達成するかは未解明のままでした。本論文では、LLMs が隠れたルールに基づいて生成されるタスクでのパフォーマンスに焦点を当て、特に「帰納ヘッド」(...