该文档由Sudeep Bhatia撰写,来自宾夕法尼亚大学心理学系,发表于2024年5月2日的《Journal of Experimental Psychology: General》期刊。这篇论文探讨了使用大型语言模型(Large Language Models, LLMs)来研究个体在风险决策中的变异性,旨在揭示个体在风险决策中的差异来源,并分析这些差异如何依赖于决策的领域或情境。
风险决策是心理学和行为经济学中的重要研究领域,传统的心理测量学方法通过分析调查数据集中参与者回答的相关性来研究个体差异。然而,这种方法无法直接解释行为差异的认知和决策过程。因此,本研究提出了一种新的方法,利用大型语言模型(LLMs)来量化日常风险行为,并通过决策模型将这些属性映射到参与者的回答上。该研究的目的是为心理测量学发现提供决策理论基础,并解释不同行为引发的理由以及不同个体对这些理由的权重分配。
研究分为两个主要部分:研究1和研究2。
研究1的主要目标是评估基于LLM的决策模型在捕捉风险决策中的项目级和个体级变异性方面的效用。研究使用了扩展版的“领域特异性风险决策量表”(Domain-Specific Risk Taking, DOSPERT),并招募了150名美国参与者。参与者被要求对150种行为进行评分,评分范围从0(比其他人更不可能)到100(比其他人更有可能)。研究使用LLM生成的行为表示来预测参与者的评分,并通过留一法交叉验证(Leave-One-Out Cross-Validation, LOOCV)评估模型的准确性。
研究1中使用了四种不同的模型来生成行为表示,这些模型基于是否使用行为短语或GPT生成的行为理由,以及是否使用词袋模型(Bag-of-Words Word2Vec)或句子双向编码表示模型(Sentence-Bidirectional Encoder Representations from Transformers, SBERT)来量化文本。研究结果显示,SBERT-items模型表现最佳,平均预测准确率为0.43。
研究2的主要目标是探索模型中隐含的理由和属性,并比较GPT生成的理由与人类生成的理由。研究2在扩展版DOSPERT量表的基础上,增加了口头协议任务,要求参与者为随机选择的五种行为生成理由。研究2的结果与研究1一致,SBERT-items模型再次表现最佳,平均预测准确率为0.42。研究还发现,GPT生成的理由与人类生成的理由在主题频率上显著相关(r=0.61),表明GPT生成的理由能够捕捉到人类解释中的心理因素。
研究1和研究2的结果表明,基于LLM的决策模型能够有效预测参与者的风险决策行为,并捕捉到项目级和个体级的变异性。研究1中,SBERT-items模型在预测参与者评分方面表现最佳,平均预测准确率为0.43。研究2中,SBERT-items模型的平均预测准确率为0.42。此外,研究还发现,GPT生成的理由与人类生成的理由在主题频率上显著相关,表明GPT生成的理由能够捕捉到人类解释中的心理因素。
该研究展示了LLM在理解日常风险决策中的价值,提供了一种新的方法来分析个体行为差异的原因。通过映射行为的理由,研究揭示了影响决策的心理因素,并促进了在实际应用中预测、解释和改善现实世界行为的能力。该研究为心理学和行为经济学领域提供了重要的理论和方法论贡献。
研究还探讨了不同人口统计学和心理特征变量对风险决策的影响,例如性别、年龄、性格等。这些分析进一步揭示了LLM模型在捕捉个体差异方面的强大能力。此外,研究还展示了LLM生成的理由与人类生成的理由之间的相似性,表明LLM能够有效模拟人类的决策过程。
总体而言,该研究为心理学和行为经济学领域提供了重要的理论和方法论贡献,展示了LLM在理解和预测人类行为方面的巨大潜力。