该文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:
本研究的主要作者为Kent F. Hubert、Kim N. Awa和Darya L. Zabelina,他们均来自美国阿肯色大学(University of Arkansas)心理科学系。该研究于2024年发表在《Scientific Reports》期刊上,文章标题为《The current state of artificial intelligence generative language models is more creative than humans on divergent thinking tasks》。
本研究的主要科学领域为人工智能(Artificial Intelligence, AI)与创造力研究。随着以ChatGPT为代表的公开可访问的大型语言模型(Large Language Models, LLMs)的出现,全球范围内对AI能力的讨论日益增多。传统观点认为创造力是人类独有的特质,但新兴研究挑战了这一假设,表明AI在创造力方面可能具有与人类相当甚至更高的潜力。本研究旨在通过实验评估人类与AI在发散思维任务(divergent thinking tasks)中的创造力表现,以探讨AI在创造力方面的潜力。
研究背景知识包括:1)发散思维(divergent thinking)作为创造力潜力的重要指标,通常通过任务如“替代用途任务”(Alternative Uses Task, AUT)和“后果任务”(Consequences Task, CT)来评估;2)AI语言模型如GPT-4在生成语言方面的能力已显著提升,但其创造力潜力尚未得到全面评估。本研究的目标是通过对比人类与GPT-4在多项发散思维任务中的表现,探讨AI在创造力方面的潜力。
本研究包括以下几个主要步骤:
参与者招募与数据收集
人类参与者通过在线平台Prolific招募,共151人,均为美国本土居民,英语流利,且平台评分高于97%。参与者完成调查的平均时间为34.66分钟。AI参与者则通过ChatGPT的实例化功能实现,共生成151个独立会话,以确保样本平衡。
创造力任务设计
研究采用了三项常见的发散思维任务:
对于AUT和CT任务,研究者控制了人类与GPT-4的响应数量(即流畅性,fluency),以确保两组在生成答案数量上的可比性。GPT-4的响应数量根据人类参与者的表现进行匹配。
替代用途任务(AUT)
后果任务(CT)
发散联想任务(DAT)
本研究表明,当前的大型语言模型(如GPT-4)在多项发散思维任务中表现出比人类更高的创造力潜力,尤其是在原创性和详尽性方面。这一发现挑战了传统观点,即创造力是人类独有的特质。然而,研究也指出,AI的创造力潜力仍受限于其缺乏自主性和情感体验,且其生成的内容的实用性和适当性仍需进一步评估。
本研究为AI在创造力领域的应用提供了重要的实证依据,表明AI可以在创意生成任务中发挥重要作用。此外,研究采用的自动化评分工具(如OCS)为未来的创造力研究提供了新的方法学支持。然而,研究也强调,AI的创造力潜力并非完全自主,仍需人类干预和指导。
研究还探讨了AI在创造力任务中的局限性,例如其生成内容的实用性和适当性仍需进一步验证。此外,研究者建议未来研究应结合创造力的多个维度(如原创性、实用性和适当性)进行全面评估,以更准确地衡量AI的创造力潜力。