分享自:

人工智能生成语言模型在发散思维任务中的创造力超越人类

期刊:scientific reportsDOI:10.1038/s41598-024-53303-w

该文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:

主要作者及研究机构

本研究的主要作者为Kent F. Hubert、Kim N. Awa和Darya L. Zabelina,他们均来自美国阿肯色大学(University of Arkansas)心理科学系。该研究于2024年发表在《Scientific Reports》期刊上,文章标题为《The current state of artificial intelligence generative language models is more creative than humans on divergent thinking tasks》。

学术背景

本研究的主要科学领域为人工智能(Artificial Intelligence, AI)与创造力研究。随着以ChatGPT为代表的公开可访问的大型语言模型(Large Language Models, LLMs)的出现,全球范围内对AI能力的讨论日益增多。传统观点认为创造力是人类独有的特质,但新兴研究挑战了这一假设,表明AI在创造力方面可能具有与人类相当甚至更高的潜力。本研究旨在通过实验评估人类与AI在发散思维任务(divergent thinking tasks)中的创造力表现,以探讨AI在创造力方面的潜力。

研究背景知识包括:1)发散思维(divergent thinking)作为创造力潜力的重要指标,通常通过任务如“替代用途任务”(Alternative Uses Task, AUT)和“后果任务”(Consequences Task, CT)来评估;2)AI语言模型如GPT-4在生成语言方面的能力已显著提升,但其创造力潜力尚未得到全面评估。本研究的目标是通过对比人类与GPT-4在多项发散思维任务中的表现,探讨AI在创造力方面的潜力。

研究流程

本研究包括以下几个主要步骤:

  1. 参与者招募与数据收集
    人类参与者通过在线平台Prolific招募,共151人,均为美国本土居民,英语流利,且平台评分高于97%。参与者完成调查的平均时间为34.66分钟。AI参与者则通过ChatGPT的实例化功能实现,共生成151个独立会话,以确保样本平衡。

  2. 创造力任务设计
    研究采用了三项常见的发散思维任务:

    • 替代用途任务(AUT):参与者需为常见物品(如“叉子”和“绳子”)生成尽可能多的创造性用途。
    • 后果任务(CT):参与者需对假设场景(如“人类不再需要睡眠”)生成尽可能多的创造性后果。
    • 发散联想任务(Divergent Associations Task, DAT):参与者需生成10个尽可能不同的名词。

对于AUT和CT任务,研究者控制了人类与GPT-4的响应数量(即流畅性,fluency),以确保两组在生成答案数量上的可比性。GPT-4的响应数量根据人类参与者的表现进行匹配。

  1. 数据评分与分析
    响应评分基于三个维度:流畅性(fluency,响应数量)、原创性(originality,响应新颖性)和详尽性(elaboration,响应长度)。原创性通过语义距离(semantic distance)评分工具(Open Creativity Scoring Tool, OCS)自动评估,该工具基于GloVe 840B文本挖掘模型计算响应的语义距离。详尽性则通过停用词方法(stoplist method)评估。

主要结果

  1. 替代用途任务(AUT)

    • 流畅性:人类与GPT-4在响应数量上无显著差异。
    • 原创性:GPT-4在所有提示下的原创性得分均显著高于人类。
    • 详尽性:GPT-4的响应长度显著长于人类。
  2. 后果任务(CT)

    • 流畅性:人类与GPT-4在响应数量上无显著差异。
    • 原创性:GPT-4在“人类不再需要睡眠”提示下的原创性得分显著高于人类。
    • 详尽性:GPT-4的响应长度显著长于人类。
  3. 发散联想任务(DAT)

    • 语义距离:GPT-4的语义距离得分显著高于人类,表明其生成的词汇更具多样性。
    • 词汇独特性:人类参与者生成的单次出现词汇比例高于GPT-4,但GPT-4在语义距离上仍表现更优。

结论

本研究表明,当前的大型语言模型(如GPT-4)在多项发散思维任务中表现出比人类更高的创造力潜力,尤其是在原创性和详尽性方面。这一发现挑战了传统观点,即创造力是人类独有的特质。然而,研究也指出,AI的创造力潜力仍受限于其缺乏自主性和情感体验,且其生成的内容的实用性和适当性仍需进一步评估。

研究的意义与价值

本研究为AI在创造力领域的应用提供了重要的实证依据,表明AI可以在创意生成任务中发挥重要作用。此外,研究采用的自动化评分工具(如OCS)为未来的创造力研究提供了新的方法学支持。然而,研究也强调,AI的创造力潜力并非完全自主,仍需人类干预和指导。

研究亮点

  1. 重要发现:GPT-4在多项发散思维任务中表现出比人类更高的创造力潜力。
  2. 方法创新:采用自动化评分工具(OCS)评估原创性,避免了人类评分的主观性和潜在偏差。
  3. 研究对象特殊性:首次全面评估大型语言模型(GPT-4)在创造力任务中的表现,为AI与人类创造力的对比研究提供了新的视角。

其他有价值的内容

研究还探讨了AI在创造力任务中的局限性,例如其生成内容的实用性和适当性仍需进一步验证。此外,研究者建议未来研究应结合创造力的多个维度(如原创性、实用性和适当性)进行全面评估,以更准确地衡量AI的创造力潜力。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com