大型语言模型作为情感支持对话系统的全面比较研究
学术背景
近年来,随着大型语言模型(LLMs, Large Language Models)的快速发展,其在自然语言处理(NLP, Natural Language Processing)领域的应用越来越广泛。LLMs 如 ChatGPT 和 LLaMA 等,展现了强大的语言生成和理解能力,甚至在情感表达和同理心方面也表现出色。情感支持对话系统(ESDS, Emotional Support Dialogue Systems)旨在通过对话传达理解、同情、关怀和支持,帮助他人应对情感困扰、压力或挑战。然而,尽管 LLMs 在情感对话中展现了潜力,但它们在提供有效情感支持方面的能力尚未得到全面评估。
本研究旨在探讨 LLMs 是否能够作为情感支持对话系统的核心框架,并评估其在情感支持策略和语言使用方面的表现。通过对比 LLMs 和人类在情感支持对话中的表现,研究揭示了 LLMs 在提供情感支持时存在的局限性,尤其是在策略偏好和语言生成方面的偏差。
论文来源
本论文由 Xin Bai、Guanyi Chen、Tingting He、Chenlian Zhou 和 Cong Guo 共同撰写,作者来自中国华中师范大学人工智能与教育学部、湖北省人工智能与智能学习重点实验室以及国家语言资源监测与研究中心。论文于 2025 年发表在《Cognitive Computation》期刊上,题目为《A Holistic Comparative Study of Large Language Models as Emotional Support Dialogue Systems》。
研究流程
1. 研究框架与数据集
本研究基于情感支持对话(ESC, Emotional Support Conversation)框架,该框架由 Liu 等人提出,包含三个阶段:探索(Exploration)、安慰(Comforting)和行动(Action)。每个阶段都有一组建议的对话策略,如提问、情感反思、提供建议等。研究使用了 ESC 基准数据集(ESConv),该数据集包含约 1000 个对话和 13000 条语句,每条语句都标注了相应的情感支持策略。
2. 模型与实验设计
研究选择了两个主流的 LLMs:ChatGPT 和 LLaMA,并设计了多种提示工程(Prompt Engineering)技术来构建基于 LLMs 的情感支持对话系统。实验分为以下几个步骤:
- 零样本和少样本学习:测试 LLMs 在没有示例或仅提供少量示例的情况下生成情感支持对话的能力。
- 引导模型:在提示中明确告诉模型应使用哪种策略,评估模型在已知策略下的表现。
- 思维链(Chain-of-Thought, CoT)模型:通过分阶段推理,先选择策略再生成对话,评估模型在复杂任务中的表现。
3. 评价指标
研究从三个维度对模型进行评估: - 策略选择准确性:评估模型选择正确策略的能力。 - 生成质量:使用 BLEU 和 ROUGE 等自动评价指标评估生成对话的质量。 - 多样性:通过 DIST-N 指标评估生成对话的词汇多样性。
主要结果
1. 策略选择准确性
研究发现,LLMs 在策略选择准确性上表现不佳,尤其是在没有示例的情况下。例如,LLaMA 在 5-shot 设置下的策略选择准确率仅为 21.84%,远低于非 LLMs 模型如 TransESC 的 34.71%。这表明 LLMs 在理解和使用情感支持策略方面仍存在较大差距。
2. 生成质量与多样性
尽管 LLMs 在生成对话的质量上与人类相当,但其生成的内容往往过于冗长,导致 BLEU 得分较低。此外,LLMs 在词汇多样性上表现较好,但在专业语境下,过多的词汇多样性可能并不总是有益的。
3. 策略使用偏好
LLMs 在情感支持对话中表现出强烈的策略偏好,尤其是在安慰阶段。例如,ChatGPT 和 LLaMA 在超过 50% 的情况下选择使用“情感反思”和“肯定与安慰”策略,而较少采取实际行动,如提供建议或信息。这种偏好偏差限制了 LLMs 在提供全面情感支持方面的能力。
结论与意义
本研究表明,尽管 LLMs 在情感对话中展现了强大的同理心能力,但其在提供有效情感支持方面仍存在显著局限性。LLMs 倾向于过度使用某些策略,且生成的内容往往偏离人类专家的实际对话。这一发现为未来改进 LLMs 在情感支持对话中的应用提供了重要参考。
研究亮点
- 全面比较:本研究首次对 LLMs 在情感支持对话中的表现进行了全面比较,揭示了其在策略选择和语言生成方面的偏差。
- 新颖方法:研究采用了多种提示工程技术,如思维链模型,为 LLMs 在复杂任务中的应用提供了新的思路。
- 实际意义:研究结果对开发更有效的情感支持对话系统具有重要指导意义,尤其是在减少策略偏好和过度生成方面。
未来展望
未来研究可以探索如何减少 LLMs 在情感支持对话中的策略偏好,鼓励其采取更多实际行动,如提供建议。此外,如何控制 LLMs 的过度生成问题,也是未来研究的重要方向。
通过本研究,我们不仅深入了解了 LLMs 在情感支持对话中的表现,还为未来改进这一领域的技术提供了宝贵的见解。