本文档属于类型a,即报告了一项原创性研究。以下是对该研究的学术报告:
本研究的作者包括Guanting Dong、Keming Lu、Chengpeng Li、Tingyu Xia、Bowen Yu、Chang Zhou和Jingren Zhou,他们均来自阿里巴巴集团的Qwen团队。该研究以会议论文的形式发表于ICLR 2025。
本研究的主要科学领域为大型语言模型(LLMs,Large Language Models)的指令跟随能力(instruction-following capabilities)。指令跟随能力是指LLMs理解、解释和执行自然语言指令的能力,这是现代LLMs的核心功能之一。然而,目前尚缺乏一种可扩展且可靠的方法来自动生成高质量的指令跟随训练数据,以增强LLMs的复杂指令跟随能力,而无需依赖人工标注。为此,本研究提出了AutoIF(Automatic Instruction-Following Data Generation),旨在通过自动生成高质量的指令跟随训练数据来提升LLMs的指令跟随能力。
本研究的主要目标是开发一种可扩展且可靠的方法,自动生成高质量的指令跟随训练数据,并通过这些数据对LLMs进行监督微调(SFT,Supervised Fine-Tuning)和基于人类反馈的强化学习(RLHF,Reinforcement Learning from Human Feedback)。AutoIF的核心思想是将指令跟随数据质量的验证转化为代码验证,要求LLMs生成指令、相应的验证代码以及单元测试样本,以确保指令响应的正确性。
首先,研究团队手动编写了一组种子指令(seed instructions),然后利用LLMs通过自我指令(self-instruct)生成增强的指令集。接着,LLMs为每个指令生成验证代码和单元测试样本。只有那些能够成功编译、通过测试用例并能够反向翻译回原始指令的代码才会被保留。如果某个指令没有对应的验证代码,则该指令会被丢弃。
在指令和验证代码确定后,研究团队利用基于执行反馈的拒绝采样(rejection sampling)生成响应。通过验证代码的响应可以直接用于SFT,而未通过验证的响应则与通过验证的响应配对,形成选择-拒绝对(chosen-rejected pairs),用于直接偏好优化(DPO,Direct Preference Optimization)和其他RLHF算法。
研究团队提出了三种训练策略:
- 监督微调(SFT):使用通过验证的响应对基础模型进行监督微调。
- 离线DPO:在SFT的基础上,利用通过验证和未通过验证的响应对进行直接偏好优化。
- 在线DPO:在SFT的基础上,通过在线生成响应并进行验证,逐步优化模型的指令跟随能力。
实验结果表明,AutoIF在两种开源LLMs(Qwen2和Llama3)的自我对齐(self-alignment)和强到弱蒸馏(strong-to-weak distillation)设置中,显著提升了模型的指令跟随能力。在广泛使用的指令跟随基准测试IFEval中,AutoIF首次使LLMs在宽松指令准确率(loose instruction accuracy)上超过了90%。
AutoIF生成的数据在质量和效率方面表现出色。实验表明,即使是少量的AutoIF生成数据,也能显著提升模型的性能。例如,仅使用1/64的AutoIF生成的SFT数据,Qwen2-7b在宽松指令准确率上提升了11.4个百分点。
AutoIF在多个复杂的指令跟随数据集上表现出强大的泛化能力。例如,在Infobench、MT-Bench和Arena-Hard等数据集上,经过AutoIF微调的模型均表现出显著的性能提升。
本研究提出的AutoIF方法首次实现了可扩展且可靠的指令跟随数据自动生成,显著提升了LLMs的指令跟随能力。AutoIF通过将指令验证转化为代码验证,确保了数据的质量,并通过多种训练策略进一步优化了模型的性能。实验结果表明,AutoIF不仅提升了模型的指令跟随能力,还保持了模型在数学推理、编码和通用交互等方面的能力。
本研究还进行了多项分析,包括数据质量与效率的关系、模型参数规模对性能的影响以及训练数据的污染分析。这些分析进一步验证了AutoIF方法的有效性和可靠性。
AutoIF为LLMs的指令跟随能力提供了一种全新的解决方案,具有重要的科学价值和应用前景。