这篇文档属于类型a,即报告了一项原创性研究。以下是对该研究的学术报告:
本研究的作者包括Chi Zhang*‡1,3, Huaping Zhong*2, Kuan Zhang1, Chengliang Chai†1, Rui Wang3, Xinlin Zhuang3, Tianyi Bai3, Jiantao Qiu3, Lei Cao4, Ju Fan5, Ye Yuan1, Guoren Wang1, 和 Conghui He†3。他们分别来自北京理工大学(Beijing Institute of Technology)、商汤科技研究院(SenseTime Research)、上海人工智能实验室(Shanghai Artificial Intelligence Laboratory)、亚利桑那大学(University of Arizona)和中国人民大学(Renmin University of China)。该研究以会议论文的形式发表在2025年的ICLR(International Conference on Learning Representations)上。
本研究的主要科学领域是大规模语言模型(Large Language Models, LLMs)的预训练数据选择。随着LLMs在人工智能领域的显著进展,如何高效地选择预训练数据成为了一个关键问题。尽管现有的训练语料库规模庞大,但其质量参差不齐,因此如何选择高质量且多样化的数据对提升模型性能至关重要。目前,研究者们主要通过数据影响力(data influence)来衡量数据实例的重要性,即高影响力的数据实例能够显著提升模型性能。然而,现有方法存在两个主要问题:一是计算所有数据的影响力耗时巨大;二是所选数据实例的多样性不足,可能导致模型在各类下游任务中的泛化能力受限。
为了解决这些问题,本研究提出了QUAD(Quality and Diversity)方法,旨在通过综合考虑数据质量和多样性来优化预训练数据选择。QUAD方法不仅能够更精确、高效地计算数据影响力,还通过聚类和多臂赌博机(Multi-Armed Bandit, MAB)技术来确保数据选择的多样性。
问题定义:
研究首先定义了数据选择问题:给定一个候选数据池(dc)和一个参考数据集(dr),目标是从dc中选择一个子集(db)来预训练LLM,使得更新后的模型(m′)在dr上的损失最小化。
数据聚类:
研究将候选数据集聚类为多个簇(cluster),每个簇内的数据实例相似,而不同簇之间的数据实例具有多样性。聚类过程使用了BAAI/BGE-large-en-v1.5模型生成数据嵌入,并通过K-means算法将约6亿个数据点聚类为10,000个簇。
影响力计算:
为了更精确地计算数据影响力,研究提出了一种基于注意力机制(attention mechanism)的新方法。传统的MLP(多层感知机)层计算影响力时忽略了语义信息,而QUAD方法通过结合注意力层来捕捉更多语义细节。此外,研究还引入了Kronecker积来加速Hessian矩阵的计算,从而显著提高了计算效率。
多臂赌博机(MAB)技术:
为了平衡数据质量和多样性,研究采用了MAB技术。每个簇被视为MAB的一个臂(arm),在每次迭代中,MAB算法会选择影响力得分较高或较少被选择的簇进行采样。通过这种方式,QUAD方法能够在不计算所有数据实例影响力的情况下,快速选择高质量且多样化的数据。
数据选择:
在每次迭代中,研究从选定的簇中采样一小部分数据实例,并计算它们的影响力得分。只有影响力得分高于阈值(τ)的实例才会被选中并加入训练集。这一过程确保了所选数据的高质量和多样性。
实验验证:
研究在SlimPajama和FineWeb数据集上对7B参数的LLM进行了实验,验证了QUAD方法的有效性。实验结果表明,QUAD在零样本准确率(zero-shot accuracy)上显著优于其他数据选择方法,且计算资源消耗较低。
整体性能:
在多个下游任务中,QUAD方法在通用知识(general knowledge)、常识推理(commonsense reasoning)和阅读理解(reading comprehension)任务上的表现均优于其他基线方法。特别是在通用知识和阅读理解任务上,QUAD分别比随机选择方法提高了1.75%和1.98%。
MAB技术的有效性:
实验表明,MAB技术能够有效平衡数据质量和多样性。与直接选择影响力得分最高的簇相比,MAB方法通过综合考虑影响力和采样频率,能够选择更有利于模型性能的数据。
影响力计算的准确性:
研究提出的基于注意力机制的影响力计算方法在准确性上显著优于传统的MLP层计算方法。实验结果显示,QUAD方法在计算数据影响力时能够捕捉更多语义信息,从而更精确地衡量数据质量。
计算效率:
通过引入Kronecker积和MAB技术,QUAD方法在计算资源消耗上显著低于其他数据选择方法。实验表明,QUAD在保持高性能的同时,计算资源消耗仅为其他方法的70%左右。
本研究提出的QUAD方法通过综合考虑数据质量和多样性,显著提升了LLM预训练数据选择的效率和效果。QUAD方法不仅在多个下游任务中表现出色,还在计算资源消耗上具有显著优势。该研究的科学价值在于提出了一种新颖的数据选择框架,能够在大规模数据集中快速、准确地选择高质量且多样化的数据,从而提升LLM的泛化能力和性能。
研究还探讨了不同聚类算法和采样比例对模型性能的影响,进一步验证了QUAD方法的鲁棒性和可扩展性。此外,研究还提供了代码和数据集,方便其他研究者复现和验证实验结果。
通过本研究,研究者们为LLM预训练数据选择提供了一个高效、可靠的解决方案,具有重要的理论和应用价值。