摘要: 监督微调(SFT)大型语言模型(LLM)基本上依赖于高质量的训练数据。虽然数据选择和数据合成是改善数据质量的两种常见策略,但现有方法通常面临静态数据集策划的限制,无法适应不断发展的模型能力。在本文中,我们介绍了Middo,这是一个自我演变的模型指导动态数据优化框架,利用模型感知数据选择和保持语境的数据细化。与传统的一次性过滤/合成方法不同,我们的框架建立了一个闭环优化系统:(1)一个自我参照的诊断模块通过三轴模型信号主动识别次优样本 - 损失模式(复杂性),嵌入簇动态(多样性)和自我对齐分数(质量);(2)一个自适应优化引擎然后将次优样本转化为具有教育价值的训练点,同时保持语义完整性;(3)这个优化过程通过动态学习原则与模型能力持续演变。在多个基准测试上的实验证明,我们的Middo始终提高种子数据的质量,并使LLM的性能平均提高了7.15%,同时保持原始数据集规模。这项工作通过数据和模型的动态人工智能共同进化,为可持续的LLM训练建立了一个新的范式。我们的数据集、模型和代码即将推出。我们的数据集、模型和代码可在https://github.com/Word2VecT/Middo 上公开获取。 更新时间: 2025-09-19 13:25:52 领域: cs.CL,cs.AI
|