Middo: 模型驱动的动态数据优化，通过闭环学习增强LLM微调

于红博 · 发表于 2025-9-22 19:46:39

摘要: 监督微调（SFT）大型语言模型（LLM）基本上依赖于高质量的训练数据。虽然数据选择和数据合成是改善数据质量的两种常见策略，但现有方法通常面临静态数据集策划的限制，无法适应不断发展的模型能力。在本文中，我们介绍了Middo，这是一个自我演变的模型指导动态数据优化框架，利用模型感知数据选择和保持语境的数据细化。与传统的一次性过滤/合成方法不同，我们的框架建立了一个闭环优化系统：（1）一个自我参照的诊断模块通过三轴模型信号主动识别次优样本 - 损失模式（复杂性），嵌入簇动态（多样性）和自我对齐分数（质量）；（2）一个自适应优化引擎然后将次优样本转化为具有教育价值的训练点，同时保持语义完整性；（3）这个优化过程通过动态学习原则与模型能力持续演变。在多个基准测试上的实验证明，我们的Middo始终提高种子数据的质量，并使LLM的性能平均提高了7.15％，同时保持原始数据集规模。这项工作通过数据和模型的动态人工智能共同进化，为可持续的LLM训练建立了一个新的范式。我们的数据集、模型和代码即将推出。我们的数据集、模型和代码可在https://github.com/Word2VecT/Middo 上公开获取。

更新时间: 2025-09-19 13:25:52

领域: cs.CL,cs.AI

下载: http://arxiv.org/abs/2508.21589v3

		自动登录	找回密码
密码			立即注册