找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 19|回复: 0

Middo: 模型驱动的动态数据优化,通过闭环学习增强LLM微调

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 2025-9-22 19:46:39 | 显示全部楼层 |阅读模式
摘要: 监督微调(SFT)大型语言模型(LLM)基本上依赖于高质量的训练数据。虽然数据选择和数据合成是改善数据质量的两种常见策略,但现有方法通常面临静态数据集策划的限制,无法适应不断发展的模型能力。在本文中,我们介绍了Middo,这是一个自我演变的模型指导动态数据优化框架,利用模型感知数据选择和保持语境的数据细化。与传统的一次性过滤/合成方法不同,我们的框架建立了一个闭环优化系统:(1)一个自我参照的诊断模块通过三轴模型信号主动识别次优样本 - 损失模式(复杂性),嵌入簇动态(多样性)和自我对齐分数(质量);(2)一个自适应优化引擎然后将次优样本转化为具有教育价值的训练点,同时保持语义完整性;(3)这个优化过程通过动态学习原则与模型能力持续演变。在多个基准测试上的实验证明,我们的Middo始终提高种子数据的质量,并使LLM的性能平均提高了7.15%,同时保持原始数据集规模。这项工作通过数据和模型的动态人工智能共同进化,为可持续的LLM训练建立了一个新的范式。我们的数据集、模型和代码即将推出。我们的数据集、模型和代码可在https://github.com/Word2VecT/Middo 上公开获取。
更新时间: 2025-09-19 13:25:52
领域: cs.CL,cs.AI

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-10-30 06:13 , Processed in 0.071901 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表