SyGra：一个统一的基于图的框架，用于可扩展生成、质量标记和管理合成数据

于红博 · 发表于 2025-9-22 19:49:04

摘要: 大型语言模型（LLMs）的进展在很大程度上取决于用于监督微调（SFT）、直接偏好优化（DPO）等任务的高质量数据集的可用性。在这项工作中，我们提出了一个全面的合成数据生成框架，促进了针对这些训练范式的可伸缩、可配置和高保真度的合成数据生成。我们的方法采用了一个模块化和基于配置的管道，能够在最小手动干预的情况下建模复杂的对话流程。这个框架使用了一个双阶段的质量标记机制，结合启发式规则和基于LLM的评估，自动过滤和评分从OASST格式对话中提取的数据，确保高质量对话样本的策划。生成的数据集按照灵活的模式结构化，支持SFT和DPO两种用例，能够无缝集成到不同的训练工作流中。这些创新共同为在规模上生成和管理合成对话数据提供了一个强大的解决方案，大大减少了LLM训练管道中数据准备的开销。

更新时间: 2025-09-19 12:53:25

领域: cs.AI,cs.CL,cs.LG

下载: http://arxiv.org/abs/2508.15432v2

		自动登录	找回密码
密码			立即注册