找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 26|回复: 0

LiteLong:面向LLMs的资源高效长上下文数据合成

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 2025-9-22 20:07:58 | 显示全部楼层 |阅读模式
摘要: 高质量的长文本数据对于训练能够处理大量文档的大型语言模型(LLMs)至关重要,然而现有的使用基于相关性的聚合方法面临计算效率的挑战。我们提出了LiteLong,一种通过结构化主题组织和多代理辩论来合成长文本数据的资源高效方法。我们的方法利用BISAC图书分类系统提供全面的分层主题组织,然后利用多个LLMs的辩论机制在该结构内生成多样化、高质量的主题。对于每个主题,我们使用轻量级的BM25检索来获取相关文档,并将它们连接成128K令牌的训练样本。在HELMET和Ruler基准测试上的实验表明,LiteLong实现了竞争力强的长文本性能,并且可以与其他长依赖性增强方法无缝集成。LiteLong通过降低计算和数据工程成本,使高质量的长文本数据合成更易于获取,促进了长文本语言训练领域的进一步研究。
更新时间: 2025-09-19 04:07:46
领域: cs.CL,cs.AI

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-10-30 06:17 , Processed in 0.065941 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表