找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 24|回复: 0

大型语言和多模态模型中的离散扩散:一项调查

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 2025-9-22 20:03:23 | 显示全部楼层 |阅读模式
摘要: 在这项工作中,我们对离散扩散语言模型(dLLMs)和离散扩散多模态语言模型(dMLLMs)进行了系统调查。与自回归(AR)模型不同,dLLMs和dMLLMs采用了多令牌、并行解码范式,使用全注意力和基于去噪的生成策略。这种范式自然地实现了并行生成、细粒度输出控制和动态感知。这些能力以前很难通过AR模型实现。越来越多的工业规模专有d(M)LLMs,以及大量开源学术d(M)LLMs,已经证明了它们与自回归对应物性能相当,同时实现了高达10倍的推理速度加速。这些发展将离散扩散模型定位为传统自回归方法基础上智能的有希望的替代方案。在这项工作中,我们提供了对dLLM和dMLLM领域研究的全面概述。我们追溯了dLLMs和dMLLMs的历史发展,形式化了潜在的数学框架,列出了常用的建模方法,并对代表性模型进行了分类。我们进一步分析了训练、推理、量化的关键技术。我们还讨论了可信度问题,并总结了跨语言、视觉-语言和生物领域等新兴应用。最后,我们讨论了未来研究和部署的方向。相关论文可在https://github.com/LiQiiiii/Awesome-Discrete-Diffusion-LLM_MLLM中找到。
更新时间: 2025-09-19 07:18:31
领域: cs.LG,cs.AI

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-10-30 06:16 , Processed in 0.073588 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表