大型语言和多模态模型中的离散扩散：一项调查

于红博 · 发表于 2025-9-22 20:03:23

摘要: 在这项工作中，我们对离散扩散语言模型（dLLMs）和离散扩散多模态语言模型（dMLLMs）进行了系统调查。与自回归（AR）模型不同，dLLMs和dMLLMs采用了多令牌、并行解码范式，使用全注意力和基于去噪的生成策略。这种范式自然地实现了并行生成、细粒度输出控制和动态感知。这些能力以前很难通过AR模型实现。越来越多的工业规模专有d(M)LLMs，以及大量开源学术d(M)LLMs，已经证明了它们与自回归对应物性能相当，同时实现了高达10倍的推理速度加速。这些发展将离散扩散模型定位为传统自回归方法基础上智能的有希望的替代方案。在这项工作中，我们提供了对dLLM和dMLLM领域研究的全面概述。我们追溯了dLLMs和dMLLMs的历史发展，形式化了潜在的数学框架，列出了常用的建模方法，并对代表性模型进行了分类。我们进一步分析了训练、推理、量化的关键技术。我们还讨论了可信度问题，并总结了跨语言、视觉-语言和生物领域等新兴应用。最后，我们讨论了未来研究和部署的方向。相关论文可在https://github.com/LiQiiiii/Awesome-Discrete-Diffusion-LLM_MLLM中找到。

更新时间: 2025-09-19 07:18:31

领域: cs.LG,cs.AI

下载: http://arxiv.org/abs/2506.13759v5

		自动登录	找回密码
密码			立即注册

大型语言和多模态模型中的离散扩散：一项调查

浏览过的版块