倾听、想象与优化：一种启发式优化的具有LLMs的ASR校正框架

于红博 · 发表于 2025-9-21 14:57:27

摘要: 自动语音识别（ASR）系统仍然容易出现错误，影响下游应用。在本文中，我们提出了LIR-ASR，这是一个启发式优化的迭代校正框架，使用LLMs，受人类听觉感知启发。LIR-ASR应用了“听-想象-精炼”策略，在上下文中生成语音变体并对其进行精炼。引入了有限状态机（FSM）的启发式优化，以防止校正过程被困在局部最优解中，并且基于规则的约束有助于保持语义的保真度。对英语和中文ASR输出的实验表明，与基线相比，LIR-ASR在CER/WER上实现了高达1.5个百分点的平均降低，显示了在转录中实现的实质性准确性增益。

更新时间: 2025-09-18 15:50:54

领域: eess.AS,cs.AI

下载: http://arxiv.org/abs/2509.15095v1

		自动登录	找回密码
密码			立即注册