找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 22|回复: 0

倾听、想象与优化:一种启发式优化的具有LLMs的ASR校正框架

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 2025-9-21 14:57:27 | 显示全部楼层 |阅读模式
摘要: 自动语音识别(ASR)系统仍然容易出现错误,影响下游应用。在本文中,我们提出了LIR-ASR,这是一个启发式优化的迭代校正框架,使用LLMs,受人类听觉感知启发。LIR-ASR应用了“听-想象-精炼”策略,在上下文中生成语音变体并对其进行精炼。引入了有限状态机(FSM)的启发式优化,以防止校正过程被困在局部最优解中,并且基于规则的约束有助于保持语义的保真度。对英语和中文ASR输出的实验表明,与基线相比,LIR-ASR在CER/WER上实现了高达1.5个百分点的平均降低,显示了在转录中实现的实质性准确性增益。
更新时间: 2025-09-18 15:50:54
领域: eess.AS,cs.AI

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-11-1 15:18 , Processed in 0.083079 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表