使用多模态基础模型进行多目标学习的会话级口语评估

于红博 · 发表于 2025-9-22 19:41:33

摘要: 口语语言评估（SLA）从自发言语中估计学习者的口头能力。L2英语学习者人口的增加加剧了对可靠SLA的需求，这是计算机辅助语言学习（CALL）的关键组成部分。现有的努力通常依赖于级联管道，容易出现错误传播，或者端到端模型，通常在短音频窗口上运行，可能会忽略话语级证据。本文介绍了一种新颖的多模态基础模型方法，可以在一次通过中进行会话级评估。我们的方法将多目标学习与基于冻结的Whisper ASR模型的语音先验相结合，以进行声学感知校准，可以联合学习SLA的整体和特质级目标，而无需手工制作特征。通过一致地处理L2学习者的整个回答会话，该模型在预测整体口头能力方面表现出色。在Speak & Improve基准测试中进行的实验表明，我们提出的方法优于先前的最新级联系统，并展示了稳健的跨部分泛化，产生了一个紧凑且可部署的评分器，专门为CALL应用定制。

更新时间: 2025-09-19 14:33:05

领域: cs.CL,cs.AI

下载: http://arxiv.org/abs/2509.16025v1

		自动登录	找回密码
密码			立即注册