VoiceAssistant-Eval: 评估AI助手在听、说和查看方面的基准测试

于红博 · 发表于 2025-9-30 19:43:46

摘要: 随着大型语言模型和多模态系统的能力增强，对语音优先人工智能助手的兴趣日益增加，然而现有的基准测试无法评估这些系统全部能力的范围。我们引入了VoiceAssistant-Eval，这是一个全面的基准测试，旨在评估人工智能助手在听、说和观察方面的能力。VoiceAssistant-Eval包括10,497个精心筛选的示例，涵盖了13个任务类别。这些任务包括自然声音、音乐和口语对话用于听力任务；多轮对话、角色扮演模仿以及各种场景用于口语任务；以及高度异质化的图像用于观察任务。为了展示其实用性，我们评估了21个开源模型和GPT-4o-Audio，衡量了响应内容和语音质量，以及它们的一致性。结果显示了三个关键发现：（1）专有模型并非普遍优于开源模型；（2）大多数模型在口语任务上表现出色，但在音频理解方面落后；（3）设计良好的较小模型可以与更大的模型媲美。值得注意的是，中等大小的Step-Audio-2-mini（7B）的听力准确率超过了LLaMA-Omni2-32B-Bilingual的两倍。然而，仍存在挑战：多模态（音频加视觉）输入和角色扮演语音模仿任务对当前模型来说很困难，并且在鲁棒性和安全对齐方面仍存在重大差距。VoiceAssistant-Eval识别了这些差距，并建立了一个严格的评估框架，用于评估和指导下一代人工智能助手的开发。代码和数据将在https://mathllm.github.io/VoiceAssistantEval/上发布。

更新时间: 2025-09-26 17:59:59

领域: cs.CL,cs.AI,cs.CV,cs.HC,cs.SD

下载: http://arxiv.org/abs/2509.22651v1

		自动登录	找回密码
密码			立即注册

VoiceAssistant-Eval: 评估AI助手在听、说和查看方面的基准测试

浏览过的版块