找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 30|回复: 0

VoiceAssistant-Eval: 评估AI助手在听、说和查看方面的基准测试

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 2025-9-30 19:43:46 | 显示全部楼层 |阅读模式
摘要: 随着大型语言模型和多模态系统的能力增强,对语音优先人工智能助手的兴趣日益增加,然而现有的基准测试无法评估这些系统全部能力的范围。我们引入了VoiceAssistant-Eval,这是一个全面的基准测试,旨在评估人工智能助手在听、说和观察方面的能力。VoiceAssistant-Eval包括10,497个精心筛选的示例,涵盖了13个任务类别。这些任务包括自然声音、音乐和口语对话用于听力任务;多轮对话、角色扮演模仿以及各种场景用于口语任务;以及高度异质化的图像用于观察任务。为了展示其实用性,我们评估了21个开源模型和GPT-4o-Audio,衡量了响应内容和语音质量,以及它们的一致性。结果显示了三个关键发现:(1)专有模型并非普遍优于开源模型;(2)大多数模型在口语任务上表现出色,但在音频理解方面落后;(3)设计良好的较小模型可以与更大的模型媲美。值得注意的是,中等大小的Step-Audio-2-mini(7B)的听力准确率超过了LLaMA-Omni2-32B-Bilingual的两倍。然而,仍存在挑战:多模态(音频加视觉)输入和角色扮演语音模仿任务对当前模型来说很困难,并且在鲁棒性和安全对齐方面仍存在重大差距。VoiceAssistant-Eval识别了这些差距,并建立了一个严格的评估框架,用于评估和指导下一代人工智能助手的开发。代码和数据将在https://mathllm.github.io/VoiceAssistantEval/上发布。
更新时间: 2025-09-26 17:59:59
领域: cs.CL,cs.AI,cs.CV,cs.HC,cs.SD

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-10-30 06:17 , Processed in 0.069169 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表