找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 1|回复: 0

经过交叉语料库验证的移动语音情感识别的精简HuBERT

[复制链接]

622

主题

0

回帖

1895

积分

金牌会员

积分
1895
发表于 2026-1-4 23:02:53 | 显示全部楼层 |阅读模式
摘要: 语音情感识别(SER)在移动应用中具有重要潜力,但部署仍受限于最新转换器架构的计算需求。本文提出了一种基于DistilHuBERT的移动高效SER系统,这是一种经过蒸馏和8位量化的转换器,与全尺寸Wav2Vec 2.0模型相比,参数减少约92%,同时保持竞争力的准确性。我们在IEMOCAP数据集上进行了严格的5折Leave-One-Session-Out(LOSO)交叉验证,以确保讲话者独立性,并通过在CREMA-D上进行跨语料库训练来增强泛化性能。与CREMA-D的跨语料库训练使加权准确率提高了1.2%,宏F1得分增加了1.4%,跨折叠方差减少了32%,其中中立类别显示出最大的受益,F1得分提高了5.4%。我们的方法实现了61.4%的非加权准确率,模型占用空间仅为23 MB,大约相当于全尺寸基线非加权准确率的91%。对RAVDESS的跨语料库评估显示,表演情感的戏剧性质导致预测按激动水平而不是具体情感类别进行聚类-快乐预测系统地渗入愤怒预测,悲伤预测渗入中立预测,这是由于演员优先考虑清晰度而不是微妙性引起的声学饱和。尽管这种戏剧效应将整体RAVDESS准确率降低到46.64%,但该模型保持了99%的愤怒召回率,55%的中立召回率和27%的悲伤召回率。这些发现表明了模型大小和准确性之间的帕累托最优权衡,可在资源受限的移动设备上实现实用的情感识别。
更新时间: 2025-12-31 12:50:30
领域: cs.SD,cs.AI

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2026-1-12 15:41 , Processed in 0.085784 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表