|
摘要: 良性喉声音障碍影响近五分之一的个体,通常表现为发声困难,同时也作为更广泛生理功能障碍的无创指标。我们引入了一个临床启发的分层机器学习框架,用于自动分类八种良性声音障碍以及健康对照组,使用从短暂、持续元音发声中提取的声学特征。实验利用了来自Saarbruecken Voice Database的1,261位发言者的15,132个录音,涵盖了中性、高、低和滑动音高的元音/a/、/i/和/u/。与临床分类工作流程相呼应,该框架在三个连续阶段运作:第一阶段通过将卷积神经网络衍生的mel频谱图特征与21个可解释的声学生物标志结合进行病理与非病理声音的二元筛选;第二阶段利用立方支持向量机将声音分层为健康、功能性或心因性、结构性或炎症性组;第三阶段通过整合前几阶段的概率输出实现细粒度分类,相对于功能性情况,提高了结构性和炎症性疾病的区分度。所提出的系统始终优于平面多类分类器和预训练的自监督模型,包括META HuBERT和Google HeAR,这些模型的通用目标并非为持续的临床发声进行优化。通过将深度频谱表示与可解释的声学特征相结合,该框架增强了透明度和临床对齐性。这些结果突显了定量声音生物标志作为可扩展、无创工具,用于早期筛查、诊断分流和声音健康的纵向监测的潜力。 更新时间: 2025-12-31 05:04:54 领域: cs.SD,cs.AI,cs.LG
|