|
摘要: 在失语症研究中,言语病理学家(SLPs)花费大量时间手动编码语音样本,使用正确信息单位(CIUs)来衡量一个个体语音样本的信息量。开发自动识别失语症语言的系统受到数据稀缺的限制。例如,在AphasiaBank中只有大约600个文本,但要训练大型语言模型(LLMs)需要使用数十亿个标记。在机器学习(ML)的更广泛领域中,研究人员在数据稀缺时越来越多地转向合成数据。因此,本研究构建并验证了两种方法来生成AphasiaBank Cat Rescue图片描述任务的合成文本。其中一种方法利用过程化编程方法,而第二种方法使用Mistral 7b Instruct和Llama 3.1 8b Instruct LLMs。这些方法通过删除单词、插入填充词和进行释义替换来生成四个严重程度水平(轻度、中度、重度、非常重度)的文本。总体而言,我们发现,与人类引发的文本相比,Mistral 7b Instruct最能捕捉到失语症中观察到的语言退化的关键方面,显示出在合成生成方法中NDW、单词计数和单词长度的逼真方向变化。根据结果,未来的工作应该计划创建一个更大的数据集,优化模型以更好地反映失语症特征,并让SLPs评估合成文本的逼真度和实用性。 更新时间: 2025-10-30 11:13:33 领域: cs.CL,cs.AI,cs.LG
|