JAD：天大明东／刘爽报道基于机器语音链模型的抑郁症语音评估方法

时间：2023-02-18

　　研究背景

　　抑郁症是常见的精神心境障碍，具有高发病率、高致残率以及低治愈率的特点，给个人、家庭和社会带来了沉重负担。研究证实，抑郁症患者声音具有低沉、犹豫缓慢等特异性，语音识别技术结合人工智能手段有望实现抑郁症的智能评估，具有相对客观、可普及性强的优势，拥有广阔的临床应用前景。然而，目前该领域的研究存在着抑郁症相关声学特征难以提取且存在信息失真，导致分类模型性能较差的问题。

　　最近，天津大学刘爽副教授团队提出了一种用于抑郁语音识别的机器语音链模型(machine speech chain model for depression recognition, MSCDR)，较现有算法有效提升识别性能，相关成果发表于精神病学领域TOP期刊《Journal of Affective Disorders》。

　　研究方法

　　本研究所提出MSCDR模型可以捕获从发音到聆听过程中与文本无关的抑郁语音特征用于识别诊断，包括三个部分：预处理、语音片段内特征提取和用于分类的片段间特征提取(图1)。

　　　　针对不同语音时长导致输入数据格式不一致的问题，本研究提出了先分段后融合的解决思路，避免了现有研究所采用的直接截取或放缩算法所带来的信息失真。在特征提取阶段，本研究首次将语音链概念与抑郁语音特征结合，分别提取线性预测编码(linear predictive coding, LPC)和梅尔频率倒谱系数(Mel-frequency cepstral coefficients, MFCC)来描述语音生成和语音感知的过程(图2)。

　　　　基于所提取语音链特征，本研究提出使用一维卷积神经网络(one-dimensional convolutional neural network, 1D-CNN)对语音片段内特征进行高维度特征提取(图3a)。1D-CNN可以对全频段进行卷积运算，适合于对频域信息具有敏感性的抑郁症语音识别任务。随后，MSCDR模型将所有片段特征在时域进行特征级融合，使用长短期记忆网络(Long Short-Term Memory, LSTM)进行片段间的特征提取并完成预测。LSTM是循环神经网络的一种变体，有效解决了RNN网络中容易出现的梯度消失和梯度爆炸问题，提升了网络的记忆能力。

　　结果与讨论

　　MSCDR模型在国内外两个不同语言和采集范式的公开数据集上完成测试，即DAIC-WOZ和MODMA数据集。其中，DAIC-WOZ数据集采用半结构化访谈任务，被试语言为英语。MODMA数据集选取了问题访谈和图片描述诱导发音的音频数据，被试语言为汉语且夹杂着方言。

　　MSCDR模型在DAIC-WOZ数据集上达到准确率77.1%和平均F1分数0.746，在MODMA数据集上达到准确率85.7%和平均F1分数0.856(图4)。本研究进一步对比了现有其他算法，相比于基于声学整体特征的识别算法和传统的动态识别算法，MSCDR模型进一步提升了识别性能(表1)。结果说明了所提取动态语音链特征的有效性，语音生成和语音感知特征的互补性以及所提出算法的跨文化、跨语言的鲁棒性。

　　　　表1 MSCD模型与现有其他先进算法的识别结果对比

　　　　本研究从原始样本以及错误分类的量表评分分布上，进一步分析了造成两个数据集识别结果差异的三种因素(图5)。第一，MODMA数据集中的被试均有至少一名专业医师诊断并结合多个量表综合评定后入组。而DAIC-WOZ数据集仅使用了单一量表对被试进行划分，存在主观量表评定误差的可能。第二，相比于MODMA数据集的量表评分分布更为分散，DAIC-WOZ数据集的被试较集中于非抑郁或轻度区域，这种集中分布可能存在部分样本症状并不明显，影响模型训练效果。由于分类错误样本更集中于阈值处，第三种因素或是抑郁症的语音差异性会出现混叠，即抑郁症的语音特点可能会存在于未达到抑郁标准但具有量表高分数的人群中，也存在一些轻度患者可能没有相应的语音症状，该现象同样值得抑郁语音识别研究的关注。

　　　　图5 (a) DAIC-WOZ数据集PHQ-8评分分布; (b) MODMA数据集PHQ-9评分分布; (c) DAIC-WOZ错误分类样本的PHQ-8评分分布; (d) MODMA错误分类样本的PHQ-9评分分布

　　总结

　　本研究提出一种用于抑郁语音评估的机器语音链模型MSCDR，从语音感知和产生过程中互补地提取语音特征，并基于1D-CNN和LSTM神经网络采用先分段后融合的方法避免特征信息失真。MSCDR在不同语言和采集范式的两个数据集上取得优异分类结果，优于现有其他先进算法，证明了其良好泛化能力和识别性能。研究结果同时表明，抑郁症患者的声道特性或已发生变化，为抑郁症语音研究提供了理论基础和启发。

　　论文第一作者为天津大学硕士研究生杜铭浩，通讯作者为明东教授和刘爽副教授。

　　原文链接：

　　https://ifbic1b13095ec5284139sqfucnuuv6ku56cqvfiac.eds.tju.edu.cn/10.1016/j.jad.2022.11.060

　　Du M, Liu S, Wang T, et al. Depression recognition using a proposed speech chain model fusing speech production and perception features[J]. Journal of Affective Disorders, 2023, 323: 299-308.