奇富科技论文入选顶级国际会议ICASSP2023 音频技术研究成果获国际认可

时间：2023-03-20

　　转自：中国网财经

　　近日，第48届IEEE声学、语音与信号处理国际会议(IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2023) 公布了论文入选名单，奇富科技论文《基于多粒度Transformer的多模态情绪识别》(Multilevel Transformer for Multimodal Emotion Recognition)被大会接收。

　　ICASSP由IEEE主办，是全世界最大的、也是最全面的信号处理及其应用方面的顶级学术会议，具有权威、广泛的学界及工业界影响力，备受AI领域研究学者关注。此次入选，显示奇富科技在音频领域的技术实力达到国际领先水平。

　　凭借在音频技术领域的积累创新，奇富科技也不断将前沿领域研究成果应用于实践。为用户提供优质的服务一直是奇富科技运营的重中之重。相比于以往只通过文本识别用户的情绪，从用户音频中解读的情感信息更加直接和丰富，更有利于指导户交互策略、提升客户体验。而偏主观的情绪判断导致标注任务格外困难，数据标注数量较少、标注结果存在的不一致性都是情绪识别所面临的挑战。考虑到预训练模型的成功和语言表达细粒度的特征，奇富科技引入了一种新的multi-granularity的模型，可以有效融合多模态细粒度的表征和预训练的全局表征，来解决这极具价值而又充满挑战的任务。

　　该项技术已帮助奇富科技大幅度提升用户服务体验，有效应用在质检服务中，降低客户投诉率4%。而对于基于语音通话，通过捕捉的情绪信号，应用在用户经营、坐席指导中的探索和尝试，也一直在进行，用户的情绪表征可以帮助奇富科技更全面的理解用户，服务用户。

　　“随着ChatGPT在公司内的实验和落地，我们已经极大提升了对于用户在文本上的理解能力，更好的识别和挖掘音频中的信息表征已经从幕后走向台前，成为进一步提升用户理解能力的关键手段。公司在音频技术上，一直坚持投入、坚持自研，这也是我们不断进步的基石，未来我们会有更多的技术成果分享给业界。”奇富科技首席算法科学家费浩峻表示。

　　据介绍，奇富科技在评价情绪过程中引入了三个主要创新点：

　　第一，对于多模态细粒度的表征，提出multilevel transformer模型，探索不同的方式来结合音素表征和单词表征。特别地，该方法并不需要借助外部信息来进行语音和文字的对齐，而是借鉴transformer TTS的框架，把文本和语音信息，有效地结合在一起。

　　第二，为了充分发挥预训练模型的优势，奇富科技提出multi-granularity模型，直接把multilevel transformer模型和Bert有效结合，使细粒度信息和全局信息得到了充分的融合，模型效果有了更进一步的提升。

　　第三，奇富科技的multilevel transformer模型在公开数据集上取得了SOTA效果，multi-granularity模型在此基础上，又有了更大幅度的提升。

　　　　在实际业务上，奇富科技利用论文中的方法，通过自主研发的实时感知情绪模型，对潜在投诉进行及时预警和安抚，结果表明投诉率低于对照组4%。

　　(图片为奇富科技授权中国网财经使用)