logo

多模态情绪识别新突破:音频Transformer与动作单元融合算法研究

作者:rousong2025.09.26 22:58浏览量:1

简介:本文提出了一种基于音频Transformer与动作单元的多模态情绪识别算法,并在RAVDESS数据集上进行了验证。该算法通过融合语音特征与面部动作单元信息,显著提升了情绪识别的准确性与鲁棒性,为情感计算领域提供了新的研究思路与实践方法。

引言

情绪识别作为人机交互、心理健康监测等领域的关键技术,近年来备受关注。传统的情绪识别方法多基于单一模态(如语音或面部表情),但受限于环境噪声、个体差异等因素,其准确性与泛化能力有限。多模态情绪识别通过融合语音、面部表情、生理信号等多种信息源,能够有效弥补单一模态的不足,提升识别性能。本文提出了一种基于音频Transformer与动作单元(Action Units, AUs)的多模态情绪识别算法,并在RAVDESS(Ryerson Audio-Visual Database of Emotional Speech and Song)数据集上进行了验证,旨在探索更高效、鲁棒的情绪识别方法。

算法设计

音频Transformer模块

Transformer架构因其强大的序列建模能力,在自然语言处理语音识别等领域取得了巨大成功。本文将Transformer应用于音频情绪识别,通过自注意力机制捕捉语音信号中的长时依赖关系,提取丰富的情感特征。具体而言,音频信号首先经过预处理(如分帧、加窗、短时傅里叶变换),得到频谱图;随后,频谱图被分割为固定长度的片段,输入至Transformer编码器;编码器由多层多头自注意力与前馈神经网络组成,逐层提取高级情感特征;最终,通过全局平均池化与全连接层,输出音频情感特征向量。

动作单元提取模块

面部动作单元是描述面部肌肉运动的标准化编码系统,能够精确反映面部表情的细微变化,是情绪识别的重要依据。本文采用OpenFace等开源工具,从视频帧中提取面部动作单元强度与出现频率信息。具体步骤包括:人脸检测与对齐、特征点定位、动作单元估计。通过深度学习模型(如卷积神经网络),将面部图像映射至动作单元空间,得到68个关键点的运动信息,进而计算出30个标准动作单元的激活程度。

多模态融合策略

多模态融合是多模态情绪识别的核心挑战。本文采用晚期融合策略,即分别处理音频与视频模态,在决策层进行融合。具体而言,音频Transformer模块与动作单元提取模块的输出特征向量,通过拼接或加权求和的方式,组合成多模态特征向量;随后,输入至支持向量机(SVM)或深度神经网络(DNN)等分类器,进行最终的情绪类别判断。晚期融合策略的优势在于,各模态可独立优化,避免早期融合中可能出现的模态间干扰问题。

实验与结果分析

数据集与实验设置

RAVDESS数据集包含24名专业演员(12男12女)的语音与视频数据,涵盖8种情绪类别(中性、平静、快乐、悲伤、愤怒、恐惧、厌恶、惊讶),每种情绪有2种强度级别(正常、强烈)。实验中,我们按8:1:1的比例划分训练集、验证集与测试集,确保数据分布的均衡性。音频样本的采样率为44.1kHz,视频帧率为30fps。

评价指标

采用准确率(Accuracy)、F1分数(F1-Score)与混淆矩阵(Confusion Matrix)作为评价指标。准确率反映整体分类正确率,F1分数综合考量精确率与召回率,混淆矩阵则直观展示各类别的分类情况。

实验结果

在RAVDESS测试集上,基于音频Transformer的单模态情绪识别准确率为72.3%,基于动作单元的单模态准确率为68.7%;而多模态融合后,准确率提升至78.5%,F1分数达到0.76,显著优于单模态方法。混淆矩阵分析显示,多模态算法在“快乐”、“愤怒”等情绪类别上的识别效果提升尤为明显,误分类率显著降低。

实际应用建议

数据预处理优化

实际应用中,数据质量对模型性能影响显著。建议采用更先进的音频降噪算法(如谱减法、深度学习降噪),以及更精确的人脸检测与对齐工具(如MTCNN、RetinaFace),以提升特征提取的准确性。

模型轻量化

为满足实时性要求,可对音频Transformer进行模型压缩,如采用知识蒸馏、量化等技术,减少参数量与计算量;同时,优化动作单元提取模型的架构,降低计算复杂度。

跨数据集验证

为验证算法的泛化能力,建议在更多数据集(如CREMA-D、IEMOCAP)上进行测试,调整模型参数以适应不同数据分布。

结论

本文提出了一种基于音频Transformer与动作单元的多模态情绪识别算法,通过融合语音特征与面部动作单元信息,显著提升了情绪识别的准确性与鲁棒性。在RAVDESS数据集上的实验结果表明,多模态融合策略能够有效弥补单一模态的不足,为情感计算领域提供了新的研究思路与实践方法。未来工作将聚焦于模型轻量化、跨数据集验证以及更复杂情绪状态的识别(如混合情绪、微表情)。

相关文章推荐

发表评论