admin管理员组

文章数量:1558079

HIERARCHICAL NETWORK BASED ON THE FUSION OF STATIC AND DYNAMIC FEATURES FOR SPEECH EMOTION RECOGNITION

  • 文章介绍
  • 结构分析
  • 总结讨论

FEATURES FOR SPEECH EMOTION RECOGNITION)

文章介绍

  • 作者
  • 文章位置
    2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)

结构分析

作者主要是将两种特征进行非线性融合来作为输入到层次网络中,其中
静态特征:由语音提取的MFCC
动态特征:一阶差分和二阶差分

融合后的特征为h,作为注意力机制的输入

利用注意力机制来进行对训练中的数据进行QKV的计算,输入到全连接层次中,由softmax 来最后进行分类

总结讨论

  • 实验结果:
    从结果上来看使用动态+静态作为输入在WA和UA上都有所提高,结构上3的结构性能是最好的

这篇文章是来自2021年ICASSP中数据增强板块的内容,从结构上来看,作者使用了动静态相结合的方式来作为输入,使用GMU和LSTM等非线性的方式来进行特征融合,不再是使用直接进行叠加等线性结合。这种使用非线性的融合有着不一样的效果,不管结果如何,是作为特征处理的一种不错的尝试,和之前的那篇文章也可以结合起来作为一种方式,不冲突。

本文标签: 语音情感论文staticdynamic