模型:

speechbrain/emotion-recognition-wav2vec2-IEMOCAP

英文

基于IEMOCAP的wav2vec2情感识别

该存储库提供了使用SpeechBrain对IEMOCAP训练数据进行微调的wav2vec2(基础)模型进行情感识别的所有必要工具。

为了获得更好的体验,我们建议您学习更多关于 SpeechBrain 的内容。模型在IEMOCAP测试集上的性能为:

Release Accuracy(%)
19-10-21 78.7 (Avg: 75.3)

流程描述

该系统由一个wav2vec2模型组成,它是卷积块和残差块的组合。使用注意力统计池化提取嵌入。系统使用加性边界Softmax损失进行训练。使用讲话者嵌入之间的余弦距离进行说话者验证。

该系统使用采样率为16kHz的录音进行训练(单通道)。调用classify_file时,代码将自动将您的音频进行归一化处理(即重新采样+选择单通道),如果需要的话。

安装SpeechBrain

首先,请使用以下命令安装SpeechBrain的开发版本:

pip install speechbrain

请注意,我们建议您阅读我们的教程并了解更多关于 SpeechBrain 的内容。

进行情感识别

在此HF存储库中,使用外部py_module_file=custom.py作为外部的Predictor类。我们使用speechbrain.pretrained.interfaces中的foreign_class函数,允许您加载自定义模型。

from speechbrain.pretrained.interfaces import foreign_class
classifier = foreign_class(source="speechbrain/emotion-recognition-wav2vec2-IEMOCAP", pymodule_file="custom_interface.py", classname="CustomEncoderWav2vec2Classifier")
out_prob, score, index, text_lab = classifier.classify_file("speechbrain/emotion-recognition-wav2vec2-IEMOCAP/anger.wav")
print(text_lab)

预测张量将包含一个元组(嵌入,id_class,label_name)。

GPU推理

要在GPU上进行推理,请在调用from_hparams方法时添加run_opts={"device":"cuda"}。

训练

该模型是使用SpeechBrain(aa018540)进行训练的。要从头开始训练,请按照以下步骤进行:

  • 克隆SpeechBrain:
  • git clone https://github.com/speechbrain/speechbrain/
    
  • 安装:
  • cd speechbrain
    pip install -r requirements.txt
    pip install -e .
    
  • 运行训练:
  • cd  recipes/IEMOCAP/emotion_recognition
    python train_with_wav2vec2.py hparams/train_with_wav2vec2.yaml --data_folder=your_data_folder
    

    您可以在 here 中找到我们的训练结果(模型、日志等)。

    限制

    SpeechBrain团队不对在其他数据集上使用此模型实现的性能提供任何保证。

    引用SpeechBrain

    如果您在研究或商业中使用SpeechBrain,请引用它。

    @misc{speechbrain,
      title={{SpeechBrain}: A General-Purpose Speech Toolkit},
      author={Mirco Ravanelli and Titouan Parcollet and Peter Plantinga and Aku Rouhe and Samuele Cornell and Loren Lugosch and Cem Subakan and Nauman Dawalatabad and Abdelwahab Heba and Jianyuan Zhong and Ju-Chieh Chou and Sung-Lin Yeh and Szu-Wei Fu and Chien-Feng Liao and Elena Rastorgueva and François Grondin and William Aris and Hwidong Na and Yan Gao and Renato De Mori and Yoshua Bengio},
      year={2021},
      eprint={2106.04624},
      archivePrefix={arXiv},
      primaryClass={eess.AS},
      note={arXiv:2106.04624}
    }
    

    关于SpeechBrain