模型:

speechbrain/slu-timers-and-such-direct-librispeech-asr

英文

端到端的SLU模型用于定时器等

基于注意力的RNN序列到序列模型,用于在train-real子集上训练的 Timers and Such ,该模型检查点在test-real上达到86.7%的准确率。

该模型使用在LibriSpeech上训练的ASR模型( speechbrain/asr-crdnn-rnnlm-librispeech )从输入音频中提取特征,然后使用波束搜索将这些特征映射到意图和槽标签。

数据集有四个意图:SetTimer,SetAlarm,SimpleMath和UnitConversion。可以尝试通过说出像"set a timer for 5 minutes"或"what's 32 degrees Celsius in Fahrenheit?"这样的话来测试模型。

您可以尝试使用此处包含的math.wav文件上的模型执行如下操作:

from speechbrain.pretrained import EndToEndSLU
slu = EndToEndSLU.from_hparams("speechbrain/slu-timers-and-such-direct-librispeech-asr")
slu.decode_file("speechbrain/slu-timers-and-such-direct-librispeech-asr/math.wav")

系统训练了以16kHz(单声道)采样的录音。调用decode_file时,代码将自动对音频进行归一化(即重新采样+选择单声道)。如果您使用decode_batch和decode_batch,请确保输入张量符合期望的采样率。

在GPU上进行推理

要在GPU上执行推理,调用from_hparams方法时添加run_opts={"device":"cuda"}。

训练

该模型是使用SpeechBrain(d254489a)进行训练的。要从头开始训练,请按照以下步骤进行:

  • 克隆SpeechBrain:
  • git clone https://github.com/speechbrain/speechbrain/
    
  • 安装:
  • cd speechbrain
    pip install -r requirements.txt
    pip install -e .
    
  • 运行训练:
  • cd  recipes/timers-and-such/direct
    python train.py hparams/train.yaml --data_folder=your_data_folder
    

    您可以在这里找到我们的培训结果(模型,日志等) here

    限制

    当在其他数据集上使用此模型时,SpeechBrain团队不提供任何性能保证。

    引用SpeechBrain
    @misc{speechbrain,
      title={{SpeechBrain}: A General-Purpose Speech Toolkit},
      author={Mirco Ravanelli and Titouan Parcollet and Peter Plantinga and Aku Rouhe and Samuele Cornell and Loren Lugosch and Cem Subakan and Nauman Dawalatabad and Abdelwahab Heba and Jianyuan Zhong and Ju-Chieh Chou and Sung-Lin Yeh and Szu-Wei Fu and Chien-Feng Liao and Elena Rastorgueva and François Grondin and William Aris and Hwidong Na and Yan Gao and Renato De Mori and Yoshua Bengio},
      year={2021},
      eprint={2106.04624},
      archivePrefix={arXiv},
      primaryClass={eess.AS},
      note={arXiv:2106.04624}
    }
    
    引用定时器等
    @article{lugosch2021timers,
          title={{Timers and Such: A Practical Benchmark for Spoken Language Understanding with Numbers}}, 
          author={Lugosch, Loren and Papreja, Piyush and Ravanelli, Mirco and Heba, Abdelwahab and Parcollet, Titouan},
          year={2021},
          journal={NeurIPS Datasets and Benchmarks}
    }
    
    关于SpeechBrain

    SpeechBrain是一个开源的全能语音工具包。它旨在简单、极具灵活性和用户友好性。在各个领域都可以获得竞争或最先进的性能。

    网站: https://speechbrain.github.io/

    GitHub: https://github.com/speechbrain/speechbrain