模型:
MIT/ast-finetuned-speech-commands-v2
音频频谱图转换器(AST)模型在Speech Commands v2上进行了微调。它是由Gong等人在 AST: Audio Spectrogram Transformer 论文中提出,并首次在 this repository 中发布。
免责声明:发布音频频谱图转换器的团队并未为该模型编写模型卡,因此此模型卡由Hugging Face团队编写。
音频频谱图转换器等同于 ViT ,但应用于音频。音频首先转换为图像(作为频谱图),然后应用视觉转换器。该模型在几个音频分类基准上取得了最先进的结果。
您可以使用原始模型将音频分类为Speech Commands v2类别之一。有关更多信息,请参阅 documentation 。