模型:
MIT/ast-finetuned-audioset-16-16-0.442
音频声谱图转换器(AST)模型在AudioSet上进行了微调。该模型在 Gong 等人的论文 AST: Audio Spectrogram Transformer 中首次提出,并于 this repository 首次发布。
免责声明:发布音频声谱图转换器的团队并未为该模型编写模型卡,因此这个模型卡是由 Hugging Face 团队编写的。
音频声谱图转换器等同于 ViT ,但应用于音频。音频首先被转换为图像(即声谱图),然后应用视觉转换器。该模型在多个音频分类基准测试中获得了最先进的结果。
您可以使用原始模型将音频分类为AudioSet中的一个类别。有关更多信息,请参阅 documentation 。