模型:

anton-l/wav2vec2-base-superb-sv

任务:

音频分类

类库:

PyTorch Transformers

数据集:

superb 3Asuperb

语言:

其他:

wav2vec2 audio-xvector speech audio

预印本库:

arxiv:2105.01051 arxiv:1910.09700 arxiv:2006.11477

许可:

apache-2.0

模型介绍文件清单

英文

wav2vec2-base-superb-sv 模型卡片

模型详情

模型描述

开发者：Shu-wen Yang 等
共享者：Anton Lozhkov
模型类型：具有 XVector 头部的 Wav2Vec2 模型
语言：英语
授权许可：Apache 2.0
相关模型：
- 父模型：wav2vec2-large-lv60
更多信息资源：
- GitHub Repo
- Associated Paper

应用

直接应用

这是 S3PRL's Wav2Vec2 for the SUPERB Speaker Verification task 的移植版本。

基础模型是 wav2vec2-large-lv60 ，它使用在16kHz采样的语音音频上进行预训练。在使用模型时，请确保输入语音也是以16kHz采样的。

更多信息请参考 SUPERB: Speech processing Universal PERformance Benchmark 。

超出范围的应用

不应将该模型用于故意创建对人们具有敌意或疏远感的环境。

偏差、风险和局限性

已经进行了大量的研究来探讨语言模型的偏差和公平性问题（参见，例如， Sheng et al. (2021) 和 Bender et al. (2021) ）。模型生成的预测可能包含对受保护类别、身份特征以及敏感的社会和职业群体的不良和有害的刻板印象。

建议

用户（直接用户和下游用户）应注意模型的风险、偏差和局限性。需要更多的信息以进一步提供建议。

训练详情

训练数据

请参考 superb dataset card

训练过程

预处理

需要更多信息

速度、大小、时间

需要更多信息

评估

测试数据、因素和指标

测试数据

请参考 superb dataset card

因素

指标

需要更多信息

结果

需要更多信息

模型检查

需要更多信息

环境影响

可以使用 Lacoste et al. (2019) 中提出的 Machine Learning Impact calculator 来估计碳排放量。

硬件类型：需要更多信息
使用小时数：需要更多信息
云提供商：需要更多信息
计算区域：需要更多信息
排放的碳量：需要更多信息

技术规格[可选]

模型架构和目标

需要更多信息

计算基础设施

需要更多信息

硬件

需要更多信息

软件

需要更多信息

引用

BibTeX：

@misc{https://doi.org/10.48550/arxiv.2006.11477,
 doi = {10.48550/ARXIV.2006.11477},
 
 url = {https://arxiv.org/abs/2006.11477},
 
 author = {Baevski, Alexei and Zhou, Henry and Mohamed, Abdelrahman and Auli, Michael},
 
 keywords = {Computation and Language (cs.CL), Machine Learning (cs.LG), Sound (cs.SD), Audio and Speech Processing (eess.AS), FOS: Computer and information sciences, FOS: Computer and information sciences, FOS: Electrical engineering, electronic engineering, information engineering, FOS: Electrical engineering, electronic engineering, information engineering},
 
 title = {wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations},
 
 publisher = {arXiv},


@misc{https://doi.org/10.48550/arxiv.2105.01051,
 doi = {10.48550/ARXIV.2105.01051},
 
 url = {https://arxiv.org/abs/2105.01051},
 
 author = {Yang, Shu-wen and Chi, Po-Han and Chuang, Yung-Sung and Lai, Cheng-I Jeff and Lakhotia, Kushal and Lin, Yist Y. and Liu, Andy T. and Shi, Jiatong and Chang, Xuankai and Lin, Guan-Ting and Huang, Tzu-Hsien and Tseng, Wei-Cheng and Lee, Ko-tik and Liu, Da-Rong and Huang, Zili and Dong, Shuyan and Li, Shang-Wen and Watanabe, Shinji and Mohamed, Abdelrahman and Lee, Hung-yi},
 
 keywords = {Computation and Language (cs.CL), Sound (cs.SD), Audio and Speech Processing (eess.AS), FOS: Computer and information sciences, FOS: Computer and information sciences, FOS: Electrical engineering, electronic engineering, information engineering, FOS: Electrical engineering, electronic engineering, information engineering},
 
 title = {SUPERB: Speech processing Universal PERformance Benchmark},
 
 publisher = {arXiv},
 
 year = {2021},
}

术语表[可选]

需要更多信息

模型卡片作者[可选]

Anton Lozhkov 与 Ezi Ozoani 以及 Hugging Face 团队合作

模型卡片联系方式

需要更多信息

如何开始使用该模型

使用下面的代码开始使用模型。

Click to expand

from transformers import AutoProcessor, AutoModelForAudioXVector
 
processor = AutoProcessor.from_pretrained("anton-l/wav2vec2-base-superb-sv")
 
model = AutoModelForAudioXVector.from_pretrained("anton-l/wav2vec2-base-superb-sv")

作者:

Anton Lozhkov

数据集大小:

385.82 MB

wav2vec2-base-superb-sv 模型卡片

模型详情

模型描述

应用

直接应用

超出范围的应用

偏差、风险和局限性

建议

训练详情

训练数据

训练过程

预处理

速度、大小、时间

评估

测试数据、因素和指标

测试数据

因素

指标

结果

模型检查

环境影响

技术规格[可选]

模型架构和目标

计算基础设施

硬件

软件

引用

术语表[可选]

更多信息[可选]

模型卡片作者[可选]

模型卡片联系方式

如何开始使用该模型