模型:

facebook/mms-1b-all

任务:

自动语音识别

类库:

PyTorch Safetensors Transformers

数据集:

google/fleurs 3Agoogle/fleurs

语言:

其他:

wav2vec2 mms

预印本库:

arxiv:2305.13516

许可:

cc-by-nc-4.0

模型介绍文件清单

英文

Massively Multilingual Speech (MMS) - Finetuned ASR - ALL

此检查点是用于多语言ASR的模型微调，是Facebook的 Massive Multilingual Speech project 的一部分。此检查点基于 Wav2Vec2 architecture 并使用适配器模型来转录1000多种语言。该检查点包含10亿个参数，并且是根据 facebook/mms-1b 在1162种语言上进行微调的。

示例

此MMS检查点可以与 Transformers 一起用于转录1107种不同语言的音频。让我们看一个简单的示例。

首先，我们安装transformers和其他一些库。

pip install torch accelerate torchaudio datasets
pip install --upgrade transformers

注意:为了使用MMS，您需要安装至少transformers >= 4.30。如果4.30版还不可用，请确保从源代码安装transformers:

pip install git+https://github.com/huggingface/transformers.git

接下来，我们通过数据集加载一些音频样本。确保音频数据的采样率为16000 kHz。

from datasets import load_dataset, Audio

# English
stream_data = load_dataset("mozilla-foundation/common_voice_13_0", "en", split="test", streaming=True)
stream_data = stream_data.cast_column("audio", Audio(sampling_rate=16000))
en_sample = next(iter(stream_data))["audio"]["array"]

# French
stream_data = load_dataset("mozilla-foundation/common_voice_13_0", "fr", split="test", streaming=True)
stream_data = stream_data.cast_column("audio", Audio(sampling_rate=16000))
fr_sample = next(iter(stream_data))["audio"]["array"]

然后，我们加载模型和处理器。

from transformers import Wav2Vec2ForCTC, AutoProcessor
import torch

model_id = "facebook/mms-1b-all"

processor = AutoProcessor.from_pretrained(model_id)
model = Wav2Vec2ForCTC.from_pretrained(model_id)

现在我们处理音频数据，将处理后的音频数据传递给模型并转录模型输出，就像我们通常对待Wav2Vec2模型（如 facebook/wav2vec2-base-960h ）一样。

inputs = processor(en_sample, sampling_rate=16_000, return_tensors="pt")

with torch.no_grad():
    outputs = model(**inputs).logits

ids = torch.argmax(outputs, dim=-1)[0]
transcription = processor.decode(ids)
# 'joe keton disapproved of films and buster also had reservations about the media'

我们现在可以将相同的模型保留在内存中，只需调用方便的模型MMS检查点的` load_adapter() `函数和令牌化器的` set_target_lang() `函数即可切换语言适配器。我们将目标语言作为输入参数传递 - "fra"表示法语。

processor.tokenizer.set_target_lang("fra")
model.load_adapter("fra")

inputs = processor(fr_sample, sampling_rate=16_000, return_tensors="pt")

with torch.no_grad():
    outputs = model(**inputs).logits

ids = torch.argmax(outputs, dim=-1)[0]
transcription = processor.decode(ids)
# "ce dernier est volé tout au long de l'histoire romaine"

同样，可以针对所有其他支持的语言切换语言。请参阅：

processor.tokenizer.vocab.keys()

有关更多详细信息，请参阅 the official docs 。

支持的语言

此模型支持1162种语言。转到 ISO 639-3 code 中的链接来切换此检查点中支持的所有语言。您可以在 MMS Language Coverage Overview 中找到有关这些语言及其ISO 649-3代码的更多详细信息。

Click to toggle

abi
abk
abp
aca
acd
ace
acf
ach
acn
acr
acu
ade
adh
adj
adx
aeu
afr
agd
agg
agn
agr
agu
agx
aha
ahk
aia
aka
akb
ake
akp
alj
alp
alt
alz
ame
amf
amh
ami
amk
ann
any
aoz
apb
apr
ara
arl
asa
asg
asm
ast
ata
atb
atg
ati
atq
ava
avn
avu
awa
awb
ayo
ayr
ayz
azb
azg
azj-script_cyrillic
azj-script_latin
azz
bak
bam
ban
bao
bas
bav
bba
bbb
bbc
bbo
bcc-script_arabic
bcc-script_latin
bcl
bcw
bdg
bdh
bdq
bdu
bdv
beh
bel
bem
ben
bep
bex
bfa
bfo
bfy
bfz
bgc
bgq
bgr
bgt
bgw
bha
bht
bhz
bib
bim
bis
biv
bjr
bjv
bjw
bjz
bkd
bkv
blh
blt
blx
blz
bmq
bmr
bmu
bmv
bng
bno
bnp
boa
bod
boj
bom
bor
bos
bov
box
bpr
bps
bqc
bqi
bqj
bqp
bre
bru
bsc
bsq
bss
btd
bts
btt
btx
bud
bul
bus
bvc
bvz
bwq
bwu
byr
bzh
bzi
bzj
caa
cab
cac-dialect_sanmateoixtatan
cac-dialect_sansebastiancoatan
cak-dialect_central
cak-dialect_santamariadejesus
cak-dialect_santodomingoxenacoj
cak-dialect_southcentral
cak-dialect_western
cak-dialect_yepocapa
cap
car
cas
cat
cax
cbc
cbi
cbr
cbs
cbt
cbu
cbv
cce
cco
cdj
ceb
ceg
cek

作者:

Meta AI

数据集大小:

398.31 MB

Massively Multilingual Speech (MMS) - Finetuned ASR - ALL

目录

示例

支持的语言