英文

Wav2Vec2-Large-XLSR-Català

在加泰罗尼亚语上使用 facebook/wav2vec2-large-xlsr-53 进行微调,利用了 Common Voice ParlamentParla 数据集。

注意:所使用的训练/开发/测试集不完全与 CommonVoice 6.1 数据集匹配。采用了自定义的拆分方式,结合了 CommonVoice 和 ParlamentParla 数据集,可以在 here 中找到。在训练/评估该模型时,使用了 CV 测试数据集中的 1144 个音频文件,这样会产生有偏差的词错误率(WER)。WER 是使用这个 test.csv 计算的,而该模型在训练/评估过程中没有见过。

您可以在 GitHub 存储库 ccoreilly/wav2vec2-catala 中找到训练和评估脚本。

使用此模型时,请确保您的语音输入采样率为 16kHz。

结果

单词错误率是在以下模型未见过的数据集上评估的:

Dataset WER
1237321 6.92%
1238321 12.99%
Audiobook “La llegenda de Sant Jordi” 13.23%

用法

可以直接使用该模型(无需语言模型),方法如下:

import torch
import torchaudio
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

test_dataset = load_dataset("common_voice", "ca", split="test[:2%]")

processor = Wav2Vec2Processor.from_pretrained("ccoreilly/wav2vec2-large-xlsr-catala") 
model = Wav2Vec2ForCTC.from_pretrained("ccoreilly/wav2vec2-large-xlsr-catala")

resampler = torchaudio.transforms.Resample(48_000, 16_000)

# Preprocessing the datasets.
# We need to read the audio files as arrays
def speech_file_to_array_fn(batch):
    speech_array, sampling_rate = torchaudio.load(batch["path"])
    batch["speech"] = resampler(speech_array).squeeze().numpy()
    return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)
inputs = processor(test_dataset["speech"][:2], sampling_rate=16_000, return_tensors="pt", padding=True)

with torch.no_grad():
    logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits

predicted_ids = torch.argmax(logits, dim=-1)

print("Prediction:", processor.batch_decode(predicted_ids))
print("Reference:", test_dataset["sentence"][:2])