Whisper Tamil Medium

此模型是根据来自多个公开可用ASR语料库的泰米尔语数据的 fine-tuned 版本。它是作为 Whisper fine-tuning sprint 的一部分进行 fine-tuned 的。

注意：用于训练此模型的代码可在 whisper-finetune 存储库中重复使用。

用法

若要在整个数据集上评估此模型，可以使用 whisper-finetune 存储库中提供的评估代码。

同一存储库还提供了使用 whisper-jax 进行更快推理的脚本。

要使用此模型推断单个音频文件，可以使用以下代码片段：

>>> import torch
>>> from transformers import pipeline

>>> # path to the audio file to be transcribed
>>> audio = "/path/to/audio.format"
>>> device = "cuda:0" if torch.cuda.is_available() else "cpu"

>>> transcribe = pipeline(task="automatic-speech-recognition", model="vasista22/whisper-tamil-medium", chunk_length_s=30, device=device)
>>> transcribe.model.config.forced_decoder_ids = transcribe.tokenizer.get_decoder_prompt_ids(language="ta", task="transcribe")

>>> print('Transcription: ', transcribe(audio)["text"])

要更快地推断 whisper 模型，请使用 whisper-jax 库。使用前，请按照 here 提到的必要安装步骤进行设置：

>>> import jax.numpy as jnp
>>> from whisper_jax import FlaxWhisperForConditionalGeneration, FlaxWhisperPipline

>>> # path to the audio file to be transcribed
>>> audio = "/path/to/audio.format"

>>> transcribe = FlaxWhisperPipline("vasista22/whisper-tamil-medium", batch_size=16)
>>> transcribe.model.config.forced_decoder_ids = transcribe.tokenizer.get_decoder_prompt_ids(language="ta", task="transcribe")

>>> print('Transcription: ', transcribe(audio)["text"])

训练和评估数据

训练数据：

IISc-MILE Tamil ASR Corpus
ULCA ASR Corpus
Shrutilipi ASR Corpus
Microsoft Speech Corpus (Indian Languages)
Google/Fleurs Train+Dev set
Babel ASR Corpus

评估数据：

Microsoft Speech Corpus (Indian Languages) Test Set
Google/Fleurs Test Set
IISc-MILE Test Set
Babel Test Set

训练超参数

训练过程中使用了以下超参数：

学习率：1e-05
训练批次大小：24
评估批次大小：48
种子：22
优化器：adamw_bnb_8bit
lr_scheduler_type：linear
lr_scheduler_warmup_steps：17500
训练步数：33892（初始设置为84730步）
mixed_precision_training：True

致谢

此工作是在 Speech Lab, IIT Madras 完成的。

该工作的计算资源是由印度政府的“Bhashini：国家语言翻译计划”项目的“电子和信息技术部（MeitY）”资助的。

作者:

Vasista Lodagala

数据集大小:

5.69 GB