模型:
vasista22/whisper-tamil-large-v2
此模型是根据来自多个公开可用的ASR语料库的泰米尔语数据进行微调的版本。它作为Whisper微调冲刺的一部分进行了微调。
注意:用于训练此模型的代码可在 whisper-finetune 存储库中重复使用。
要在整个数据集上评估此模型,可以使用 whisper-finetune 存储库中提供的评估代码。
同一存储库还提供了使用whisper-jax进行更快推理的脚本。
要使用此模型推理单个音频文件,可以使用以下代码片段:
>>> import torch >>> from transformers import pipeline >>> # path to the audio file to be transcribed >>> audio = "/path/to/audio.format" >>> device = "cuda:0" if torch.cuda.is_available() else "cpu" >>> transcribe = pipeline(task="automatic-speech-recognition", model="vasista22/whisper-tamil-large-v2", chunk_length_s=30, device=device) >>> transcribe.model.config.forced_decoder_ids = transcribe.tokenizer.get_decoder_prompt_ids(language="ta", task="transcribe") >>> print('Transcription: ', transcribe(audio)["text"])
要更快地推理whisper模型,可以使用 whisper-jax 库。在使用以下代码片段之前,请按照 here 中提到的必要安装步骤进行安装:
>>> import jax.numpy as jnp >>> from whisper_jax import FlaxWhisperForConditionalGeneration, FlaxWhisperPipline >>> # path to the audio file to be transcribed >>> audio = "/path/to/audio.format" >>> transcribe = FlaxWhisperPipline("vasista22/whisper-tamil-large-v2", batch_size=16) >>> transcribe.model.config.forced_decoder_ids = transcribe.tokenizer.get_decoder_prompt_ids(language="ta", task="transcribe") >>> print('Transcription: ', transcribe(audio)["text"])
训练数据:
评估数据:
训练期间使用了以下超参数:
此工作是在 Speech Lab, IIT Madras 进行的。
此工作的计算资源由“Bhashini:国家语言翻译计划”项目资助,该项目属于印度电子和信息技术部(MeitY)的一部分。