模型:
openai/whisper-large-v2
Whisper是一个用于自动语音识别(ASR)和语音翻译的预训练模型。它使用了经过标注的680,000小时的数据进行训练,Whisper模型展示了在许多数据集和领域中具有很强的泛化能力,无需进行精调。
Whisper在OpenAI的Alec Radford等人提出的文章中被提出。原始的代码存储库可以在此处找到。
与Whisper大模型相比,large-v2模型经过2.5倍的训练周期,并添加了正则化以提高性能。
免责声明:此模型卡的内容部分由Hugging Face团队编写,部分内容是从原始模型卡复制粘贴而来的。
Whisper是基于Transformer的编码器-解码器模型,也被称为序列到序列模型。它使用大规模弱监督的标注语音数据进行训练,总共训练了680,000小时的数据。
这些模型要么是智能模型(仅用英语数据训练),要么是多语言模型(用于英语识别和翻译)。对于语音识别,模型预测的是与音频相同语言的转录内容。对于语音翻译,模型预测的是与音频不同语言的转录内容。
Whisper的检查点有五种不同模型大小的配置。最小的四个是基于智能或多语言数据训练的。最大的检查点仅基于多语言进行训练。这十个预训练检查点都可以在Hub上找到。下表总结了这些检查点,并提供了指向模型的链接:
Size | Parameters | English-only | Multilingual |
---|---|---|---|
tiny | 39 M | 12311321 | 12312321 |
base | 74 M | 12313321 | 12314321 |
small | 244 M | 12315321 | 12316321 |
medium | 769 M | 12317321 | 12318321 |
large | 1550 M | x | 12319321 |
large-v2 | 1550 M | x | 12320321 |
要转录音频样本,必须将模型与处理器一起使用。
Whisper处理器用于:
通过传递适当的“上下文标记”来通知模型执行哪个任务(转录或翻译)。这些上下文标记是在解码过程开始时传递给解码器的令牌序列,按照以下顺序进行设置:
因此,上下文标记的典型序列可能如下所示:
<|startoftranscript|> <|en|> <|transcribe|> <|notimestamps|>
这告诉模型以英语进行解码,执行语音识别任务,并且不预测时间戳。
这些令牌可以是被强制或非强制的。如果它们是强制的,模型需要在每个位置预测每个令牌。这允许控制Whisper模型的输出语言和任务。如果它们是非强制的,Whisper模型将自动预测输出语言和任务。
可以相应地设置上下文标记:
model.config.forced_decoder_ids = WhisperProcessor.get_decoder_prompt_ids(language="english", task="transcribe")
这将强制模型使用英语进行解码,执行语音识别任务。
在这个例子中,上下文标记是'非强制'的,意味着模型会自动预测输出语言(英语)和任务(转录)。
>>> from transformers import WhisperProcessor, WhisperForConditionalGeneration >>> from datasets import load_dataset >>> # load model and processor >>> processor = WhisperProcessor.from_pretrained("openai/whisper-large-v2") >>> model = WhisperForConditionalGeneration.from_pretrained("openai/whisper-large-v2") >>> model.config.forced_decoder_ids = None >>> # load dummy dataset and read audio files >>> ds = load_dataset("hf-internal-testing/librispeech_asr_dummy", "clean", split="validation") >>> sample = ds[0]["audio"] >>> input_features = processor(sample["array"], sampling_rate=sample["sampling_rate"], return_tensors="pt").input_features >>> # generate token ids >>> predicted_ids = model.generate(input_features) >>> # decode token ids to text >>> transcription = processor.batch_decode(predicted_ids, skip_special_tokens=False) ['<|startoftranscript|><|en|><|transcribe|><|notimestamps|> Mr. Quilter is the apostle of the middle classes and we are glad to welcome his gospel.<|endoftext|>'] >>> transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True) [' Mr. Quilter is the apostle of the middle classes and we are glad to welcome his gospel.']
可以通过设置skip_special_tokens=True来从转录的开头删除上下文标记。
以下示例通过适当设置解码器ID来展示法语到法语的转录。
>>> from transformers import WhisperProcessor, WhisperForConditionalGeneration >>> from datasets import Audio, load_dataset >>> # load model and processor >>> processor = WhisperProcessor.from_pretrained("openai/whisper-large-v2") >>> model = WhisperForConditionalGeneration.from_pretrained("openai/whisper-large-v2") >>> forced_decoder_ids = processor.get_decoder_prompt_ids(language="french", task="transcribe") >>> # load streaming dataset and read first audio sample >>> ds = load_dataset("common_voice", "fr", split="test", streaming=True) >>> ds = ds.cast_column("audio", Audio(sampling_rate=16_000)) >>> input_speech = next(iter(ds))["audio"] >>> input_features = processor(input_speech["array"], sampling_rate=input_speech["sampling_rate"], return_tensors="pt").input_features >>> # generate token ids >>> predicted_ids = model.generate(input_features, forced_decoder_ids=forced_decoder_ids) >>> # decode token ids to text >>> transcription = processor.batch_decode(predicted_ids) ['<|startoftranscript|><|fr|><|transcribe|><|notimestamps|> Un vrai travail intéressant va enfin être mené sur ce sujet.<|endoftext|>'] >>> transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True) [' Un vrai travail intéressant va enfin être mené sur ce sujet.']
将任务设置为“translate”会强制Whisper模型执行语音翻译。
>>> from transformers import WhisperProcessor, WhisperForConditionalGeneration >>> from datasets import Audio, load_dataset >>> # load model and processor >>> processor = WhisperProcessor.from_pretrained("openai/whisper-large-v2") >>> model = WhisperForConditionalGeneration.from_pretrained("openai/whisper-large-v2") >>> forced_decoder_ids = processor.get_decoder_prompt_ids(language="french", task="translate") >>> # load streaming dataset and read first audio sample >>> ds = load_dataset("common_voice", "fr", split="test", streaming=True) >>> ds = ds.cast_column("audio", Audio(sampling_rate=16_000)) >>> input_speech = next(iter(ds))["audio"] >>> input_features = processor(input_speech["array"], sampling_rate=input_speech["sampling_rate"], return_tensors="pt").input_features >>> # generate token ids >>> predicted_ids = model.generate(input_features, forced_decoder_ids=forced_decoder_ids) >>> # decode token ids to text >>> transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True) [' A very interesting work, we will finally be given on this subject.']
以下代码片段显示了如何在上述任务上评估Whisper大模型:
>>> from datasets import load_dataset >>> from transformers import WhisperForConditionalGeneration, WhisperProcessor >>> import torch >>> from evaluate import load >>> librispeech_test_clean = load_dataset("librispeech_asr", "clean", split="test") >>> processor = WhisperProcessor.from_pretrained("openai/whisper-large-v2") >>> model = WhisperForConditionalGeneration.from_pretrained("openai/whisper-large-v2").to("cuda") >>> def map_to_pred(batch): >>> audio = batch["audio"] >>> input_features = processor(audio["array"], sampling_rate=audio["sampling_rate"], return_tensors="pt").input_features >>> batch["reference"] = processor.tokenizer._normalize(batch['text']) >>> >>> with torch.no_grad(): >>> predicted_ids = model.generate(input_features.to("cuda"))[0] >>> transcription = processor.decode(predicted_ids) >>> batch["prediction"] = processor.tokenizer._normalize(transcription) >>> return batch >>> result = librispeech_test_clean.map(map_to_pred) >>> wer = load("wer") >>> print(100 * wer.compute(references=result["reference"], predictions=result["prediction"])) 3.0003583080317572
Whisper模型本质上设计用于处理长达30秒的音频样本。然而,通过使用分块算法,可以将其用于转录任意长度的音频样本。在实例化管道时,可以通过设置chunk_length_s = 30来启用分块。启用分块后,可以使用批量推理运行管道。还可以通过传递return_timestamps=True来扩展到预测序列级时间戳:
>>> import torch >>> from transformers import pipeline >>> from datasets import load_dataset >>> device = "cuda:0" if torch.cuda.is_available() else "cpu" >>> pipe = pipeline( >>> "automatic-speech-recognition", >>> model="openai/whisper-large-v2", >>> chunk_length_s=30, >>> device=device, >>> ) >>> ds = load_dataset("hf-internal-testing/librispeech_asr_dummy", "clean", split="validation") >>> sample = ds[0]["audio"] >>> prediction = pipe(sample.copy(), batch_size=8)["text"] " Mr. Quilter is the apostle of the middle classes, and we are glad to welcome his gospel." >>> # we can also return timestamps for the predictions >>> prediction = pipe(sample.copy(), batch_size=8, return_timestamps=True)["chunks"] [{'text': ' Mr. Quilter is the apostle of the middle classes and we are glad to welcome his gospel.', 'timestamp': (0.0, 5.44)}]
有关分块算法的更多详细信息,请参阅博客文章 ASR Chunking 。
预训练的Whisper模型展示了强大的泛化能力,适用于不同的数据集和领域。但是,通过对少量标记数据进行精细调整,可以进一步提高它在某些语言和任务上的预测能力。博客文章 Fine-Tune Whisper with ? Transformers 提供了使用仅有5小时标记数据进行Whisper模型微调的逐步指南。
这些模型的主要预期用户是研究当前模型的稳健性、泛化能力、功能、偏见和约束的AI研究人员。然而,Whisper对于开发人员来说也可能是一个有用的ASR解决方案,尤其是对于英语语音识别。我们意识到,一旦模型发布,就不可能仅限于“预期”使用,也无法在使用范围上制定合理的准则。
这些模型主要针对ASR和英语语音翻译任务进行训练和评估。它们在大约10种语言的ASR结果上表现出色。它们可能具有其他能力,特别是如果在某些任务(如语音活动检测、说话人分类或说话人对话分割)上进行了精细调整,但在这些领域还没有进行稳健的评估。我们强烈建议用户在部署之前在特定的上下文和领域中对模型进行全面评估。
特别是,我们警告不要使用Whisper模型转录未经他们同意的个人的录音,或以任何形式使用这些模型进行任何主观分类。我们建议不要在决策环境等高风险领域使用,因为准确性的缺陷可能导致显著的结果缺陷。这些模型旨在转录和翻译语音,使用模型进行分类不仅未经评估,而且也不合适,特别是用于推断人类属性。
这些模型在互联网上收集的680,000小时的音频和相应的转录上进行了训练。其中65%的数据(即438,000小时)代表英语音频和匹配的英语转录,大约18%(即126,000小时)代表非英语音频和英语转录,而最后的17%(即117,000小时)代表非英语音频和相应的转录。这些非英语数据涵盖了98种不同的语言。
正如 the accompanying paper 中所讨论的那样,我们可以看到在特定语言上的转录性能与在该语言中使用的训练数据量直接相关。
我们的研究表明,与许多现有的ASR系统相比,这些模型对口音、背景噪声、技术语言以及多语言转录到英语的零-shot翻译等方面表现出更好的稳健性;同时,在语音识别和翻译方面的准确性接近于最先进水平。
然而,由于模型是使用大规模的噪声数据进行弱监督训练,预测可能包含实际上不在音频输入中的文本(即幻觉)。我们推测之所以会出现这种情况是因为模型在尝试预测音频中的下一个单词的同时,还会尝试将音频本身转录出来,由于对语言的普遍知识,模型将两者结合在一起。
我们的模型在各种语言上的表现不均衡,我们观察到在资源较少或发现性较低的语言或拥有较少训练数据的语言上的准确性较低。模型在特定语言的不同口音和方言上的表现也存在差异,可能导致不同性别、种族、年龄或其他人口统计标准的讲话者之间的单词错误率较高。我们的完整评估结果在 the paper accompanying this release 中呈现。
此外,模型的序列到序列架构使其易于生成重复的文本,这可以通过束搜索和温度调度在一定程度上缓解,但并非完美。有关这些限制的进一步分析请参阅 the paper 。这种行为和幻觉可能在资源较少或发现性较低的语言上更严重。
我们预计Whisper模型的转录能力可能用于改进辅助工具。虽然Whisper模型不能直接用于实时转录 - 由于其速度和大小,其他人可能能够在其基础上构建应用程序,从而实现近实时的语音识别和翻译。利用Whisper模型构建有益应用的实际价值表明,这些模型的不同性能可能会产生实际的经济影响。
发布Whisper还存在潜在的双重用途问题。虽然我们希望该技术主要用于有益目的,但使得ASR技术更易于获取可能会使更多的参与者构建能力强大的监控技术或扩大现有的监控工作,因为其速度和准确性可实现大量音频通信的负担得起的自动转录和翻译。此外,这些模型可能具有一些识别特定个体的能力,这同时引发了与双重用途和不同性能相关的安全问题。实际上,我们预计转录成本并不是扩大监控项目的限制因素。
@misc{radford2022whisper, doi = {10.48550/ARXIV.2212.04356}, url = {https://arxiv.org/abs/2212.04356}, author = {Radford, Alec and Kim, Jong Wook and Xu, Tao and Brockman, Greg and McLeavey, Christine and Sutskever, Ilya}, title = {Robust Speech Recognition via Large-Scale Weak Supervision}, publisher = {arXiv}, year = {2022}, copyright = {arXiv.org perpetual, non-exclusive license} }