模型:

wannaphong/wav2vec2-large-xlsr-53-th-cv8-newmm

英文

Thai Wav2Vec2与CommonVoice V8(newmm tokenizer)+语言模型

该模型使用CommonVoice V8数据集进行训练,并增加了来自用于 airesearch/wav2vec2-large-xlsr-53-th 的CommonVoice V7数据集的数据。它经过了 wav2vec2-large-xlsr-53 的微调。

模型描述

数据集

它从Common Voice V8数据集中新增了数据,以Common Voice V7数据集为基础进行分割,然后将CommonVoice V7数据集重新加入到数据集中。

它使用 ekapolc/Thai_commonvoice_split 脚本来分割Common Voice数据集。

模型

该模型使用Thai Common Voice V8数据集对 wav2vec2-large-xlsr-53 模型进行了微调,并使用 pythainlp.tokenize.word_tokenize 进行了预分词。

训练

我使用了 vistec-AI/wav2vec2-large-xlsr-53-th 的许多代码,并在 vistec-AI/wav2vec2-large-xlsr-53-th#2 中修复了训练代码中的错误。

评估

使用CommonVoice V8测试集进行测试

Model WER by newmm (%) WER by deepcut (%) CER
AIResearch.in.th and PyThaiNLP 17.414503 11.923089 3.854153
wav2vec2 with deepcut 16.354521 11.424476 3.684060
wav2vec2 with newmm 16.698299 11.436941 3.737407
wav2vec2 with deepcut + language model 12.630260 9.613886 3.292073
wav2vec2 with newmm + language model 12.583706 9.598305 3.276610

使用CommonVoice V7测试集进行测试(使用CV V7相同的测试)

Model WER by newmm (%) WER by deepcut (%) CER
AIResearch.in.th and PyThaiNLP 13.936698 9.347462 2.804787
wav2vec2 with deepcut 12.776381 8.773006 2.628882
wav2vec2 with newmm 12.750596 8.672616 2.623341
wav2vec2 with deepcut + language model 9.940050 7.423313 2.344940
wav2vec2 with newmm + language model 9.559724 7.339654 2.277071

这是使用 https://huggingface.co/airesearch/wav2vec2-large-xlsr-53-th 的相同测试集。

链接:

BibTeX条目和引用信息

@misc{phatthiyaphaibun2022thai,
      title={Thai Wav2Vec2.0 with CommonVoice V8}, 
      author={Wannaphong Phatthiyaphaibun and Chompakorn Chaksangchaichot and Peerat Limkonchotiwat and Ekapol Chuangsuwanich and Sarana Nutanong},
      year={2022},
      eprint={2208.04799},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}