模型:
wannaphong/wav2vec2-large-xlsr-53-th-cv8-newmm
该模型使用CommonVoice V8数据集进行训练,并增加了来自用于 airesearch/wav2vec2-large-xlsr-53-th 的CommonVoice V7数据集的数据。它经过了 wav2vec2-large-xlsr-53 的微调。
它从Common Voice V8数据集中新增了数据,以Common Voice V7数据集为基础进行分割,然后将CommonVoice V7数据集重新加入到数据集中。
它使用 ekapolc/Thai_commonvoice_split 脚本来分割Common Voice数据集。
该模型使用Thai Common Voice V8数据集对 wav2vec2-large-xlsr-53 模型进行了微调,并使用 pythainlp.tokenize.word_tokenize 进行了预分词。
我使用了 vistec-AI/wav2vec2-large-xlsr-53-th 的许多代码,并在 vistec-AI/wav2vec2-large-xlsr-53-th#2 中修复了训练代码中的错误。
使用CommonVoice V8测试集进行测试
Model | WER by newmm (%) | WER by deepcut (%) | CER |
---|---|---|---|
AIResearch.in.th and PyThaiNLP | 17.414503 | 11.923089 | 3.854153 |
wav2vec2 with deepcut | 16.354521 | 11.424476 | 3.684060 |
wav2vec2 with newmm | 16.698299 | 11.436941 | 3.737407 |
wav2vec2 with deepcut + language model | 12.630260 | 9.613886 | 3.292073 |
wav2vec2 with newmm + language model | 12.583706 | 9.598305 | 3.276610 |
使用CommonVoice V7测试集进行测试(使用CV V7相同的测试)
Model | WER by newmm (%) | WER by deepcut (%) | CER |
---|---|---|---|
AIResearch.in.th and PyThaiNLP | 13.936698 | 9.347462 | 2.804787 |
wav2vec2 with deepcut | 12.776381 | 8.773006 | 2.628882 |
wav2vec2 with newmm | 12.750596 | 8.672616 | 2.623341 |
wav2vec2 with deepcut + language model | 9.940050 | 7.423313 | 2.344940 |
wav2vec2 with newmm + language model | 9.559724 | 7.339654 | 2.277071 |
这是使用 https://huggingface.co/airesearch/wav2vec2-large-xlsr-53-th 的相同测试集。
链接:
@misc{phatthiyaphaibun2022thai, title={Thai Wav2Vec2.0 with CommonVoice V8}, author={Wannaphong Phatthiyaphaibun and Chompakorn Chaksangchaichot and Peerat Limkonchotiwat and Ekapol Chuangsuwanich and Sarana Nutanong}, year={2022}, eprint={2208.04799}, archivePrefix={arXiv}, primaryClass={cs.CL} }