模型:
google/umt5-small
UMT5是在更新的 mC4 语料库上进行预训练的,涵盖了107种语言:
阿非利卡语,阿尔巴尼亚语,阿姆哈拉语,阿拉伯语,亚美尼亚语,阿塞拜疆语,巴斯克语,白俄罗斯语,孟加拉语,保加利亚语,缅甸语,加泰罗尼亚语,宿务语,奇切瓦语,中文,科西嘉语,捷克语,丹麦语,荷兰语,英语,世界语,爱沙尼亚语,菲律宾语,芬兰语,法语,加利西亚语,格鲁吉亚语,德语,希腊语,古吉拉特语,海地克里奥尔语,豪萨语,夏威夷语,希伯来语,印地语,苗语,匈牙利语,冰岛语,伊博语,印度尼西亚语,爱尔兰语,意大利语,日语,爪哇语,卡纳达语,哈萨克语,高棉语,韩语,库尔德语,吉尔吉斯语,老挝语,拉丁语,拉脱维亚语,立陶宛语,卢森堡语,马其顿语,马拉加斯语,马来语,马拉雅拉姆语,马耳他语,毛利语,马拉地语,蒙古语,尼泊尔语,挪威语,普什图语,波斯语,波兰语,葡萄牙语,旁遮普语,罗马尼亚语,俄语,萨摩亚语,苏格兰盖尔语,塞尔维亚语,绍纳语,信德语,僧伽罗语,斯洛伐克语,斯洛文尼亚语,索马里语,南非语,西班牙语,巽他语,斯瓦希里语,瑞典语,塔吉克语,泰米尔语,泰卢固语,泰语,土耳其语,乌克兰语,乌尔都语,乌兹别克语,越南语,威尔士语,弗里斯兰语,科萨语,意第绪语,约鲁巴语,祖鲁语。
注意:UMT5仅在mC4上进行了预训练,不包括任何监督训练。因此,在将该模型用于下游任务之前,必须对其进行微调。
预训练数据集: mC4
其他社区检查点: here
论文: UniMax, Fairer and More Effective Language Sampling for Large-Scale Multilingual Pretraining
作者:Hyung Won Chung、Xavier Garcia、Adam Roberts、Yi Tay、Orhan Firat、Sharan Narang、Noah Constant
预训练的多语言大型语言模型通常使用基于启发式温度的抽样方法,以平衡不同语言。然而,之前的研究没有系统地评估不同预训练语言分布在模型规模方面的有效性。在本文中,我们提出了一种新的抽样方法UniMax,在明确限制每种语言语料库的重复次数的同时,提供更均匀的头部语言覆盖并减轻尾部语言的过拟合。我们在一系列多语言基准测试中进行了广泛的消融测试,同时改变模型规模。我们发现UniMax优于标准的基于温度的抽样方法,并且这种优势在规模增加时持续存在。作为我们的贡献的一部分,我们发布了:(i)一个改进和更新的mC4多语言语料库,涵盖107种语言,总共有29万亿个字符;(ii)使用UniMax抽样训练的一系列预训练umT5模型检查点。