模型:
google/umt5-base
UMT5是在更新版本的 mC4 语料库上进行预训练的,涵盖了107种语言:
阿非利卡语,阿尔巴尼亚语,阿姆哈拉语,阿拉伯语,亚美尼亚语,阿塞拜疆语,巴斯克语,白俄罗斯语,孟加拉语,保加利亚语,缅甸语,加泰罗尼亚语,宿务语,奇切瓦语,汉语,科西嘉语,捷克语,丹麦语,荷兰语,英语,世界语,爱沙尼亚语,菲律宾语,芬兰语,法语,加利西亚语,格鲁吉亚语,德语,希腊语,古吉拉特语,海地克里奥尔语,豪萨语,夏威夷语,希伯来语,印地语,苗语,匈牙利语,冰岛语,伊博语,印度尼西亚语,爱尔兰语,意大利语,日语,爪哇语,卡纳达语,哈萨克语,高棉语,韩语,库尔德语,吉尔吉斯语,老挝语,拉丁语,拉脱维亚语,立陶宛语,卢森堡语,马其顿语,马尔加什语,马来语,马拉雅拉姆语,马耳他语,毛利语,马拉地语,蒙古语,尼泊尔语,挪威语,普什图语,波斯语,波兰语,葡萄牙语,旁遮普语,罗马尼亚语,俄语,萨摩亚语,苏格兰盖尔语,塞尔维亚语,绍纳语,信德语,僧伽罗语,斯洛伐克语,斯洛文尼亚语,索马里语,索托语,西班牙语,巽他语,斯瓦希里语,瑞典语,塔吉克语,泰米尔语,泰卢固语,泰语,土耳其语,乌克兰语,乌尔都语,乌兹别克语,越南语,威尔士语,西弗里斯语,科萨语,意第绪语,约鲁巴语,祖鲁语。
注:UMT5只是在不包括任何监督训练的mC4上进行了预训练。因此,在将其用于下游任务之前,需要进行微调。
预训练数据集: mC4
其他社区检查点: here
论文: UniMax, Fairer and More Effective Language Sampling for Large-Scale Multilingual Pretraining
作者:Hyung Won Chung、Xavier Garcia、Adam Roberts、Yi Tay、Orhan Firat、Sharan Narang、Noah Constant
预训练的多语言大型语言模型通常使用启发式的基于温度的采样来平衡不同语言。然而,先前的工作没有系统地评估不同预训练语言分布在模型规模上的功效。在本文中,我们提出了一种新的采样方法UniMax,它通过明确限制每种语言语料库上的重复次数,提供了更均匀的头部语言覆盖,并减轻了尾部语言上的过拟合。我们进行了一系列广泛的去除实验,测试了一系列不同的采样策略,并改变模型规模,使用了一套多语言基准进行了测试。我们发现UniMax优于标准的基于温度的采样,并且这些优势在规模增加时持续存在。作为我们的贡献的一部分,我们发布了:(i)改进和更新的mC4多语言语料库,包括107种语言的29万亿个字符,以及(ii)使用UniMax采样训练的预训练umT5模型检查点。