模型:
Naveen-k/KanBERTo
这是一个使用 Kannada 种语言训练的小型语言模型,其中使用了来自 OSCAR page 的100万个数据样本。
数据集 - 训练此模型使用了来自OSCAR页面( https://traces1.inria.fr/oscar/ )的100万个数据样本,尽管数据集达到1.7GB,但由于资源限制,只选择了100万个数据样本进行训练。如果您有兴趣合作并且拥有计算资源进行训练,欢迎这样做。
预处理 - 使用ByteLevelBPETokenizer对句子进行字符级分词处理,词汇量大小设置为52k,符合?给出的标准值。
超参数 - ByteLevelBPETokenizer: 词汇量大小=52,000,最小频率=2 Trainer: num_train_epochs=12-训练12个epochs per_gpu_train_batch_size=64-数据样本的批量大小为64 save_steps=10_000-每10k步保存一次模型 save_total_limit=2-保存模型的限制为2
预期用途和限制 - 该模型适用于任何希望在卡纳达语上进行语言生成、翻译等各种任务的人。
其他有用信息!如果您有兴趣合作,请随时与我联系Naveen