模型:

s-nlp/rubert-base-corruption-detector

英文

这是一个用于评估俄文短文本自然度的模型。它经过训练,可以区分人工编写的文本和其损坏版本。

损坏来源:随机替换、删除、添加、重组和复词,随机更改大写字母,往返翻译,使用T5和RoBERTA模型在随机位置填充。对于每个原始文本,我们采样了三个损坏的文本,因此该模型对非自然标签有均匀偏见。

数据来源:来自 the Leipzig collection (rus_news_2020_100K,rus_newscrawl-public_2018_100K,rus-ru_web-public_2019_100K,rus_wikipedia_2021_100K)的网络语料库,来自 OK Pikabu 的评论。

在我们的私有测试数据集上,该模型与人类对自然度的评判达到了40%的排名相关性,高于另一个流利度指标——GPT困惑度。