sobir-hf/tajik-text-segmentation | ATYUN.COM 官网-人工智能教程资讯全方位服务平台

数据集:

sobir-hf/tajik-text-segmentation

任务:

特征提取

语言:

大小:

1K<n<10K

其他:

text_segmentaion nlp tg

许可:

apache-2.0

数据集介绍文件清单

英文

该数据集包含塔吉克语文本和句子注释。可以用它来训练和评估逐句文本分割算法。数据集包含100多个短篇和长篇文本，以及3000多个带有注释的句子。这些文本是从不同的类别中精选出来的，包括新闻、文章、小说、经典文本、诗歌和宗教文本。它故意包含更多的“困难”段落，将它们按句号“。”字符进行分割会导致分割效果不好。

除了将连续的空格和换行符减少为一个之外，没有进行任何预处理。这些文本有时格式不良，就像它们是从网上复制粘贴的一样。这可能使训练算法对噪声具有鲁棒性。

作者:

sobir-hf

数据集大小:

1.15 MB