数据集:
sobir-hf/tajik-text-segmentation
该数据集包含塔吉克语文本和句子注释。可以用它来训练和评估逐句文本分割算法。数据集包含100多个短篇和长篇文本,以及3000多个带有注释的句子。这些文本是从不同的类别中精选出来的,包括新闻、文章、小说、经典文本、诗歌和宗教文本。它故意包含更多的“困难”段落,将它们按句号“。”字符进行分割会导致分割效果不好。
除了将连续的空格和换行符减少为一个之外,没有进行任何预处理。这些文本有时格式不良,就像它们是从网上复制粘贴的一样。这可能使训练算法对噪声具有鲁棒性。