数据集:

mwz/ursum

英文

乌尔都语摘要

数据集概述

乌尔都语摘要数据集包含乌尔都语新闻文章以及它们的摘要。该数据集包含共48071篇新闻文章,从BBC乌尔都语网站收集而来。每篇文章都附带有标题、摘要和全文。

数据集详情

数据集包含以下列:

  • id(字符串):每篇文章的唯一标识符
  • url(字符串):原始文章的URL
  • title(字符串):文章的标题
  • summary(字符串):文章的摘要
  • text(字符串):文章的全文该数据集按照MIT许可证分发。

数据收集

使用网络爬虫技术从BBC乌尔都语网站收集了数据。这些文章发布于2003年至2020年之间,涵盖了政治、体育、技术和娱乐等广泛的主题。

数据预处理

对文本数据进行了预处理,以删除任何HTML标签和非乌尔都语字符。摘要由人工标注者创建,他们阅读文章的全文并总结主要内容。数据集被分为训练、验证和测试集,其中每个集合分别占据80%、10%和10%的数据。

潜在用途

该数据集可用于训练和评估乌尔都语文本自动摘要模型。它还可用于自然语言处理、机器学习和信息检索等领域的研究。

致谢

感谢BBC乌尔都语团队在其网站上发布新闻文章并公开提供。我们还要感谢创建文章摘要的人工标注者。

相关论文

尚未发表使用该数据集的论文。

许可证

该数据集按照MIT许可证分发。