乌尔都语摘要数据集包含乌尔都语新闻文章以及它们的摘要。该数据集包含共48071篇新闻文章,从BBC乌尔都语网站收集而来。每篇文章都附带有标题、摘要和全文。
数据集包含以下列:
使用网络爬虫技术从BBC乌尔都语网站收集了数据。这些文章发布于2003年至2020年之间,涵盖了政治、体育、技术和娱乐等广泛的主题。
对文本数据进行了预处理,以删除任何HTML标签和非乌尔都语字符。摘要由人工标注者创建,他们阅读文章的全文并总结主要内容。数据集被分为训练、验证和测试集,其中每个集合分别占据80%、10%和10%的数据。
该数据集可用于训练和评估乌尔都语文本自动摘要模型。它还可用于自然语言处理、机器学习和信息检索等领域的研究。
感谢BBC乌尔都语团队在其网站上发布新闻文章并公开提供。我们还要感谢创建文章摘要的人工标注者。
尚未发表使用该数据集的论文。
该数据集按照MIT许可证分发。