数据集:

pn_summary

英文

Persian News Summary (pn_summary) 数据集卡片

数据集概述

这个为波斯语提供了一个良好结构的摘要数据集,包含93,207个记录。该数据集为摘要/提取任务(例如英语中的cnn_dailymail)做了准备。也可用于其他任务,如文本生成、标题生成和新闻分类。请注意,换行符已替换为[n]符号。请将其解释为普通换行符(例如t.replace("[n]", "\n")),然后再使用它们。

支持的任务和排行榜

该数据集准备用于摘要/提取任务(例如英语中的cnn_dailymail)。也可用于其他任务,如文本生成、标题生成和新闻分类。

语言

该数据集主要涵盖波斯语,有些地方与英语混合。

数据集结构

数据实例

一个记录包含8个特征:

record = ['id','title', 'article', 'summary', 'category', 'categories', 'network', 'link']

接下来是pn_summary的一个例子。

{
    "article": "به گزارش شانا، علی کاردر امروز (۲۷ دی ماه) در مراسم تودیع محسن قمصری، مدیر سابق امور بین الملل شرکت ملی نفت ایران و معارفه سعید خوشرو، مدیر جدید امور بین الملل این شرکت، گفت: مدیریت امور بین\u200eالملل به عنوان یکی از تاثیرگذارترین مدیریت\u200cهای شرکت ملی نفت ایران در دوران تحریم\u200cهای ظالمانه غرب علیه کشورمان بسیار هوشمندانه عمل کرد و ما توانستیم به خوبی از عهده تحریم\u200cها برآییم. [n] وی افزود: مجموعه امور بین الملل در همه دوران\u200cها با سختی\u200cها و مشکلات بسیاری مواجه بوده است، به ویژه در دوره اخیر به دلیل مسائل پیرامون تحریم وظیفه سنگینی بر عهده داشت که با تدبیر مدیریت خوب این مجموعه سربلند از آن بیرون آمد. [n] کاردر با قدردانی از زحمات محسن قمصری، به سلامت مدیریت امور بین الملل این شرکت اشاره کرد و افزود: محوریت کار مدیریت اموربین الملل سلامت مالی بوده است. [n] وی بر ضرورت نهادینه سازی جوانگرایی در مدیریت شرکت ملی نفت ایران تاکید کرد و گفت: مدیریت امور بین الملل در پرورش نیروهای زبده و کارآزموده آنچنان قوی عملکرده است که برای انتخاب مدیر جدید مشکلی وجود نداشت. [n] کاردر، حرفه\u200eای\u200eگری و کار استاندارد را از ویژگی\u200cهای مدیران این مدیریت برشمرد و گفت: نگاه جامع، خلاقیت و نوآوری و بکارگیری نیروهای جوان باید همچنان مد نظر مدیریت جدید امور بین الملل شرکت ملی نفت ایران باشد.",
    "categories": "نفت",
    "category": 5,
    "id": "738e296491f8b24c5aa63e9829fd249fb4428a66",
    "link": "https://www.shana.ir/news/275284/%D9%85%D8%AF%DB%8C%D8%B1%DB%8C%D8%AA-%D9%81%D8%B1%D9%88%D8%B4-%D9%86%D9%81%D8%AA-%D8%AF%D8%B1-%D8%AF%D9%88%D8%B1%D8%A7%D9%86-%D8%AA%D8%AD%D8%B1%DB%8C%D9%85-%D9%87%D9%88%D8%B4%D9%85%D9%86%D8%AF%D8%A7%D9%86%D9%87-%D8%B9%D9%85%D9%84-%DA%A9%D8%B1%D8%AF",
    "network": 2,
    "summary": "مدیرعامل شرکت ملی نفت، عملکرد مدیریت امور بین\u200eالملل این شرکت را در دوران تحریم بسیار هوشمندانه خواند و گفت: امور بین الملل در دوران پس از تحریم\u200eها نیز می\u200cتواند نقش بزرگی در تسریع روند توسعه داشته باشد.",
    "title": "مدیریت فروش نفت در دوران تحریم هوشمندانه عمل کرد"
}

数据字段

  • id (string) : 新闻的ID。
  • title (string) : 新闻的标题。
  • article (string) : 新闻的文章内容。
  • summary (string) : 新闻的摘要。
  • category (int) : 新闻的英文类别(类别的索引),包括经济、道路城市、银行保险、农业、国际、石油能源、工业、交通、科学技术、当地、体育、政治、艺术文化、社会、健康、研究、教育大学、旅游。
  • categories (string) : 新闻的波斯语类别和子类别。
  • network (int) : 新闻机构的名称(新闻机构的索引),包括Tahlilbazaar、Imna、Shana、Mehr、Irna、Khabaronline。
  • link (string) : 新闻的链接。

英文类别包括从经济到旅游的18个不同的文章类别。

Economy, Roads-Urban, Banking-Insurance, Agriculture, International, Oil-Energy, Industry, Transportation, Science-Technology, Local, Sports, Politics, Art-Culture, Society, Health, Research, Education-University, Tourism

数据集切分

训练集(82,022条记录,8个特征),验证集(5,592条记录,8个特征)和测试集(5,593条记录,8个特征)。

数据集创建

策划理由

[需要更多信息]

源数据

初始数据收集和规范化

[需要更多信息]

谁是源语言的生成者?

该数据集包含了从六个新闻机构网站(Tahlilbazaar、Imna、Shana、Mehr、Irna、Khabaronline)中爬取的大量各类文章。

注释

注释流程

每个记录(文章)包括长篇原文和人工生成的摘要。清理过的文章总数为93,207篇(从200,000篇爬取的文章中)。

注释者是谁?

这个数据集是由 Mehrdad Farahani Mohammad Gharachorloo Mohammad Manthouri 为这篇论文组织的。

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

这个数据集是由 Mehrdad Farahani Mohammad Gharachorloo Mohammad Manthouri 策划的。

许可信息

这个数据集使用 MIT 许可证。

引用信息

@article{pnSummary,
  title={Leveraging ParsBERT and Pretrained mT5 for Persian Abstractive Text Summarization}, 
  author={Mehrdad Farahani, Mohammad Gharachorloo, Mohammad Manthouri},
  year={2020},
  eprint={2012.11204},
  archivePrefix={arXiv},
  primaryClass={cs.CL}
}

贡献者

感谢 @m3hrdadfi 添加了这个数据集。