数据集:

thaisum

任务:

摘要生成

文本生成

填充掩码

子任务:

language-modeling masked-language-modeling

语言:

计算机处理:

monolingual

大小:

100K<n<1M

语言创建人:

found

批注创建人:

no-annotation

源数据集:

original

许可:

mit

数据集介绍文件清单

英文

ThaiSum 数据集卡

数据集概要

ThaiSum 是一个用于泰语文本摘要的大规模语料库，该语料库从几个在线新闻网站（包括Thairath、ThaiPBS、Prachathai和The Standard）获得。该数据集包含由记者撰写的超过35万篇文章和摘要对。

支持的任务和排行榜

摘要，语言模型

语言

泰语

数据集结构

数据实例

{'body': 'กีเก ซานเชซ ฟลอเรส\xa0 กุนซือเลือดกระทิงของทีมวัตฟอร์ด\xa0 เมินประเด็นจุดโทษปัญหาในเกมพรีเมียร์ลีก อังกฤษ นัดที่แตนอาละวาดเปิดบ้านพ่าย คริสตัล พาเลซ 0-1ชี้ทีมของเขาเล่นไม่ดีพอเอง,สำนักข่าวต่างประเทศรายงานวันที่ 27 ก.ย. ว่า กีเก ซานเชซ ฟลอเรส\xa0 ผู้จัดการทีมชาวสเปน ของ แตนอาละวาด วัตฟอร์ด\xa0 ยอมรับทีมของเขาเล่นได้ไม่ดีพอเอง ในเกมพรีเมียร์ลีก อังกฤษ นัดเปิดบ้านพ่าย อินทรีผงาด คริสตัล พาเลซ 0-1 เมื่อคืนวันอาทิตย์ที่ผ่านมา,เกมนี้จุดเปลี่ยนมาอยู่ที่การได้จุดโทษในช่วงครึ่งหลังของ คริสตัล พาเลซ ซึ่งไม่ค่อยชัดเจนเท่าไหร่ว่า อัลลัน นียอม นั้นไปทำฟาล์วใส่ วิลฟรีด ซาฮา ในเขตโทษหรือไม่ แต่ผู้ตัดสินก็ชี้เป็นจุดโทษ ซึ่ง โยอัน กาบาย สังหารไม่พลาด และเป็นประตูชัยช่วยให้ คริสตัล พาเลซ เอาชนะ วัตฟอร์ด ไป 1-0 และเป็นการพ่ายแพ้ในบ้านนัดแรกของวัตฟอร์ดในฤดูกาลนี้อีกด้วย,ฟลอเรส กล่าวว่า มันเป็นเรื่องยากในการหยุดเกมรุกของคริสตัล พาเลซ ซึ่งมันอึดอัดจริงๆสำหรับเรา เราเล่นกันได้ไม่ดีนักในตอนที่ได้ครองบอล เราต้องเล่นทางริมเส้นให้มากกว่านี้ เราไม่สามารถหยุดเกมสวนกลับของพวกเขาได้ และแนวรับของเราก็ยืนไม่เป็นระเบียบสักเท่าไหร่ในช่วงครึ่งแรก ส่วนเรื่องจุดโทษการตัดสินใจขั้นสุดท้ายมันอยู่ที่ผู้ตัดสิน ซึ่งมันเป็นการตัดสินใจที่สำคัญ ผมเองก็ไม่รู้ว่าเขาตัดสินถูกหรือเปล่า บางทีมันอาจเป็นจุดที่ตัดสินเกมนี้เลย แต่เราไม่ได้แพ้เกมนี้เพราะจุดโทษ เราแพ้ในวันนี้เพราะเราเล่นไม่ดีและคริสตัล พาเลซ เล่นดีกว่าเรา เราไม่ได้มีฟอร์มการเล่นที่ดีในเกมนี้เลย', 'summary': 'กีเก ซานเชซ ฟลอเรส  กุนซือเลือดกระทิงของทีมวัตฟอร์ด  เมินประเด็นจุดโทษปัญหาในเกมพรีเมียร์ลีก อังกฤษ นัดที่แตนอาละวาดเปิดบ้านพ่าย คริสตัล พาเลซ 0-1ชี้ทีมของเขาเล่นไม่ดีพอเอง', 'tags': 'พรีเมียร์ลีก,วัตฟอร์ด,คริสตัล พาเลซ,กีเก ซานเชซ ฟลอเรส,ข่าวกีฬา,ข่าว,ไทยรัฐออนไลน์', 'title': 'ฟลอเรส รับ วัตฟอร์ดห่วยเองเกมพ่ายพาเลซคาบ้าน', 'type': '', 'url': 'https://www.thairath.co.th/content/528322'}

数据字段

标题：文章标题
主体：文章正文
摘要：文章摘要
类型：文章类型，如果有的话
标签：文章的标签，用逗号分隔
URL：文章的URL

数据拆分

训练/验证/测试：358,868 / 11,000 / 11,000

数据集创建

策划理由

序列到序列（Seq2Seq）模型在文本摘要中取得了很大的成就。然而，Seq2Seq 模型通常需要大规模的训练数据才能达到有效的结果。虽然在文本摘要领域已经取得了许多令人印象深刻的进展，但大多数摘要研究集中在资源丰富的语言上。泰语文本摘要的进展仍然远远落后。缺乏大规模的数据集使得泰语文本摘要仍处于初级阶段。据我们所知，目前还没有可用于泰语文本摘要的大规模数据集。因此，我们提供了 ThaiSum，这是一个从几个在线新闻网站（包括Thairath、ThaiPBS、Prachathai和The Standard）获取的泰语文本摘要的大规模语料库。

数据来源

初始数据收集和规范化

我们使用一个名为 Scrapy 的 Python 库从几个新闻网站（包括Thairath、Prachatai、ThaiPBS和The Standard）抓取文章。我们首先收集了它们网站地图中提供的新闻URL。在进行网络爬取时，我们使用HTML页面中提供的HTML标记和元数据来识别文章文本、摘要、标题、标签和标签。收集的文章发布日期从2014年到2020年8月。我们进一步进行了数据清洗，以减少噪音数据。我们过滤掉文章文本或摘要缺失的文章。删除了文章文本少于150个字或摘要少于15个字的文章。我们还丢弃了包含以下至少一种标签的文章：‘ดวง’（占星术），‘นิยาย’（小说），‘อินสตราแกรมดารา’（名人的 Instagram），‘คลิปสุดฮา’（搞笑视频）和‘สรุปข่าว’（要闻）。有些摘要与原始文章完全不相关。为了消除这些无关的摘要，我们计算了摘要与其文章文本之间的抽象程度评分。抽象程度评分的形式化写法如下：

$\begin{equation} \frac{|S-A|}{r} \times 100 \end{equation}$ 其中 ? 表示文章词汇的集合，? 表示摘要词汇的集合，? 表示摘要的总词汇数。我们省略了抽象度评分在1-gram中高于60%的文章。

需要指出的是，我们在这项研究中使用了 PyThaiNLP ，版本2.2.4，分词引擎 = newmm 来处理泰语文本。将连续的泰语文本进行分词是具有挑战性的，因为泰语中没有清晰的词/句子分隔符。因此，使用不同的分词引擎可能导致不同的词/句子分割。

经过数据清洗的过程后，ThaiSum 数据集包含超过35.8万篇文章。该数据集的规模与著名的英文文档摘要数据集 CNN/Daily Mail 数据集相当。此外，我们通过测量抽象性水平、比较率和内容多样性来分析该数据集的特征。详情请参阅 thaisum_exploration.ipynb 。

数据集统计

ThaiSum 数据集包含 358,868 篇文章。文章文本和摘要的平均长度分别约为 530 和 37 个词。如前所述，我们还收集了每篇文章中提供的标题、标签和标签。标签类似于文章的关键词。一篇文章通常包含多个标签，但很少有标签。标签可以是文章所涉及的地点或人物的名称，而标签则表示新闻类别（政治、娱乐等）。最终，ThaiSum 包含538,059个唯一标签和59个唯一标签。注意，并非每篇文章都包含标签或标签。

Dataset Size	358,868	articles
Avg. Article Length	529.5	words
Avg. Summary Length	37.3	words
Avg. Headline Length	12.6	words
Unique Vocabulary Size	407,355	words
Occurring > 10 times	81,761	words
Unique News Tag Size	538,059	tags
Unique News Label Size	59	labels

谁是源语言的生产者？

各文章的记者

标注

标注过程

摘要、类型和标签是由撰写文章的记者和/或他们的出版商创建的。

标注者是谁？

摘要、类型和标签是由撰写文章的记者和/或他们的出版商创建的。

个人和敏感信息

所有数据均为公开新闻文章，不应包含个人和敏感信息。

使用数据的注意事项

数据集的社会影响

泰语新闻的摘要
用于泰语新闻的语言建模

偏见讨论

ThaiPBS receives funding from Thai government 。
Thairath 是 the most popular newspaper in Thailand 的别名，没有明确的政治倾向。
The Standard 是一个左倾的在线杂志。
Prachathai 是一个左倾、关注人权的新闻网站。

其他已知限制

[需要更多信息]

其他信息

数据集维护者

@nakhunchumpolsathien @caramelWaffle

许可信息

MIT许可证

引用信息

@mastersthesis{chumpolsathien_2020,
    title={Using Knowledge Distillation from Keyword Extraction to Improve the Informativeness of Neural Cross-lingual Summarization},
    author={Chumpolsathien, Nakhun},
    year={2020},
    school={Beijing Institute of Technology}

贡献

感谢 @cstorm125 提供此数据集。

作者:

佚名

数据集大小:

19.95 KB