数据集:

thaisum

英文

ThaiSum 数据集卡

数据集概要

ThaiSum 是一个用于泰语文本摘要的大规模语料库,该语料库从几个在线新闻网站(包括Thairath、ThaiPBS、Prachathai和The Standard)获得。该数据集包含由记者撰写的超过35万篇文章和摘要对。

支持的任务和排行榜

摘要,语言模型

语言

泰语

数据集结构

数据实例

{'body': 'กีเก ซานเชซ ฟลอเรส\xa0 กุนซือเลือดกระทิงของทีมวัตฟอร์ด\xa0 เมินประเด็นจุดโทษปัญหาในเกมพรีเมียร์ลีก อังกฤษ นัดที่แตนอาละวาดเปิดบ้านพ่าย คริสตัล พาเลซ 0-1ชี้ทีมของเขาเล่นไม่ดีพอเอง,สำนักข่าวต่างประเทศรายงานวันที่ 27 ก.ย. ว่า กีเก ซานเชซ ฟลอเรส\xa0 ผู้จัดการทีมชาวสเปน ของ แตนอาละวาด วัตฟอร์ด\xa0 ยอมรับทีมของเขาเล่นได้ไม่ดีพอเอง ในเกมพรีเมียร์ลีก อังกฤษ นัดเปิดบ้านพ่าย อินทรีผงาด คริสตัล พาเลซ 0-1 เมื่อคืนวันอาทิตย์ที่ผ่านมา,เกมนี้จุดเปลี่ยนมาอยู่ที่การได้จุดโทษในช่วงครึ่งหลังของ คริสตัล พาเลซ ซึ่งไม่ค่อยชัดเจนเท่าไหร่ว่า อัลลัน นียอม นั้นไปทำฟาล์วใส่ วิลฟรีด ซาฮา ในเขตโทษหรือไม่ แต่ผู้ตัดสินก็ชี้เป็นจุดโทษ ซึ่ง โยอัน กาบาย สังหารไม่พลาด และเป็นประตูชัยช่วยให้ คริสตัล พาเลซ เอาชนะ วัตฟอร์ด ไป 1-0 และเป็นการพ่ายแพ้ในบ้านนัดแรกของวัตฟอร์ดในฤดูกาลนี้อีกด้วย,ฟลอเรส กล่าวว่า มันเป็นเรื่องยากในการหยุดเกมรุกของคริสตัล พาเลซ ซึ่งมันอึดอัดจริงๆสำหรับเรา เราเล่นกันได้ไม่ดีนักในตอนที่ได้ครองบอล เราต้องเล่นทางริมเส้นให้มากกว่านี้ เราไม่สามารถหยุดเกมสวนกลับของพวกเขาได้ และแนวรับของเราก็ยืนไม่เป็นระเบียบสักเท่าไหร่ในช่วงครึ่งแรก ส่วนเรื่องจุดโทษการตัดสินใจขั้นสุดท้ายมันอยู่ที่ผู้ตัดสิน ซึ่งมันเป็นการตัดสินใจที่สำคัญ ผมเองก็ไม่รู้ว่าเขาตัดสินถูกหรือเปล่า บางทีมันอาจเป็นจุดที่ตัดสินเกมนี้เลย แต่เราไม่ได้แพ้เกมนี้เพราะจุดโทษ เราแพ้ในวันนี้เพราะเราเล่นไม่ดีและคริสตัล พาเลซ เล่นดีกว่าเรา เราไม่ได้มีฟอร์มการเล่นที่ดีในเกมนี้เลย', 'summary': 'กีเก ซานเชซ ฟลอเรส  กุนซือเลือดกระทิงของทีมวัตฟอร์ด  เมินประเด็นจุดโทษปัญหาในเกมพรีเมียร์ลีก อังกฤษ นัดที่แตนอาละวาดเปิดบ้านพ่าย คริสตัล พาเลซ 0-1ชี้ทีมของเขาเล่นไม่ดีพอเอง', 'tags': 'พรีเมียร์ลีก,วัตฟอร์ด,คริสตัล พาเลซ,กีเก ซานเชซ ฟลอเรส,ข่าวกีฬา,ข่าว,ไทยรัฐออนไลน์', 'title': 'ฟลอเรส รับ วัตฟอร์ดห่วยเองเกมพ่ายพาเลซคาบ้าน', 'type': '', 'url': 'https://www.thairath.co.th/content/528322'}

数据字段

  • 标题:文章标题
  • 主体:文章正文
  • 摘要:文章摘要
  • 类型:文章类型,如果有的话
  • 标签:文章的标签,用逗号分隔
  • URL:文章的URL

数据拆分

训练/验证/测试:358,868 / 11,000 / 11,000

数据集创建

策划理由

序列到序列(Seq2Seq)模型在文本摘要中取得了很大的成就。然而,Seq2Seq 模型通常需要大规模的训练数据才能达到有效的结果。虽然在文本摘要领域已经取得了许多令人印象深刻的进展,但大多数摘要研究集中在资源丰富的语言上。泰语文本摘要的进展仍然远远落后。缺乏大规模的数据集使得泰语文本摘要仍处于初级阶段。据我们所知,目前还没有可用于泰语文本摘要的大规模数据集。因此,我们提供了 ThaiSum,这是一个从几个在线新闻网站(包括Thairath、ThaiPBS、Prachathai和The Standard)获取的泰语文本摘要的大规模语料库。

数据来源

初始数据收集和规范化

我们使用一个名为 Scrapy 的 Python 库从几个新闻网站(包括Thairath、Prachatai、ThaiPBS和The Standard)抓取文章。我们首先收集了它们网站地图中提供的新闻URL。在进行网络爬取时,我们使用HTML页面中提供的HTML标记和元数据来识别文章文本、摘要、标题、标签和标签。收集的文章发布日期从2014年到2020年8月。我们进一步进行了数据清洗,以减少噪音数据。我们过滤掉文章文本或摘要缺失的文章。删除了文章文本少于150个字或摘要少于15个字的文章。我们还丢弃了包含以下至少一种标签的文章:‘ดวง’(占星术),‘นิยาย’(小说),‘อินสตราแกรมดารา’(名人的 Instagram),‘คลิปสุดฮา’(搞笑视频)和‘สรุปข่าว’(要闻)。有些摘要与原始文章完全不相关。为了消除这些无关的摘要,我们计算了摘要与其文章文本之间的抽象程度评分。抽象程度评分的形式化写法如下:

其中 ? 表示文章词汇的集合,? 表示摘要词汇的集合,? 表示摘要的总词汇数。我们省略了抽象度评分在1-gram中高于60%的文章。

需要指出的是,我们在这项研究中使用了 PyThaiNLP ,版本2.2.4,分词引擎 = newmm 来处理泰语文本。将连续的泰语文本进行分词是具有挑战性的,因为泰语中没有清晰的词/句子分隔符。因此,使用不同的分词引擎可能导致不同的词/句子分割。

经过数据清洗的过程后,ThaiSum 数据集包含超过35.8万篇文章。该数据集的规模与著名的英文文档摘要数据集 CNN/Daily Mail 数据集相当。此外,我们通过测量抽象性水平、比较率和内容多样性来分析该数据集的特征。详情请参阅 thaisum_exploration.ipynb

数据集统计

ThaiSum 数据集包含 358,868 篇文章。文章文本和摘要的平均长度分别约为 530 和 37 个词。如前所述,我们还收集了每篇文章中提供的标题、标签和标签。标签类似于文章的关键词。一篇文章通常包含多个标签,但很少有标签。标签可以是文章所涉及的地点或人物的名称,而标签则表示新闻类别(政治、娱乐等)。最终,ThaiSum 包含538,059个唯一标签和59个唯一标签。注意,并非每篇文章都包含标签或标签。

Dataset Size 358,868 articles
Avg. Article Length 529.5 words
Avg. Summary Length 37.3 words
Avg. Headline Length 12.6 words
Unique Vocabulary Size 407,355 words
Occurring > 10 times 81,761 words
Unique News Tag Size 538,059 tags
Unique News Label Size 59 labels
谁是源语言的生产者?

各文章的记者

标注

标注过程

摘要、类型和标签是由撰写文章的记者和/或他们的出版商创建的。

标注者是谁?

摘要、类型和标签是由撰写文章的记者和/或他们的出版商创建的。

个人和敏感信息

所有数据均为公开新闻文章,不应包含个人和敏感信息。

使用数据的注意事项

数据集的社会影响

  • 泰语新闻的摘要
  • 用于泰语新闻的语言建模

偏见讨论

其他已知限制

[需要更多信息]

其他信息

数据集维护者

@nakhunchumpolsathien @caramelWaffle

许可信息

MIT许可证

引用信息

@mastersthesis{chumpolsathien_2020,
    title={Using Knowledge Distillation from Keyword Extraction to Improve the Informativeness of Neural Cross-lingual Summarization},
    author={Chumpolsathien, Nakhun},
    year={2020},
    school={Beijing Institute of Technology}

贡献

感谢 @cstorm125 提供此数据集。