数据集:
thaisum
ThaiSum 是一个用于泰语文本摘要的大规模语料库,该语料库从几个在线新闻网站(包括Thairath、ThaiPBS、Prachathai和The Standard)获得。该数据集包含由记者撰写的超过35万篇文章和摘要对。
摘要,语言模型
泰语
{'body': 'กีเก ซานเชซ ฟลอเรส\xa0 กุนซือเลือดกระทิงของทีมวัตฟอร์ด\xa0 เมินประเด็นจุดโทษปัญหาในเกมพรีเมียร์ลีก อังกฤษ นัดที่แตนอาละวาดเปิดบ้านพ่าย คริสตัล พาเลซ 0-1ชี้ทีมของเขาเล่นไม่ดีพอเอง,สำนักข่าวต่างประเทศรายงานวันที่ 27 ก.ย. ว่า กีเก ซานเชซ ฟลอเรส\xa0 ผู้จัดการทีมชาวสเปน ของ แตนอาละวาด วัตฟอร์ด\xa0 ยอมรับทีมของเขาเล่นได้ไม่ดีพอเอง ในเกมพรีเมียร์ลีก อังกฤษ นัดเปิดบ้านพ่าย อินทรีผงาด คริสตัล พาเลซ 0-1 เมื่อคืนวันอาทิตย์ที่ผ่านมา,เกมนี้จุดเปลี่ยนมาอยู่ที่การได้จุดโทษในช่วงครึ่งหลังของ คริสตัล พาเลซ ซึ่งไม่ค่อยชัดเจนเท่าไหร่ว่า อัลลัน นียอม นั้นไปทำฟาล์วใส่ วิลฟรีด ซาฮา ในเขตโทษหรือไม่ แต่ผู้ตัดสินก็ชี้เป็นจุดโทษ ซึ่ง โยอัน กาบาย สังหารไม่พลาด และเป็นประตูชัยช่วยให้ คริสตัล พาเลซ เอาชนะ วัตฟอร์ด ไป 1-0 และเป็นการพ่ายแพ้ในบ้านนัดแรกของวัตฟอร์ดในฤดูกาลนี้อีกด้วย,ฟลอเรส กล่าวว่า มันเป็นเรื่องยากในการหยุดเกมรุกของคริสตัล พาเลซ ซึ่งมันอึดอัดจริงๆสำหรับเรา เราเล่นกันได้ไม่ดีนักในตอนที่ได้ครองบอล เราต้องเล่นทางริมเส้นให้มากกว่านี้ เราไม่สามารถหยุดเกมสวนกลับของพวกเขาได้ และแนวรับของเราก็ยืนไม่เป็นระเบียบสักเท่าไหร่ในช่วงครึ่งแรก ส่วนเรื่องจุดโทษการตัดสินใจขั้นสุดท้ายมันอยู่ที่ผู้ตัดสิน ซึ่งมันเป็นการตัดสินใจที่สำคัญ ผมเองก็ไม่รู้ว่าเขาตัดสินถูกหรือเปล่า บางทีมันอาจเป็นจุดที่ตัดสินเกมนี้เลย แต่เราไม่ได้แพ้เกมนี้เพราะจุดโทษ เราแพ้ในวันนี้เพราะเราเล่นไม่ดีและคริสตัล พาเลซ เล่นดีกว่าเรา เราไม่ได้มีฟอร์มการเล่นที่ดีในเกมนี้เลย', 'summary': 'กีเก ซานเชซ ฟลอเรส กุนซือเลือดกระทิงของทีมวัตฟอร์ด เมินประเด็นจุดโทษปัญหาในเกมพรีเมียร์ลีก อังกฤษ นัดที่แตนอาละวาดเปิดบ้านพ่าย คริสตัล พาเลซ 0-1ชี้ทีมของเขาเล่นไม่ดีพอเอง', 'tags': 'พรีเมียร์ลีก,วัตฟอร์ด,คริสตัล พาเลซ,กีเก ซานเชซ ฟลอเรส,ข่าวกีฬา,ข่าว,ไทยรัฐออนไลน์', 'title': 'ฟลอเรส รับ วัตฟอร์ดห่วยเองเกมพ่ายพาเลซคาบ้าน', 'type': '', 'url': 'https://www.thairath.co.th/content/528322'}
训练/验证/测试:358,868 / 11,000 / 11,000
序列到序列(Seq2Seq)模型在文本摘要中取得了很大的成就。然而,Seq2Seq 模型通常需要大规模的训练数据才能达到有效的结果。虽然在文本摘要领域已经取得了许多令人印象深刻的进展,但大多数摘要研究集中在资源丰富的语言上。泰语文本摘要的进展仍然远远落后。缺乏大规模的数据集使得泰语文本摘要仍处于初级阶段。据我们所知,目前还没有可用于泰语文本摘要的大规模数据集。因此,我们提供了 ThaiSum,这是一个从几个在线新闻网站(包括Thairath、ThaiPBS、Prachathai和The Standard)获取的泰语文本摘要的大规模语料库。
我们使用一个名为 Scrapy 的 Python 库从几个新闻网站(包括Thairath、Prachatai、ThaiPBS和The Standard)抓取文章。我们首先收集了它们网站地图中提供的新闻URL。在进行网络爬取时,我们使用HTML页面中提供的HTML标记和元数据来识别文章文本、摘要、标题、标签和标签。收集的文章发布日期从2014年到2020年8月。我们进一步进行了数据清洗,以减少噪音数据。我们过滤掉文章文本或摘要缺失的文章。删除了文章文本少于150个字或摘要少于15个字的文章。我们还丢弃了包含以下至少一种标签的文章:‘ดวง’(占星术),‘นิยาย’(小说),‘อินสตราแกรมดารา’(名人的 Instagram),‘คลิปสุดฮา’(搞笑视频)和‘สรุปข่าว’(要闻)。有些摘要与原始文章完全不相关。为了消除这些无关的摘要,我们计算了摘要与其文章文本之间的抽象程度评分。抽象程度评分的形式化写法如下:
其中 ? 表示文章词汇的集合,? 表示摘要词汇的集合,? 表示摘要的总词汇数。我们省略了抽象度评分在1-gram中高于60%的文章。需要指出的是,我们在这项研究中使用了 PyThaiNLP ,版本2.2.4,分词引擎 = newmm 来处理泰语文本。将连续的泰语文本进行分词是具有挑战性的,因为泰语中没有清晰的词/句子分隔符。因此,使用不同的分词引擎可能导致不同的词/句子分割。
经过数据清洗的过程后,ThaiSum 数据集包含超过35.8万篇文章。该数据集的规模与著名的英文文档摘要数据集 CNN/Daily Mail 数据集相当。此外,我们通过测量抽象性水平、比较率和内容多样性来分析该数据集的特征。详情请参阅 thaisum_exploration.ipynb 。
数据集统计ThaiSum 数据集包含 358,868 篇文章。文章文本和摘要的平均长度分别约为 530 和 37 个词。如前所述,我们还收集了每篇文章中提供的标题、标签和标签。标签类似于文章的关键词。一篇文章通常包含多个标签,但很少有标签。标签可以是文章所涉及的地点或人物的名称,而标签则表示新闻类别(政治、娱乐等)。最终,ThaiSum 包含538,059个唯一标签和59个唯一标签。注意,并非每篇文章都包含标签或标签。
Dataset Size | 358,868 | articles |
---|---|---|
Avg. Article Length | 529.5 | words |
Avg. Summary Length | 37.3 | words |
Avg. Headline Length | 12.6 | words |
Unique Vocabulary Size | 407,355 | words |
Occurring > 10 times | 81,761 | words |
Unique News Tag Size | 538,059 | tags |
Unique News Label Size | 59 | labels |
各文章的记者
摘要、类型和标签是由撰写文章的记者和/或他们的出版商创建的。
标注者是谁?摘要、类型和标签是由撰写文章的记者和/或他们的出版商创建的。
所有数据均为公开新闻文章,不应包含个人和敏感信息。
[需要更多信息]
@nakhunchumpolsathien @caramelWaffle
MIT许可证
@mastersthesis{chumpolsathien_2020, title={Using Knowledge Distillation from Keyword Extraction to Improve the Informativeness of Neural Cross-lingual Summarization}, author={Chumpolsathien, Nakhun}, year={2020}, school={Beijing Institute of Technology}
感谢 @cstorm125 提供此数据集。