数据集:
cc_news
语言:
计算机处理:
monolingual大小:
100K<n<1M语言创建人:
found批注创建人:
no-annotation源数据集:
original许可:
CC-News 数据集包含来自世界各地的新闻文章。数据可在 AWS S3 的 Common Crawl 存储桶中的 /crawl-data/CC-NEWS/路径下找到。此版本的数据集是使用 news-please 进行准备的——一个用于新闻的综合网络爬虫和信息提取工具。它包含了2017年1月至2019年12月间发布的708,241篇英语新闻文章。它代表了CC-News数据集中英语子集的一个小部分。
CC-News主要用于语言模型训练。
数据集中的文本是英语。
数据集实例包含文章本身和相关的文章字段。C-New 训练集中的一个示例如下:
{ 'date': '2017-08-14 00:00:00', 'description': '"The spirit of Green Day has always been about rising above oppression."', 'domain': '1041jackfm.cbslocal.com', 'image_url': 'https://cbs1041jackfm.files.wordpress.com/2017/08/billie-joe-armstrong-theo-wargo-getty-images.jpg?w=946', 'text': 'By Abby Hassler\nGreen Day’s Billie Joe Armstrong has always been outspoken about his political beliefs. Following the tragedy in Charlottesville, Virgina, over the weekend, Armstrong felt the need to speak out against the white supremacists who caused much of the violence.\nRelated: Billie Joe Armstrong Wins #TBT with Childhood Studio Photo\n“My heart feels heavy. I feel like what happened in Charlottesville goes beyond the point of anger,” Armstrong wrote on Facebook. “It makes me sad and desperate. shocked. I f—— hate racism more than anything.”\n“The spirit of Green Day has always been about rising above oppression. and sticking up for what you believe in and singing it at the top of your lungs,” Armstrong continued. “We grew up fearing nuclear holocaust because of the cold war. those days are feeling way too relevant these days. these issues are our ugly past.. and now it’s coming to haunt us. always resist these doomsday politicians. and in the words of our punk forefathers .. Nazi punks f— off.”', 'title': 'Green Day’s Billie Joe Armstrong Rails Against White Nationalists', 'url': 'http://1041jackfm.cbslocal.com/2017/08/14/billie-joe-armstrong-white-nationalists/' }
CC-News 数据集只有训练集,因此在加载时需要指定 train 拆分:cc_news = load_dataset('cc_news', split="train")
[需要更多信息]
CC-News 数据集由Sebastian Nagel提出、创建和维护。数据公开可在AWS S3的Common Crawl存储桶中的 /crawl-data/CC-NEWS/ 路径下找到。此版本的数据集是使用 news-please 进行准备的——一个用于新闻的综合网络爬虫和信息提取工具。它包含了2017年1月至2019年12月间发布的708,241篇英语新闻文章。尽管news-please对每篇新闻文章都打上了适当的语言标签,但这些标签不太可靠。为了严格隔离英语文章,还进行了额外的检查,使用 Spacy langdetect pipeline 进行了文章文本字段为英语的概率达到80%或更高的选择。不能严格保证每篇文章都具有所有相关字段。例如,527,595篇文章具有有效的描述字段。所有文章都具有似乎是有效的图片URL,但未经过验证。
数据的源语言制作者是全球各地的新闻网站。
[不适用]
注释者是谁?
[不适用]
数据中包含了当代公众人物或出现在新闻中的个人。
此数据集的目的是帮助语言模型研究人员开发更好的语言模型。
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
@InProceedings{Hamborg2017, author = {Hamborg, Felix and Meuschke, Norman and Breitinger, Corinna and Gipp, Bela}, title = {news-please: A Generic News Crawler and Extractor}, year = {2017}, booktitle = {Proceedings of the 15th International Symposium of Information Science}, location = {Berlin}, doi = {10.5281/zenodo.4120316}, pages = {218--223}, month = {March} }
感谢 @vblagoje 提供了此数据集。