数据集:
zeusfsx/ukrainian-news
这是从各个乌克兰网站和Telegram频道下载的新闻文章数据集。
数据集包含22,567,099个JSON对象(新闻),总大小约为67GB,每个对象具有以下字段:
title: The title of the news article text: The text of the news article, which may contain HTML tags(e.g., paragraphs, links, images, etc.) url: The URL of the news article datetime: The time of publication or when the article was parsed and added to the dataset owner: The name of the website that published the news article
网站新闻数量:16,022,416个
Telegram帖子数量:6,544,683个
JSON对象分为多个部分,并且数据集可以通过Hugging Face进行下载。使用该数据集时,请遵循版权所有者的相关规定。
数据集可以通过Hugging Face数据集库进行下载。您可以使用以下命令通过pip安装该库:
pip install datasets
安装完库之后,您可以使用以下代码加载数据集:
from datasets import load_dataset dataset = load_dataset('zeusfsx/ukrainian-news')
这将把整个数据集加载到内存中。如果你只想加载数据的子集,可以指定split参数:
# Load only the first 10,000 examples from the "train" split dataset = load_dataset('zeusfsx/ukrainian-news', split='train[:10000]')
如果对此数据集有任何问题或评论,请通过电子邮件联系我[zeusfsxtmp@gmail.com]。我们将尽快回复您的查询。
数据集根据各个网站所有者指定的使用条款提供。有关更多信息,请参阅各个网站的使用条款。