数据集:

zeusfsx/ukrainian-news

语言:

uk

大小:

10M<n<100M

其他:

news
英文

乌克兰新闻数据集

这是从各个乌克兰网站和Telegram频道下载的新闻文章数据集。

数据集包含22,567,099个JSON对象(新闻),总大小约为67GB,每个对象具有以下字段:

  title: The title of the news article
  text: The text of the news article, which may contain HTML tags(e.g., paragraphs, links, images, etc.)
  url: The URL of the news article
  datetime: The time of publication or when the article was parsed and added to the dataset
  owner: The name of the website that published the news article

网站新闻数量:16,022,416个

Telegram帖子数量:6,544,683个

JSON对象分为多个部分,并且数据集可以通过Hugging Face进行下载。使用该数据集时,请遵循版权所有者的相关规定。

访问数据集

数据集可以通过Hugging Face数据集库进行下载。您可以使用以下命令通过pip安装该库:

pip install datasets

安装完库之后,您可以使用以下代码加载数据集:

from datasets import load_dataset

dataset = load_dataset('zeusfsx/ukrainian-news')

这将把整个数据集加载到内存中。如果你只想加载数据的子集,可以指定split参数:

# Load only the first 10,000 examples from the "train" split
dataset = load_dataset('zeusfsx/ukrainian-news', split='train[:10000]')

联系方式

如果对此数据集有任何问题或评论,请通过电子邮件联系我[zeusfsxtmp@gmail.com]。我们将尽快回复您的查询。

许可证

数据集根据各个网站所有者指定的使用条款提供。有关更多信息,请参阅各个网站的使用条款。