数据集:

IlyaGusev/ru_news

语言:

ru

大小:

1M<n<10M
中文

RuNews dataset

Description

Summary: Dataset of news from several sources:

Script: create_ru_news.py

Point of Contact: Ilya Gusev

Languages: Russian.

Usage

Prerequisites:

pip install datasets zstandard jsonlines pysimdjson

Dataset iteration:

from datasets import load_dataset
dataset = load_dataset('IlyaGusev/ru_news', split="train", streaming=True)
for example in dataset:
    print(example["text"])

Data Instances

{
  "title": "Заместитель главы района в Якутии пожаловался на пьянство начальника",
  "text": "Заместитель главы Нерюнгринского района Якутии Геннадий Ленц пожаловался руководителю республики Егору Борисову на своего начальника. Как рассказал Ленц 'Интерфаксу', Андрей Фитисов пьет на рабочем месте и 'уходит в многодневные загулы'...",
  "timestamp": 1346284800,
  "url": "https://lenta.ru/news/2012/08/30/alco/",
  "source": "lenta"
}

Personal and Sensitive Information

The dataset is not anonymized, so individuals' names can be found in the dataset. Information about the original authors is included in the dataset where possible.