概要:来自多个来源的新闻数据集:
联系人:Ilya Gusev
语言:俄语。
先决条件:
pip install datasets zstandard jsonlines pysimdjson
数据集迭代:
from datasets import load_dataset dataset = load_dataset('IlyaGusev/ru_news', split="train", streaming=True) for example in dataset: print(example["text"])
{ "title": "Заместитель главы района в Якутии пожаловался на пьянство начальника", "text": "Заместитель главы Нерюнгринского района Якутии Геннадий Ленц пожаловался руководителю республики Егору Борисову на своего начальника. Как рассказал Ленц 'Интерфаксу', Андрей Фитисов пьет на рабочем месте и 'уходит в многодневные загулы'...", "timestamp": 1346284800, "url": "https://lenta.ru/news/2012/08/30/alco/", "source": "lenta" }
该数据集未经匿名处理,因此数据集中可能包含个人姓名。在可能的情况下,数据集中还包含有关原始作者的信息。