数据集:

IlyaGusev/ru_news

语言:

ru

大小:

1M<n<10M
英文

RuNews数据集

描述

概要:来自多个来源的新闻数据集:

脚本: create_ru_news.py

联系人:Ilya Gusev

语言:俄语。

使用

先决条件:

pip install datasets zstandard jsonlines pysimdjson

数据集迭代:

from datasets import load_dataset
dataset = load_dataset('IlyaGusev/ru_news', split="train", streaming=True)
for example in dataset:
    print(example["text"])

数据实例

{
  "title": "Заместитель главы района в Якутии пожаловался на пьянство начальника",
  "text": "Заместитель главы Нерюнгринского района Якутии Геннадий Ленц пожаловался руководителю республики Егору Борисову на своего начальника. Как рассказал Ленц 'Интерфаксу', Андрей Фитисов пьет на рабочем месте и 'уходит в многодневные загулы'...",
  "timestamp": 1346284800,
  "url": "https://lenta.ru/news/2012/08/30/alco/",
  "source": "lenta"
}

个人和敏感信息

该数据集未经匿名处理,因此数据集中可能包含个人姓名。在可能的情况下,数据集中还包含有关原始作者的信息。