数据集:

IlyaGusev/gazeta

语言:

ru

计算机处理:

monolingual

大小:

10K<n<100K

源数据集:

original

预印本库:

arxiv:2006.11063
英文

Gazeta 数据集卡片

数据集摘要

用于俄语新闻自动摘要的数据集。新闻及其摘要来自Gazeta网站。摘要以“description”属性的HTML标签的内容形式进行解析。随后进行了精选,选择出了优质的摘要。此数据集有两个版本。

支持的任务和排行榜

Papers With Code上的排行榜: text-summarization-on-gazeta

请使用原始数据 evaluation script ,使用相同的参数。示例:

python3 evaluate.py --predicted-path predictions.txt --gold-path targets.txt --language ru --tokenize-after --lower

语言

该数据集为俄语。

用法

加载1.0版本:

from datasets import load_dataset
dataset = load_dataset('IlyaGusev/gazeta', revision="v1.0")

加载2.0版本:

from datasets import load_dataset
dataset = load_dataset('IlyaGusev/gazeta', revision="v2.0")

其他数据集

其他俄语摘要数据集:

数据集结构

数据实例

对于每个实例,都有一篇文章的字符串,一篇摘要的字符串以及一个URL的字符串。此外,还提供了标题和日期的字符串。

{
  'date': '2019-10-01 15:14:05',
  'url': 'https://www.gazeta.ru/tech/2019/10/01/12698923/whatsapp_pls.shtml',
  'title': 'На последнем издыхании: у кого отключится WhatsApp',
  'summary': 'Мессенджер WhatsApp перестанет работать на ряде смартфонов — речь идет о гаджетах на базе операционных систем Android 2.3.7 и iOS 8, которые считаются устаревшими. В компании отмечают, что сервис на этих устройствах может отключиться в любой момент, поэтому будет целесообразно сменить устройство либо обновить ОС.',
  'text': 'На официальном сайте мессенджера WhatsApp появилось сообщение о том, что с 1 февраля 2020 года сервис прекратит свою работу на некоторых устаревших смартфонах. Речь идет об устройствах, работающих на базе операционных систем Android 2.3.7 и iOS 8. При этом руководство WhatsApp предупреждает, что даже до обозначенного выше дедлайна функционал мессенджера на этих ОС может быть ограничен. «В связи с тем, что мы не планируем обновлять данные операционные системы, некоторые функции могут перестать работать на них в любое время», — говорится в пресс-релизе компании. Чтобы сохранить возможность пользоваться мессенджером без проблем, следует обновить версию прошивки или приобрести новое, более современное устройство. Сообщается, что на старых версиях операционных систем уже не получится завести новый аккаунт WhatsApp или верифицировать уже существующий. При этом в WhatsApp порекомендовали пользоваться устройствами с Android 4.0.3 и более поздними версиями, а также iOS 9 и более поздними версиями. Ранее стало известно о том, что с 31 декабря 2019 года WhatsApp прекращает поддержку устройств на базе операционной системы Windows Phone, от разработки которой пришлось отказаться. Впрочем, если верить статистике , эти меры вряд ли затронут большое количество пользователей. По состоянию на май 2019 года лишь 0,3% всех владельцев Android все еще пользуются ОС версий 2.3.3–2.3.7. Что же касается iOS, то версия под номером «10» или старше установлена на 5% устройств Apple. Как уже упоминалось выше, выпуск новых гаджетов на Windows Phone и вовсе прекращен ее создателем. В середине сентября экс-сотрудник АНБ Эдвард Сноуден раскритиковал WhatsApp за несовершенную систему защиты, порекомендовав политикам пользоваться другими средствами связи. Журналист французской радиостанции France Inter отметил, что президент Франции Эмманюэль Макрон для связи использует Telegram, а премьер-министр страны Эдуар Филипп — WhatsApp. Сноуден назвал такое решение «большой ошибкой», учитывая серьезные посты, которые занимают Макрон и Филипп. По словам Сноудена, эти сервисы безопаснее обычных SMS-сообщений, но все еще «чрезвычайно опасны, если вы премьер-министр». Больше всего претензий у информатора к WhatsApp, который стал частью активов корпорации Facebook в 2014 году. Эдвард Сноуден отметил, что после приобретения мессенджера Facebook «слой за слоем» снимает различные уровни защиты сервиса, чтобы при необходимости читать переписку своих пользователей. Ранее с критикой в адрес WhatsApp выступил и глава Telegram Павел Дуров. По словам предпринимателя, после устранения одной «дыры» в мессенджере тут же появляются новые. «Все выявленные проблемы позволяют вести слежку, выглядят и функционируют как бэкдоры», — заявил Дуров. При этом Дуров подчеркнул, что WhatsApp мог быть вынужден установить бэкдоры по указанию ФБР. В июне руководство WhatsApp заявило о том, что их сервис готов судиться с юзерами за нарушение правил пользования. В список нарушений входит использование программы «не в личных целях» и применение автоматической рассылки сообщений. По данным пресс-службы WhatsApp, уже сейчас обнаружены и заморожены «миллионы аккаунтов», пойманных на «злоупотреблении». «Наша платформа изначально создавалась, чтобы помогать людям общаться с их друзьями и любимыми... Используя информацию приложения, мы нашли и заблокировали миллионы злоупотребляющих аккаунтов от использования нашей сети», – заявили в WhatsApp. В частности, нарушение происходит, если компания публично заявляет о возможности использовать WhatsApp, нарушая при этом правила пользования мессенджером. «Ничто в этом объявлении не ограничивает право WhatsApp от применения своих условий с использованием технологий. Классификаторы на основе machine learning нам в этом помогают, и мы продолжим их использовать», – добавили в команде приложения.',
}

以下是一些数据集统计信息:

Feature Mean Token Count Mean Sentence Count
Text 767 37
Summary 50 3

数据划分

Dataset Split v1, Number of Instances in Split v2, Number of Instances in Split
Train 52,400 60,964
Validation 5,265 6,369
Test 5,770 6,793

数据集创建

策划原因

在收集第一个版本的数据集时,还没有其他用于俄语文本摘要的数据集。即使现在,这还是少数用于此任务的数据集之一。

数据源

初始数据收集和标准化 谁是源语言的生成者?

文本和摘要由 Gazeta 的记者撰写。

注释

注释过程

[无]

谁是标注者?

[无]

个人和敏感信息

数据集未经匿名处理,因此可以在数据集中找到个人姓名。原始作者的信息未包含在数据集中。

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

这是来自单一来源的数据集。因此,它具有受限的文本风格和事件观点。

其他已知限制

[需要更多信息]

其他信息

数据集策划者

数据由Ilya Gusev收集。

许可信息

分发数据集的法律依据: https://www.gazeta.ru/credits.shtml ,第2.1.2款。所有权利属于" www.gazeta.ru" "。只有个人目的非商业使用下才可以使用此数据集。

引用信息

@InProceedings{10.1007/978-3-030-59082-6_9,
    author="Gusev, Ilya",
    editor="Filchenkov, Andrey and Kauttonen, Janne and Pivovarova, Lidia",
    title="Dataset for Automatic Summarization of Russian News",
    booktitle="Artificial Intelligence and Natural Language",
    year="2020",
    publisher="Springer International Publishing",
    address="Cham",
    pages="122--134",
    isbn="978-3-030-59082-6"
}

贡献

[无]