Датасет для задачи раскрытия неполных реплик в контексте диалога

Подробное описание задачи "Incomplete Utterance Restoration" можно найти в карточке генеративной модели inkoziev/rugpt_interpreter , которая обучена на аугментированном варианте этого датасета.

В датасете содержатся фрагменты диалогов длиной от 1 до 3 последовательных реплик. Для последней реплики дается ее полный вариант с раскрытыми анафорами, эллипсисами и т.д.

Например, следующий сэмпл:

    {
        "context": ["Добрый день, давай поговорим?"],
        "short_phrase": "добрый день, давай",
        "expanded_phrase": "Давай поговорим"
    }

Соответствует фрагменту диалога:

- Добрый день, давай поговорим?
- добрый день, давай

Для последней реплики " добрый день, давай " приводится ее полный вариант " Давай поговорим ".

Для фрагментов длиной 3 реплики в поле context будет 2 элемента:

    {
        "context": [
            "Что-то зрителей полный инет, а изучителей не видать.",
            "Ты кем себя считаешь: зрителем или изучателем?"
        ],
        "short_phrase": "изучателем",
        "expanded_phrase": "я считаю себя изучателем"
    },

Этот сэмпл соответствует фрагменту диалога:

- Что-то зрителей полный инет, а изучителей не видать.
- Ты кем себя считаешь: зрителем или изучателем?
- изучателем

Для последней реплики дана полная форма " я считаю себя изучателем ".

Особенности датасета

Для многих сэмплов вежливая форма 2л. мн.ч. "Вы" в раскрытом варианте нормализована до "ты".

Есть нецензурная лексика, оскорбления и т.п.

Ссылки, цитирование

Этот датасет я собирал сам для экспериментов с диалоговыми системами . Если вы используете его в каком-то виде, буду благодарен за ссылки на эту страницу.

作者:

inkoziev

数据集大小:

29.48 MB