数据集:
inkoziev/incomplete_utterance_restoration
Подробное описание задачи "Incomplete Utterance Restoration" можно найти в карточке генеративной модели inkoziev/rugpt_interpreter , которая обучена на аугментированном варианте этого датасета.
В датасете содержатся фрагменты диалогов длиной от 1 до 3 последовательных реплик. Для последней реплики дается ее полный вариант с раскрытыми анафорами, эллипсисами и т.д.
Например, следующий сэмпл:
{ "context": ["Добрый день, давай поговорим?"], "short_phrase": "добрый день, давай", "expanded_phrase": "Давай поговорим" }
Соответствует фрагменту диалога:
- Добрый день, давай поговорим? - добрый день, давай
Для последней реплики " добрый день, давай " приводится ее полный вариант " Давай поговорим ".
Для фрагментов длиной 3 реплики в поле context будет 2 элемента:
{ "context": [ "Что-то зрителей полный инет, а изучителей не видать.", "Ты кем себя считаешь: зрителем или изучателем?" ], "short_phrase": "изучателем", "expanded_phrase": "я считаю себя изучателем" },
Этот сэмпл соответствует фрагменту диалога:
- Что-то зрителей полный инет, а изучителей не видать. - Ты кем себя считаешь: зрителем или изучателем? - изучателем
Для последней реплики дана полная форма " я считаю себя изучателем ".
Для многих сэмплов вежливая форма 2л. мн.ч. "Вы" в раскрытом варианте нормализована до "ты".
Есть нецензурная лексика, оскорбления и т.п.
Этот датасет я собирал сам для экспериментов с диалоговыми системами . Если вы используете его в каком-то виде, буду благодарен за ссылки на эту страницу.