数据集:

inkoziev/incomplete_utterance_restoration

语言:

ru

计算机处理:

monolingual

语言创建人:

expert

源数据集:

original
英文

数据集用于对话上下文中不完整话语的揭示任务

"Incomplete Utterance Restoration" 的详细描述可以在生成模型 inkoziev/rugpt_interpreter 的卡片中找到,该模型是在该数据集的增强版本上进行训练的。

数据集包含长度为1到3个连续话语的对话片段。对于最后一个话语,给出了完整的版本,其中包括了指代、省略等内容。

例如,以下示例:

    {
        "context": ["Добрый день, давай поговорим?"],
        "short_phrase": "добрый день, давай",
        "expanded_phrase": "Давай поговорим"
    }

对应于对话片段:

- Добрый день, давай поговорим?
- добрый день, давай

对于最后一个话语 "добрый день, давай", 给出了其完整版本 "Давай поговорим".

对于包含三个话语的片段,字段 context 将包含两个元素:

    {
        "context": [
            "Что-то зрителей полный инет, а изучителей не видать.",
            "Ты кем себя считаешь: зрителем или изучателем?"
        ],
        "short_phrase": "изучателем",
        "expanded_phrase": "я считаю себя изучателем"
    },

此示例对应于对话片段:

- Что-то зрителей полный инет, а изучителей не видать.
- Ты кем себя считаешь: зрителем или изучателем?
- изучателем

对于最后一个话语给出了完整形式 "я считаю себя изучателем".

数据集特点

  • 很多样本中,礼貌的第二人称复数 "Вы" 在揭示后的版本中被规范为 "你"。

  • 存在粗俗词汇、侮辱等内容。

  • 链接、引用

    我为实验而收集了这个数据集,用于 диалоговыми системами 。如果您以任何方式使用它,请链接到此页面。