数据集:
inkoziev/incomplete_utterance_restoration
"Incomplete Utterance Restoration" 的详细描述可以在生成模型 inkoziev/rugpt_interpreter 的卡片中找到,该模型是在该数据集的增强版本上进行训练的。
数据集包含长度为1到3个连续话语的对话片段。对于最后一个话语,给出了完整的版本,其中包括了指代、省略等内容。
例如,以下示例:
{ "context": ["Добрый день, давай поговорим?"], "short_phrase": "добрый день, давай", "expanded_phrase": "Давай поговорим" }
对应于对话片段:
- Добрый день, давай поговорим? - добрый день, давай
对于最后一个话语 "добрый день, давай", 给出了其完整版本 "Давай поговорим".
对于包含三个话语的片段,字段 context 将包含两个元素:
{ "context": [ "Что-то зрителей полный инет, а изучителей не видать.", "Ты кем себя считаешь: зрителем или изучателем?" ], "short_phrase": "изучателем", "expanded_phrase": "я считаю себя изучателем" },
此示例对应于对话片段:
- Что-то зрителей полный инет, а изучителей не видать. - Ты кем себя считаешь: зрителем или изучателем? - изучателем
对于最后一个话语给出了完整形式 "я считаю себя изучателем".
很多样本中,礼貌的第二人称复数 "Вы" 在揭示后的版本中被规范为 "你"。
存在粗俗词汇、侮辱等内容。
我为实验而收集了这个数据集,用于 диалоговыми системами 。如果您以任何方式使用它,请链接到此页面。