数据集:

lccc

任务:

对话

语言:

zh

计算机处理:

monolingual

大小:

10M<n<100M

语言创建人:

other

批注创建人:

other

源数据集:

original

预印本库:

arxiv:2008.03946

许可:

mit
英文

LCCC 数据集卡片

数据集摘要

LCCC: 大规模清洗过的中文对话语料库 (LCCC) 是一个源自于中文社交媒体的大型中文对话语料库。我们设计了一个严格的数据清洗流程,以确保语料库的质量。该流程包括一系列规则和基于分类器的过滤器。我们过滤掉的噪声包括:冒犯或敏感词汇、特殊符号、表情符号、语法不正确的句子和不连贯的对话。

LCCC是一套来自于中文社交媒体的对话数据,我们设计了一套严格的数据过滤流程来确保该数据集中对话数据的质量。这一数据过滤流程中包括一系列手工规则以及若干基于机器学习算法所构建的分类器。我们所过滤掉的噪声包括:脏字脏词、特殊字符、颜表情、语法不通的语句、上下文不相关的对话等。

支持的任务和排行榜

  • 对话生成:该数据集可用于训练生成对话回复的模型。
  • 回复检索:该数据集可用于训练重新排序模型,用于实现基于检索的对话模型。

语言

LCCC 使用中文。

LCCC中的对话是中文的。

数据集结构

数据实例

{
    "dialog": ["火锅 我 在 重庆 成都 吃 了 七八 顿 火锅", "哈哈哈哈 ! 那 我 的 嘴巴 可能 要 烂掉 !", "不会 的 就是 好 油腻"]
}

数据字段

  • 对话(字符串列表):对话的话语列表。

数据拆分

我们没有提供 LCCC-large 的官方分割方式,但我们提供了 LCCC-base 的分割方式。

train valid test
6,820,506 20,000 10,000

数据集创建

策划理由

【需要更多信息】

源数据

初始数据收集和归一化

【需要更多信息】

谁是源语言的生产者?

【需要更多信息】

注释

注释过程

【需要更多信息】

谁是注释者?

【需要更多信息】

个人和敏感信息

【需要更多信息】

使用数据的注意事项

数据集的社会影响

【需要更多信息】

对偏见的讨论

【需要更多信息】

其他已知限制

【需要更多信息】

附加信息

数据集维护者

【需要更多信息】

许可信息

MIT许可证

版权(c) 2020 lemon234071

免费授权,任何获得本软件及其相关文档文件(以下简称“软件”)副本的人无偿使用、复制、修改、合并、出版、分发、再授权和/或销售软件的权利,但需遵守以下条件:

上述版权声明和本许可声明应包含在所有复制品或实质部分的软件中。

本软件按原样提供,不提供任何明示或暗示的担保,包括但不限于适销性、特定用途适用性和非侵权性担保。在任何情况下,作者或版权持有人对任何索赔、损害赔偿或其他责任不负责任,无论是因合同、侵权还是其他原因引起的,与软件或使用或其他交易有关。

引用信息

@inproceedings{wang2020chinese,
  title={A Large-Scale Chinese Short-Text Conversation Dataset},
  author={Wang, Yida and Ke, Pei and Zheng, Yinhe and Huang, Kaili and Jiang, Yong and Zhu, Xiaoyan and Huang, Minlie},
  booktitle={NLPCC},
  year={2020},
  url={https://arxiv.org/abs/2008.03946}
}

贡献者

感谢 Yinhe Zheng 提供此数据集。