数据集:
lccc
任务:
对话子任务:
dialogue-generation语言:
zh计算机处理:
monolingual大小:
10M<n<100M语言创建人:
other批注创建人:
other源数据集:
original预印本库:
arxiv:2008.03946许可:
mitLCCC: 大规模清洗过的中文对话语料库 (LCCC) 是一个源自于中文社交媒体的大型中文对话语料库。我们设计了一个严格的数据清洗流程,以确保语料库的质量。该流程包括一系列规则和基于分类器的过滤器。我们过滤掉的噪声包括:冒犯或敏感词汇、特殊符号、表情符号、语法不正确的句子和不连贯的对话。
LCCC是一套来自于中文社交媒体的对话数据,我们设计了一套严格的数据过滤流程来确保该数据集中对话数据的质量。这一数据过滤流程中包括一系列手工规则以及若干基于机器学习算法所构建的分类器。我们所过滤掉的噪声包括:脏字脏词、特殊字符、颜表情、语法不通的语句、上下文不相关的对话等。
LCCC 使用中文。
LCCC中的对话是中文的。
{ "dialog": ["火锅 我 在 重庆 成都 吃 了 七八 顿 火锅", "哈哈哈哈 ! 那 我 的 嘴巴 可能 要 烂掉 !", "不会 的 就是 好 油腻"] }
我们没有提供 LCCC-large 的官方分割方式,但我们提供了 LCCC-base 的分割方式。
train | valid | test |
---|---|---|
6,820,506 | 20,000 | 10,000 |
【需要更多信息】
【需要更多信息】
谁是源语言的生产者?【需要更多信息】
【需要更多信息】
谁是注释者?【需要更多信息】
【需要更多信息】
【需要更多信息】
【需要更多信息】
【需要更多信息】
【需要更多信息】
MIT许可证
版权(c) 2020 lemon234071
免费授权,任何获得本软件及其相关文档文件(以下简称“软件”)副本的人无偿使用、复制、修改、合并、出版、分发、再授权和/或销售软件的权利,但需遵守以下条件:
上述版权声明和本许可声明应包含在所有复制品或实质部分的软件中。
本软件按原样提供,不提供任何明示或暗示的担保,包括但不限于适销性、特定用途适用性和非侵权性担保。在任何情况下,作者或版权持有人对任何索赔、损害赔偿或其他责任不负责任,无论是因合同、侵权还是其他原因引起的,与软件或使用或其他交易有关。
@inproceedings{wang2020chinese, title={A Large-Scale Chinese Short-Text Conversation Dataset}, author={Wang, Yida and Ke, Pei and Zheng, Yinhe and Huang, Kaili and Jiang, Yong and Zhu, Xiaoyan and Huang, Minlie}, booktitle={NLPCC}, year={2020}, url={https://arxiv.org/abs/2008.03946} }
感谢 Yinhe Zheng 提供此数据集。