数据集:

shibing624/nli-zh-all

许可:

cc-by-4.0

源数据集:

https

批注创建人:

shibing624

语言创建人:

shibing624

大小:

1M<n<10M

计算机处理:

monolingual

语言:

子任务:

text-scoring semantic-similarity-scoring natural-language-inference

任务:

文本分类

数据集介绍文件清单

英文

nli-zh-all数据集卡片

数据集简介

中文自然语言推理（NLI）数据合集（nli-zh-all）

整合了文本推理，相似，摘要，问答，指令微调等任务的820万高质量数据，并转化为匹配格式数据集。

支持的任务和排行榜

支持的任务：支持中文文本匹配任务，文本相似度计算等相关任务。

中文匹配任务的结果目前在顶会paper上出现较少，我罗列一个我自己训练的结果：

排行榜： NLI_zh leaderboard

语言

数据集均是简体中文文本。

数据集结构

数据实例

'train'的一个示例如下。

{"text1":"借款后多长时间给打电话","text2":"借款后多久打电话啊","label":1}
{"text1":"没看到微粒贷","text2":"我借那么久也没有提升啊","label":0}

label有两个标签，1表示相似，0表示不相似。

数据字段

所有拆分中的数据字段是相同的。

text1：字符串特征。
text2：字符串特征。
label：分类标签，可能的值包括包含(1)、矛盾(0)。

数据拆分

移除None和长度小于1的数据后：

$ wc -l nli-zh-all/*
   48818 nli-zh-all/alpaca_gpt4-train.jsonl
    5000 nli-zh-all/amazon_reviews-train.jsonl
  519255 nli-zh-all/belle-train.jsonl
   16000 nli-zh-all/cblue_chip_sts-train.jsonl
  549326 nli-zh-all/chatmed_consult-train.jsonl
   10142 nli-zh-all/cmrc2018-train.jsonl
  395927 nli-zh-all/csl-train.jsonl
   50000 nli-zh-all/dureader_robust-train.jsonl
  709761 nli-zh-all/firefly-train.jsonl
    9568 nli-zh-all/mlqa-train.jsonl
  455875 nli-zh-all/nli_zh-train.jsonl
   50486 nli-zh-all/ocnli-train.jsonl
 2678694 nli-zh-all/simclue-train.jsonl
  419402 nli-zh-all/snli_zh-train.jsonl
    3024 nli-zh-all/webqa-train.jsonl
 1213780 nli-zh-all/wiki_atomic_edits-train.jsonl
   93404 nli-zh-all/xlsum-train.jsonl
 1006218 nli-zh-all/zhihu_kol-train.jsonl
 8234680 total

数据长度

计算文本长度的脚本： https://github.com/shibing624/text2vec/blob/master/examples/data/count_text_length.py

数据集创建

策划理由

受 m3e-base 启发，合并了中文高质量NLI（自然语言推理）数据集，这里把这个数据集上传到huggingface的datasets，方便大家使用。

源数据

初始数据收集和规范化

如果您想要查看数据集的构建方法，你可以在 https://github.com/shibing624/text2vec/blob/master/examples/data/build_zh_nli_dataset.py 中找到生成nli-zh-all数据集的脚本，所有数据均上传到huggingface datasets。

数据集名称	领域	数量	任务类型	Prompt	质量	数据提供者	说明	是否开源/研究使用	是否商用	脚本	Done	URL	是否同质
cmrc2018	百科	14,363	问答	问答	优	Yiming Cui, Ting Liu, Wanxiang Che, Li Xiao, Zhipeng Chen, Wentao Ma, Shijin Wang, Guoping Hu	1237321 专家标注的基于维基百科的中文阅读理解数据集，将问题和上下文视为正例	是	否	是	是	1238321	否
belle_0.5m	百科	500,000	指令微调	无	优	LianjiaTech/BELLE	belle 的指令微调数据集，使用 self instruct 方法基于 gpt3.5 生成	是	否	是	是	1239321	否
firefily	百科	1,649,399	指令微调	无	优	YeungNLP	Firefly（流萤）是一个开源的中文对话式大语言模型，使用指令微调（Instruction Tuning）在中文数据集上进行调优。使用了词表裁剪、ZeRO等技术，有效降低显存消耗和提高训练效率。在训练中，我们使用了更小的模型参数量，以及更少的计算资源。	未说明	未说明	是	是	12310321	否
alpaca_gpt4	百科	48,818	指令微调	无	优	Baolin Peng, Chunyuan Li, Pengcheng He, Michel Galley, Jianfeng Gao	本数据集是参考Alpaca方法基于GPT4得到的self-instruct数据，约5万条。	是	否	是	是	12311321	否
zhihu_kol	百科	1,006,218	问答	问答	优	wangrui6	知乎问答	未说明	未说明	是	是	12312321	否
amazon_reviews_multi	电商	210,000	问答文本分类	摘要	优	亚马逊	亚马逊产品评论数据集	是	否	是	是	12313321	否
mlqa	百科	85,853	问答	问答	良	patrickvonplaten	一个用于评估跨语言问答性能的基准数据集	是	未说明	是	是	12314321	否
xlsum	新闻	93,404	摘要	摘要	良	BUET CSE NLP Group	BBC的专业注释文章摘要对	是	否	是	是	12315321	否
ocnli	口语	17,726	自然语言推理	推理	良	Thomas Wolf	自然语言推理数据集	是	否	是	是	12316321	是
BQ	金融	60,000	文本分类	相似	优	Intelligent Computing Research Center, Harbin Institute of Technology(Shenzhen)	12317321 BQ 语料库包含来自网上银行自定义服务日志的 120，000 个问题对。它分为三部分：100，000 对用于训练，10，000 对用于验证，10，000 对用于测试。数据提供者：哈尔滨工业大学（深圳）智能计算研究中心	是	否	是	是	12318321	是
lcqmc	口语	149,226	文本分类	相似	优	Ming Xu	哈工大文本匹配数据集，LCQMC 是哈尔滨工业大学在自然语言处理国际顶会 COLING2018 构建的问题语义匹配数据集，其目标是判断两个问题的语义是否相同	是	否	是	是	12319321	是
paws-x	百科	23,576	文本分类	相似	优	Bhavitvya Malik	PAWS Wiki中的示例	是	是	是	是	12320321	是
wiki_atomic_edit	百科	1,213,780	平行语义	相似	优	abhishek thakur	基于中文维基百科的编辑记录收集的数据集	未说明	未说明	是	是	12321321	是
chatmed_consult	医药	549,326	问答	问答	优	Wei Zhu	真实世界的医学相关的问题，使用 gpt3.5 进行回答	是	否	是	是	12322321	否
webqa	百科	42,216	问答	问答	优	suolyer	百度于2016年开源的数据集，数据来自于百度知道；格式为一个问题多篇意思基本一致的文章，分为人为标注以及浏览器检索；数据整体质量中，因为混合了很多检索而来的文章	是	未说明	是	是	12323321	否
dureader_robust	百科	65,937	机器阅读理解问答	问答	优	百度	DuReader robust旨在利用真实应用中的数据样本来衡量阅读理解模型的鲁棒性，评测模型的过敏感性、过稳定性以及泛化能力，是首个中文阅读理解鲁棒性数据集。	是	是	是	是	12324321	否
csl	学术	395,927	语料	摘要	优	Yudong Li, Yuqing Zhang, Zhe Zhao, Linlin Shen, Weijie Liu, Weiquan Mao and Hui Zhang	提供首个中文科学文献数据集（CSL），包含 396,209 篇中文核心期刊论文元信息（标题、摘要、关键词、学科、门类）。CSL 数据集可以作为预训练语料，也可以构建许多NLP任务，例如文本摘要（标题预测）、关键词生成和文本分类等。	是	是	是	是	12325321	否
snli-zh	口语	419,402	文本分类	推理	优	liuhuanyong	中文SNLI数据集，翻译自英文SNLI	是	否	是	是	12326321	是
SimCLUE	百科	2,678,694	平行语义	相似	优	数据集合，请在 simCLUE 中查看	整合了中文领域绝大多数可用的开源的语义相似度和自然语言推理的数据集，并重新做了数据拆分和整理。	是	否	否	是	12327321	是

谁是源语言的制作者？

数据集的版权归原作者所有，使用各数据集时请尊重原数据集的版权。

SNLI:

@inproceedings{snli:emnlp2015, Author = {Bowman, Samuel R. and Angeli, Gabor and Potts, Christopher, and Manning, Christopher D.}, Booktitle = {Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing (EMNLP)}, Publisher = {Association for Computational Linguistics}, Title = {A large annotated corpus for learning natural language inference}, Year = {2015}}

谁是标注者？

原作者。

数据集的社会影响

该数据集是为评估文本的表示系统而开发的基准，特别是那些由表示学习方法引导的表示系统，在预测给定环境中的真实条件方面。

在此类任务上成功的系统可能在建模语义表示方面更加成功。

许可信息

用于研究目的

用于学术研究

贡献

shibing624 添加了该数据集。

作者:

shibing624

数据集大小:

4.71 GB