数据集:

shibing624/nli-zh-all

英文

nli-zh-all数据集卡片

数据集简介

中文自然语言推理(NLI)数据合集(nli-zh-all)

整合了文本推理,相似,摘要,问答,指令微调等任务的820万高质量数据,并转化为匹配格式数据集。

支持的任务和排行榜

支持的任务:支持中文文本匹配任务,文本相似度计算等相关任务。

中文匹配任务的结果目前在顶会paper上出现较少,我罗列一个我自己训练的结果:

排行榜: NLI_zh leaderboard

语言

数据集均是简体中文文本。

数据集结构

数据实例

'train'的一个示例如下。

{"text1":"借款后多长时间给打电话","text2":"借款后多久打电话啊","label":1}
{"text1":"没看到微粒贷","text2":"我借那么久也没有提升啊","label":0}
  • label有两个标签,1表示相似,0表示不相似。

数据字段

所有拆分中的数据字段是相同的。

  • text1:字符串特征。
  • text2:字符串特征。
  • label:分类标签,可能的值包括包含(1)、矛盾(0)。

数据拆分

移除None和长度小于1的数据后:

$ wc -l nli-zh-all/*
   48818 nli-zh-all/alpaca_gpt4-train.jsonl
    5000 nli-zh-all/amazon_reviews-train.jsonl
  519255 nli-zh-all/belle-train.jsonl
   16000 nli-zh-all/cblue_chip_sts-train.jsonl
  549326 nli-zh-all/chatmed_consult-train.jsonl
   10142 nli-zh-all/cmrc2018-train.jsonl
  395927 nli-zh-all/csl-train.jsonl
   50000 nli-zh-all/dureader_robust-train.jsonl
  709761 nli-zh-all/firefly-train.jsonl
    9568 nli-zh-all/mlqa-train.jsonl
  455875 nli-zh-all/nli_zh-train.jsonl
   50486 nli-zh-all/ocnli-train.jsonl
 2678694 nli-zh-all/simclue-train.jsonl
  419402 nli-zh-all/snli_zh-train.jsonl
    3024 nli-zh-all/webqa-train.jsonl
 1213780 nli-zh-all/wiki_atomic_edits-train.jsonl
   93404 nli-zh-all/xlsum-train.jsonl
 1006218 nli-zh-all/zhihu_kol-train.jsonl
 8234680 total

数据长度

计算文本长度的脚本: https://github.com/shibing624/text2vec/blob/master/examples/data/count_text_length.py

数据集创建

策划理由

m3e-base 启发,合并了中文高质量NLI(自然语言推理)数据集,这里把这个数据集上传到huggingface的datasets,方便大家使用。

源数据

初始数据收集和规范化

如果您想要查看数据集的构建方法,你可以在 https://github.com/shibing624/text2vec/blob/master/examples/data/build_zh_nli_dataset.py 中找到生成nli-zh-all数据集的脚本,所有数据均上传到huggingface datasets。

数据集名称 领域 数量 任务类型 Prompt 质量 数据提供者 说明 是否开源/研究使用 是否商用 脚本 Done URL 是否同质
cmrc2018 百科 14,363 问答 问答 Yiming Cui, Ting Liu, Wanxiang Che, Li Xiao, Zhipeng Chen, Wentao Ma, Shijin Wang, Guoping Hu 1237321 专家标注的基于维基百科的中文阅读理解数据集,将问题和上下文视为正例 1238321
belle_0.5m 百科 500,000 指令微调 LianjiaTech/BELLE belle 的指令微调数据集,使用 self instruct 方法基于 gpt3.5 生成 1239321
firefily 百科 1,649,399 指令微调 YeungNLP Firefly(流萤) 是一个开源的中文对话式大语言模型,使用指令微调(Instruction Tuning)在中文数据集上进行调优。使用了词表裁剪、ZeRO等技术,有效降低显存消耗和提高训练效率。 在训练中,我们使用了更小的模型参数量,以及更少的计算资源。 未说明 未说明 12310321
alpaca_gpt4 百科 48,818 指令微调 Baolin Peng, Chunyuan Li, Pengcheng He, Michel Galley, Jianfeng Gao 本数据集是参考Alpaca方法基于GPT4得到的self-instruct数据,约5万条。 12311321
zhihu_kol 百科 1,006,218 问答 问答 wangrui6 知乎问答 未说明 未说明 12312321
amazon_reviews_multi 电商 210,000 问答 文本分类 摘要 亚马逊 亚马逊产品评论数据集 12313321
mlqa 百科 85,853 问答 问答 patrickvonplaten 一个用于评估跨语言问答性能的基准数据集 未说明 12314321
xlsum 新闻 93,404 摘要 摘要 BUET CSE NLP Group BBC的专业注释文章摘要对 12315321
ocnli 口语 17,726 自然语言推理 推理 Thomas Wolf 自然语言推理数据集 12316321
BQ 金融 60,000 文本分类 相似 Intelligent Computing Research Center, Harbin Institute of Technology(Shenzhen) 12317321 BQ 语料库包含来自网上银行自定义服务日志的 120,000 个问题对。它分为三部分:100,000 对用于训练,10,000 对用于验证,10,000 对用于测试。 数据提供者: 哈尔滨工业大学(深圳)智能计算研究中心 12318321
lcqmc 口语 149,226 文本分类 相似 Ming Xu 哈工大文本匹配数据集,LCQMC 是哈尔滨工业大学在自然语言处理国际顶会 COLING2018 构建的问题语义匹配数据集,其目标是判断两个问题的语义是否相同 12319321
paws-x 百科 23,576 文本分类 相似 Bhavitvya Malik PAWS Wiki中的示例 12320321
wiki_atomic_edit 百科 1,213,780 平行语义 相似 abhishek thakur 基于中文维基百科的编辑记录收集的数据集 未说明 未说明 12321321
chatmed_consult 医药 549,326 问答 问答 Wei Zhu 真实世界的医学相关的问题,使用 gpt3.5 进行回答 12322321
webqa 百科 42,216 问答 问答 suolyer 百度于2016年开源的数据集,数据来自于百度知道;格式为一个问题多篇意思基本一致的文章,分为人为标注以及浏览器检索;数据整体质量中,因为混合了很多检索而来的文章 未说明 12323321
dureader_robust 百科 65,937 机器阅读理解 问答 问答 百度 DuReader robust旨在利用真实应用中的数据样本来衡量阅读理解模型的鲁棒性,评测模型的过敏感性、过稳定性以及泛化能力,是首个中文阅读理解鲁棒性数据集。 12324321
csl 学术 395,927 语料 摘要 Yudong Li, Yuqing Zhang, Zhe Zhao, Linlin Shen, Weijie Liu, Weiquan Mao and Hui Zhang 提供首个中文科学文献数据集(CSL),包含 396,209 篇中文核心期刊论文元信息 (标题、摘要、关键词、学科、门类)。CSL 数据集可以作为预训练语料,也可以构建许多NLP任务,例如文本摘要(标题预测)、 关键词生成和文本分类等。 12325321
snli-zh 口语 419,402 文本分类 推理 liuhuanyong 中文SNLI数据集,翻译自英文SNLI 12326321
SimCLUE 百科 2,678,694 平行语义 相似 数据集合,请在 simCLUE 中查看 整合了中文领域绝大多数可用的开源的语义相似度和自然语言推理的数据集,并重新做了数据拆分和整理。 12327321
谁是源语言的制作者?

数据集的版权归原作者所有,使用各数据集时请尊重原数据集的版权。

SNLI:

@inproceedings{snli:emnlp2015, Author = {Bowman, Samuel R. and Angeli, Gabor and Potts, Christopher, and Manning, Christopher D.}, Booktitle = {Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing (EMNLP)}, Publisher = {Association for Computational Linguistics}, Title = {A large annotated corpus for learning natural language inference}, Year = {2015}}

谁是标注者?

原作者。

数据集的社会影响

该数据集是为评估文本的表示系统而开发的基准,特别是那些由表示学习方法引导的表示系统,在预测给定环境中的真实条件方面。

在此类任务上成功的系统可能在建模语义表示方面更加成功。

许可信息

用于研究目的

用于学术研究

贡献

shibing624 添加了该数据集。