数据集:

shibing624/nli_zh

英文

NLI_zh数据集卡片

数据集概述

常见中文语义匹配数据集,包含 ATEC BQ LCQMC PAWSX STS-B 共5个任务。

数据源:

支持的任务和排行榜

支持的任务:支持中文文本匹配任务,文本相似度计算等相关任务。

中文匹配任务的结果目前在顶会paper上出现较少,我罗列一个我自己训练的结果:

排行榜: NLI_zh leaderboard

语言

数据集均是简体中文文本。

数据集结构

数据实例

'train'的示例如下所示。

{
  "sentence1": "刘诗诗杨幂谁漂亮",
  "sentence2": "刘诗诗和杨幂谁漂亮",
  "label": 1,
}
{
  "sentence1": "汇理财怎么样",
  "sentence2": "怎么样去理财",
  "label": 0,
}

数据字段

所有拆分的数据字段相同。

  • sentence1: a string feature.
  • sentence2: a string feature.
  • label: a classification label, with possible values including similarity (1), dissimilarity (0).

数据拆分

ATEC
$ wc -l ATEC/*
   20000 ATEC/ATEC.test.data
   62477 ATEC/ATEC.train.data
   20000 ATEC/ATEC.valid.data
  102477 total
BQ
$ wc -l BQ/*
   10000 BQ/BQ.test.data
  100000 BQ/BQ.train.data
   10000 BQ/BQ.valid.data
  120000 total
LCQMC
$ wc -l LCQMC/*
   12500 LCQMC/LCQMC.test.data
  238766 LCQMC/LCQMC.train.data
    8802 LCQMC/LCQMC.valid.data
  260068 total
PAWSX
$ wc -l PAWSX/*
    2000 PAWSX/PAWSX.test.data
   49401 PAWSX/PAWSX.train.data
    2000 PAWSX/PAWSX.valid.data
   53401 total
STS-B
$ wc -l STS-B/*
    1361 STS-B/STS-B.test.data
    5231 STS-B/STS-B.train.data
    1458 STS-B/STS-B.valid.data
    8050 total

数据集创建

策划理由

作为中文NLI(natural langauge inference)数据集,这里把这个数据集上传到huggingface的datasets,方便大家使用。

数据源

初始数据收集和规范化,语言生成者是谁?

数据集的版权归原作者所有,使用各数据集时请尊重原数据集的版权。

BQ: Jing Chen, Qingcai Chen, Xin Liu, Haijun Yang, Daohe Lu, Buzhou Tang, The BQ Corpus: A Large-scale Domain-specific Chinese Corpus For Sentence Semantic Equivalence Identification EMNLP2018.

注释

注释过程,注释者是谁?

原作者。

个人和敏感信息

使用数据时的注意事项

数据的社会影响

该数据集被开发为评估文本的表示系统的基准,特别是那些由表示学习方法诱导的系统,在预测给定上下文中的真实条件的任务中。

在这样的任务中成功的系统可能在建模语义表示方面更加成功。

偏见讨论

其他已知限制

其他信息

数据集策划者

  • 苏剑林对文件名称有整理
  • 我上传到huggingface的datasets

许可信息

用于学术研究。

BQ语料库对公众免费开放进行学术研究。

贡献

感谢 @shibing624 添加了这个数据集。