数据集:

shibing624/nli_zh

任务:

文本分类

子任务:

natural-language-inference semantic-similarity-scoring text-scoring

语言:

计算机处理:

monolingual

大小:

size_categories:100K<n<20M

语言创建人:

shibing624

批注创建人:

shibing624

源数据集:

https https http

预印本库:

arxiv:1908.11828

许可:

cc-by-4.0

数据集介绍文件清单

英文

NLI_zh数据集卡片

数据集概述

常见中文语义匹配数据集，包含 ATEC 、 BQ 、 LCQMC 、 PAWSX 、 STS-B 共5个任务。

数据源：

ATEC: https://github.com/IceFlameWorm/NLP_Datasets/tree/master/ATEC
BQ: http://icrc.hitsz.edu.cn/info/1037/1162.htm
LCQMC: http://icrc.hitsz.edu.cn/Article/show/171.html
PAWSX: https://arxiv.org/abs/1908.11828
STS-B: https://github.com/pluto-junzeng/CNSD

支持的任务和排行榜

支持的任务：支持中文文本匹配任务，文本相似度计算等相关任务。

中文匹配任务的结果目前在顶会paper上出现较少，我罗列一个我自己训练的结果：

排行榜： NLI_zh leaderboard

语言

数据集均是简体中文文本。

数据集结构

数据实例

'train'的示例如下所示。

{
  "sentence1": "刘诗诗杨幂谁漂亮",
  "sentence2": "刘诗诗和杨幂谁漂亮",
  "label": 1,
}
{
  "sentence1": "汇理财怎么样",
  "sentence2": "怎么样去理财",
  "label": 0,
}

数据字段

所有拆分的数据字段相同。

sentence1: a string feature.
sentence2: a string feature.
label: a classification label, with possible values including similarity (1), dissimilarity (0).

数据拆分

ATEC

$ wc -l ATEC/*
   20000 ATEC/ATEC.test.data
   62477 ATEC/ATEC.train.data
   20000 ATEC/ATEC.valid.data
  102477 total

$ wc -l BQ/*
   10000 BQ/BQ.test.data
  100000 BQ/BQ.train.data
   10000 BQ/BQ.valid.data
  120000 total

LCQMC

$ wc -l LCQMC/*
   12500 LCQMC/LCQMC.test.data
  238766 LCQMC/LCQMC.train.data
    8802 LCQMC/LCQMC.valid.data
  260068 total

PAWSX

$ wc -l PAWSX/*
    2000 PAWSX/PAWSX.test.data
   49401 PAWSX/PAWSX.train.data
    2000 PAWSX/PAWSX.valid.data
   53401 total

STS-B

$ wc -l STS-B/*
    1361 STS-B/STS-B.test.data
    5231 STS-B/STS-B.train.data
    1458 STS-B/STS-B.valid.data
    8050 total

数据集创建

策划理由

作为中文NLI(natural langauge inference)数据集，这里把这个数据集上传到huggingface的datasets，方便大家使用。

数据源

初始数据收集和规范化，语言生成者是谁？

数据集的版权归原作者所有，使用各数据集时请尊重原数据集的版权。

BQ: Jing Chen, Qingcai Chen, Xin Liu, Haijun Yang, Daohe Lu, Buzhou Tang, The BQ Corpus: A Large-scale Domain-specific Chinese Corpus For Sentence Semantic Equivalence Identification EMNLP2018.

注释

注释过程，注释者是谁？

原作者。

个人和敏感信息

使用数据时的注意事项

数据的社会影响

该数据集被开发为评估文本的表示系统的基准，特别是那些由表示学习方法诱导的系统，在预测给定上下文中的真实条件的任务中。

在这样的任务中成功的系统可能在建模语义表示方面更加成功。

偏见讨论

其他已知限制

其他信息

数据集策划者

苏剑林对文件名称有整理
我上传到huggingface的datasets

许可信息

用于学术研究。

BQ语料库对公众免费开放进行学术研究。

贡献

感谢 @shibing624 添加了这个数据集。

作者:

shibing624

数据集大小:

10.45 KB