数据集:

quora

任务:

文本分类

子任务:

semantic-similarity-classification

语言:

计算机处理:

monolingual

大小:

100K<n<1M

语言创建人:

found

批注创建人:

expert-generated

源数据集:

original

许可:

license:unknown

数据集介绍文件清单

英文

数据集卡片："quora"

数据集摘要

Quora 数据集由问题对组成，任务是确定这些问题是否是同义词（具有相同的意思）。

支持的任务和排行榜

More Information Needed

语言

More Information Needed

数据集结构

数据实例

default

下载的数据集文件大小：58.17 MB
生成的数据集大小：58.15 MB
总计使用的磁盘空间：116.33 MB

“train”的示例如下所示。

{
    "is_duplicate": true,
    "questions": {
        "id": [1, 2],
        "text": ["Is this a sample question?", "Is this an example question?"]
    }
}

数据字段

数据字段在所有拆分中相同。

default

questions ：包含的字典功能：
- id ：int32特征。
- text ：string特征。
is_duplicate ：bool特征。

数据拆分

name	train
default	404290

数据集创建

策划理由

More Information Needed

数据来源

初始数据收集和规范化。

More Information Needed

语言资源的生产者是谁？

More Information Needed

注释

注释过程

More Information Needed

注释者是谁？

More Information Needed

个人和敏感信息

More Information Needed

使用数据的注意事项

附加信息

数据集策划者

More Information Needed

许可信息

未知许可证。

引用信息

未知。

贡献

感谢 @thomwolf ， @ghomasHudson ， @lewtun 添加此数据集。

作者:

佚名

数据集大小:

10.14 KB

数据集卡片："quora"

数据集摘要

支持的任务和排行榜

语言

数据集结构

数据实例

数据字段

数据拆分

数据集创建

策划理由

数据来源

注释

个人和敏感信息

使用数据的注意事项

数据的社会影响

偏见讨论

其他已知限制

附加信息

数据集策划者

许可信息

引用信息

贡献