数据集:

trec

语言:

en

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

expert-generated

批注创建人:

expert-generated

源数据集:

original
英文

数据集“trec”的数据卡

数据集简介

Text REtrieval Conference (TREC) 问题分类数据集包含5500个有标签的训练集问题和另外500个测试集问题。

该数据集有6个粗粒度类标签和50个细粒度类标签。每个句子的平均长度为10个单词,词汇量为8700个单词。

数据收集来源包括:USC发布的4500个英文问题(Hovy et al.,2001),大约500个手工构造的罕见类别问题,894个TREC 8和TREC 9问题,以及作为测试集的TREC 10的500个问题。这些问题都经过了手工标注。

支持的任务和排行榜

More Information Needed

语言

该数据集的语言为英语( en )。

数据集结构

数据实例

  • 下载的数据集文件大小: 0.36 MB
  • 生成的数据集大小: 0.41 MB
  • 使用的总磁盘空间量: 0.78 MB

“train”示例如下。

{
  'text': 'How did serfdom develop in and then leave Russia ?',
  'coarse_label': 2,
  'fine_label': 26
}

数据字段

所有划分中的数据字段相同。

  • text ( str ): 问题的文本。
  • coarse_label ( ClassLabel ): 粗粒度类标签。可能的取值为:
    • 'ABBR' (0): 缩写。
    • 'ENTY' (1): 实体。
    • 'DESC' (2): 描述和抽象概念。
    • 'HUM' (3): 人类。
    • 'LOC' (4): 位置。
    • 'NUM' (5): 数值。
  • fine_label ( ClassLabel ): 细粒度类标签。可能的取值为:
    • ABBREVIATION:
      • 'ABBR:abb' (0): 缩写。
      • 'ABBR:exp' (1): 被缩写的表达。
    • ENTITY:
      • 'ENTY:animal' (2): 动物。
      • 'ENTY:body' (3): 身体器官。
      • 'ENTY:color' (4): 颜色。
      • 'ENTY:cremat' (5): 作品、书籍和其他创造性作品。
      • 'ENTY:currency' (6): 货币名称。
      • 'ENTY:dismed' (7): 疾病和药物。
      • 'ENTY:event' (8): 事件。
      • 'ENTY:food' (9): 食物。
      • 'ENTY:instru' (10): 乐器。
      • 'ENTY:lang' (11): 语言。
      • 'ENTY:letter' (12): 类似a-z的字母。
      • 'ENTY:other' (13): 其他实体。
      • 'ENTY:plant' (14): 植物。
      • 'ENTY:product' (15): 产品。
      • 'ENTY:religion' (16): 宗教。
      • 'ENTY:sport' (17): 运动。
      • 'ENTY:substance' (18): 元素和物质。
      • 'ENTY:symbol' (19): 符号和标志。
      • 'ENTY:techmeth' (20): 技术与方法。
      • 'ENTY:termeq' (21): 等效术语。
      • 'ENTY:veh' (22): 车辆。
      • 'ENTY:word' (23): 具有特殊属性的单词。
    • DESCRIPTION:
      • 'DESC:def' (24): 对某物的定义。
      • 'DESC:desc' (25): 对某物的描述。
      • 'DESC:manner' (26): 某种动作的方式。
      • 'DESC:reason' (27): 原因。
    • HUMAN:
      • 'HUM:gr' (28): 人群或组织。
      • 'HUM:ind' (29): 个人。
      • 'HUM:title' (30): 人的头衔。
      • 'HUM:desc' (31): 人的描述。
    • LOCATION:
      • 'LOC:city' (32): 城市。
      • 'LOC:country' (33): 国家。
      • 'LOC:mount' (34): 山。
      • 'LOC:other' (35): 其他地点。
      • 'LOC:state' (36): 州。
    • NUMERIC:
      • 'NUM:code' (37): 邮政编码或其他代码。
      • 'NUM:count' (38): 数量。
      • 'NUM:date' (39): 日期。
      • 'NUM:dist' (40): 距离、线性尺寸。
      • 'NUM:money' (41): 价格。
      • 'NUM:ord' (42): 顺序、等级。
      • 'NUM:other' (43): 其他数字。
      • 'NUM:period' (44): 某事物的持续时间。
      • 'NUM:perc' (45): 百分数、分数。
      • 'NUM:speed' (46): 速度。
      • 'NUM:temp' (47): 温度。
      • 'NUM:volsize' (48): 大小、面积和体积。
      • 'NUM:weight' (49): 重量。

数据划分

name train test
default 5452 500

数据集创建

策划理由

More Information Needed

源数据

初始数据收集和归一化

More Information Needed

谁是源语言的生产者?

More Information Needed

注释

注释过程

More Information Needed

谁是注释者?

More Information Needed

个人和敏感信息

More Information Needed

使用数据的注意事项

数据的社会影响

More Information Needed

偏差讨论

More Information Needed

其他已知限制

More Information Needed

其他信息

数据集策划者

More Information Needed

许可信息

More Information Needed

引用信息

@inproceedings{li-roth-2002-learning,
    title = "Learning Question Classifiers",
    author = "Li, Xin  and
      Roth, Dan",
    booktitle = "{COLING} 2002: The 19th International Conference on Computational Linguistics",
    year = "2002",
    url = "https://www.aclweb.org/anthology/C02-1150",
}
@inproceedings{hovy-etal-2001-toward,
    title = "Toward Semantics-Based Answer Pinpointing",
    author = "Hovy, Eduard  and
      Gerber, Laurie  and
      Hermjakob, Ulf  and
      Lin, Chin-Yew  and
      Ravichandran, Deepak",
    booktitle = "Proceedings of the First International Conference on Human Language Technology Research",
    year = "2001",
    url = "https://www.aclweb.org/anthology/H01-1069",
}

贡献者

感谢 @lhoestq @thomwolf 添加了该数据集。