数据集:

tner/mit_movie_trivia

语言:

en

计算机处理:

monolingual

大小:

1K<n<10K

许可:

other
英文

"tner / mit_movie_trivia" 数据集卡片

数据集简介

MIT电影NER数据集是 TNER 项目的一部分格式化的数据集。

  • 实体类型:演员、情节、观点、奖项、年份、类型、起源、导演、配乐、关系、角色名称、引用

数据集结构

数据实例

train的一个示例如下。

{
    'tags': [0, 13, 14, 0, 0, 0, 3, 4, 4, 4, 4, 4, 4, 4, 4],
    'tokens': ['a', 'steven', 'spielberg', 'film', 'featuring', 'a', 'bluff', 'called', 'devil', 's', 'tower', 'and', 'a', 'spectacular', 'mothership']
}

标签ID

label2id字典可以在 here 处找到。

{
    "O": 0,
    "B-Actor": 1,
    "I-Actor": 2,
    "B-Plot": 3,
    "I-Plot": 4,
    "B-Opinion": 5,
    "I-Opinion": 6,
    "B-Award": 7,
    "I-Award": 8,
    "B-Year": 9,
    "B-Genre": 10,
    "B-Origin": 11,
    "I-Origin": 12,
    "B-Director": 13,
    "I-Director": 14,
    "I-Genre": 15,
    "I-Year": 16,
    "B-Soundtrack": 17,
    "I-Soundtrack": 18,
    "B-Relationship": 19,
    "I-Relationship": 20,
    "B-Character_Name": 21,
    "I-Character_Name": 22,
    "B-Quote": 23,
    "I-Quote": 24
}

数据拆分

name train validation test
mit_movie_trivia 6816 1000 1953