数据集:
id_nergrit_corpus
任务:
标记分类语言:
id计算机处理:
monolingual大小:
10K<n<100K语言创建人:
expert-generated批注创建人:
expert-generated源数据集:
original许可:
otherNergrit Corpus 是由 PT Gria Inovasi Teknologi (GRIT) 开发的印尼命名实体识别、句子提取和情感分析数据集合。
[需要更多信息]
印尼语
一个数据点由空行分隔的句子和用制表符分隔的标记和标签组成。
{'id': '0', 'tokens': ['Gubernur', 'Bank', 'Indonesia', 'menggelar', 'konferensi', 'pers'], 'ner_tags': [9, 28, 28, 38, 38, 38], }
[需要更多信息]
ner_tags对应以下列表:
"B-CRD", "B-DAT", "B-EVT", "B-FAC", "B-GPE", "B-LAN", "B-LAW", "B-LOC", "B-MON", "B-NOR", "B-ORD", "B-ORG", "B-PER", "B-PRC", "B-PRD", "B-QTY", "B-REG", "B-TIM", "B-WOA", "I-CRD", "I-DAT", "I-EVT", "I-FAC", "I-GPE", "I-LAN", "I-LAW", "I-LOC", "I-MON", "I-NOR", "I-ORD", "I-ORG", "I-PER", "I-PRC", "I-PRD", "I-QTY", "I-REG", "I-TIM", "I-WOA", "O",
ner_tags的格式与CoNLL共享任务中的格式相同:B表示短语的第一个词,I表示非初始词。数据集包含以下19个实体
'CRD': Cardinal 'DAT': Date 'EVT': Event 'FAC': Facility 'GPE': Geopolitical Entity 'LAW': Law Entity (such as Undang-Undang) 'LOC': Location 'MON': Money 'NOR': Political Organization 'ORD': Ordinal 'ORG': Organization 'PER': Person 'PRC': Percent 'PRD': Product 'QTY': Quantity 'REG': Religion 'TIM': Time 'WOA': Work of Art 'LAN': Language情感分析
ner_tags对应以下列表:
"B-NEG", "B-NET", "B-POS", "I-NEG", "I-NET", "I-POS", "O",句子提取
ner_tags对应以下列表:
"B-BREL", "B-FREL", "B-STAT", "B-WHO", "I-BREL", "I-FREL", "I-STAT", "I-WHO", "O"
ner_tags的格式与CoNLL共享任务中的格式相同:B表示短语的第一个词,I表示非初始词。
数据集被划分为训练集、验证集和测试集。
[需要更多信息]
[需要更多信息]
语言制作者是谁?[需要更多信息]
[需要更多信息]
注释者是谁?注释者列在 Nergrit Corpus repository 中
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
感谢 @cahya-wirawan 添加此数据集。