数据集:

bprec

语言:

pl

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

expert-generated

批注创建人:

expert-generated

源数据集:

original
英文

[数据集名称] 数据集卡

数据集摘要

波兰品牌产品关系提取语料库

支持的任务和排行榜

NER,实体链接

语言

波兰语

数据集结构

数据实例

[需要更多信息]

数据字段

  • id:文本的整数标识符
  • text:字符串文本,例如社交媒体上的消费者评论
  • ner:提取的实体及其关系
    • source和target:在文本中识别出的一对实体
      • from:表示起始字符的整数值
      • text:实体文本的字符串值
      • to:表示结束字符的整数值
      • type:预先确定的实体类型之一:
        • PRODUCT_NAME
        • PRODUCT_NAME_IMP
        • PRODUCT_NO_BRAND
        • BRAND_NAME
        • BRAND_NAME_IMP
        • VERSION
        • PRODUCT_ADJ
        • BRAND_ADJ
        • LOCATION
        • LOCATION_IMP

数据拆分

没有提供训练/验证/测试拆分。目前的数据集配置针对文本的4个领域类别:

  • 电信
  • 电子产品
  • 化妆品
  • 银行

数据集创建

策划理由

[需要更多信息]

数据源

初始数据收集和规范化

[需要更多信息]

谁是源语言的制作者?

[需要更多信息]

注释

注释过程

[需要更多信息]

谁是注释者?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

[需要更多信息]

许可信息

[需要更多信息]

引用信息

@inproceedings{inproceedings,
author = {Janz, Arkadiusz and Kopociński, Łukasz and Piasecki, Maciej and Pluwak, Agnieszka},
year = {2020},
month = {05},
pages = {},
title = {Brand-Product Relation Extraction Using Heterogeneous Vector Space Representations}
}

贡献

感谢 @kldarek 添加这个数据集。