数据集:

dengue_filipino

语言:

tl

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

crowdsourced

源数据集:

original
英文

用于菲律宾语登革热数据集的数据卡

数据集概述

用于低资源多类别分类的基准数据集,包含4,015个训练示例,500个测试示例和500个验证示例,每个示例都标记为五个类别的一部分。每个样本可以属于多个类别。数据集以推文形式收集。

支持的任务和评分榜

[需要更多信息]

语言

数据集主要是菲律宾语,还包含一些在菲律宾语口语中常用的英语单词。

数据集结构

数据实例

示例数据:

{
  "text": "Tapos ang dami pang lamok.",
  "absent": "0",
  "dengue": "0",
  "health": "0",
  "mosquito": "1",
  "sick": "0"
}

数据字段

[需要更多信息]

数据拆分

[需要更多信息]

数据集创建

策划理由

[需要更多信息]

数据源

初始数据收集和规范化

[需要更多信息]

谁是源语言的生产者?

[需要更多信息]

注释

注释过程

[需要更多信息]

注释者是谁?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据集的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划人员

Jan Christian Cruz

授权信息

[需要更多信息]

引用信息

@INPROCEEDINGS{8459963, author={E. D. {Livelo} and C. {Cheng}}, booktitle={2018 IEEE International Conference on Agents (ICA)}, title={Intelligent Dengue Infoveillance Using Gated Recurrent Neural Learning and Cross-Label Frequencies}, year={2018}, volume={}, number={}, pages={2-7}, doi={10.1109/AGENTS.2018.8459963}} }

贡献

感谢 @anaerobeth 添加了该数据集。