数据集:

disaster_response_messages

英文

灾害响应信息数据集卡片

数据集概述

该数据集包含3万条信息,其中包括2010年海地地震、2010年智利地震、2010年巴基斯坦洪灾、2012年美国超级风暴桑迪以及覆盖多年和数百次不同灾害的新闻文章。数据已编码为与灾害响应相关的36个不同类别,并且已完全删除了具有敏感信息的消息。发布时,该数据集是优达学城的一门新数据科学课程和AI4ALL夏季学校的特色数据集,特别适用于文本分析和自然语言处理(NLP)任务和模型。该作业的输入数据包含数千条未翻译的与灾害相关的消息及其英文翻译。在上方的“Data”选项卡中,您将找到带有意图和内容40个类标签的注释数据。

支持的任务和排行榜

该作业的输入数据包含数千条未翻译的与灾害相关的消息及其英文翻译。在数据集中,您将找到带有意图和内容40个类标签的注释数据。该数据集包含了原始语言中的原始消息、英文翻译以及描述消息内容的几十个类别。这些类别在列标题中用简单的二进制表示1=是,0=否。

语言

该数据集是一个多语言数据集,其中包含原始语言和对应的英文形式的消息。

数据集结构

数据实例

该数据集包含一条英文消息及其原始语言形式。此外,还有40个标签,有助于更好地理解消息的具体含义。

灾害响应示例:{'split': 'train', 'message': 'Weather update - a cold front from Cuba that could pass over Haiti', 'original': 'Un front froid se retrouve sur Cuba ce matin. Il pourrait traverser Haiti demain. Des averses de pluie isolee sont encore prevues sur notre region ce soi', 'genre': 'direct', 'related': 1, 'PII': 0, 'request': 0, 'offer': 0, 'aid_related': 0, 'medical_help': 0, 'medical_products': 0, 'search_and_rescue': 0, 'security': 0, 'military': 0, 'child_alone': 0, 'water': 0, 'food': 0, 'shelter': 0, 'clothing': 0, 'money': 0, 'missing_people': 0, 'refugees': 0, 'death': 0, 'other_aid': 0, 'infrastructure_related': 0, 'transport': 0, 'buildings': 0, 'electricity': 0, 'tools': 0, 'hospitals': 0, 'shops': 0, 'aid_centers': 0, 'other_infrastructure': 0, 'weather_related': 0, 'floods': 0, 'storm': 0, 'fire': 0, 'earthquake': 0, 'cold': 0, 'other_weather': 0, 'direct_report': 0}

数据字段

*split:训练、测试分割 *message:与灾害相关的实际消息的英文文本 *original:原始语言中的第3列文本,如最初编写的 *genre:消息类型,包括直接消息、社交帖子以及新闻报道或公告 *related:消息是否与灾害相关? 1=是,0=否,2=可能 *PII:消息是否包含PII(个人身份信息)? 1=是,0=否 *request:消息是否包含请求? 1=是,0=否 *offer:消息是否包含提供? 1=是,0=否 *aid_related:消息是否与援助相关? 1=是,0=否 *medical_help:消息是否涉及医疗帮助? 1=是,0=否 *medical_products:消息是否涉及医疗产品? 1=是,0=否 *search_and_rescue:消息是否涉及搜救? 1=是,0=否 *security:消息是否涉及安全? 1=是,0=否 *military:消息是否涉及军事? 1=是,0=否 *child_alone:消息是否提及独自一人的儿童? 1=是,0=否 *water:消息是否涉及水? 1=是,0=否 *food:消息是否涉及食物? 1=是,0=否 *shelter:消息是否涉及住所? 1=是,0=否 *clothing:消息是否涉及服装? 1=是,0=否 *money:消息是否涉及金钱? 1=是,0=否 *missing_people:消息是否提到失踪人员? 1=是,0=否 *refugees:消息是否涉及难民? 1=是,0=否 *death:消息是否暗示死亡? 1=是,0=否 *other_aid:是否需要其他援助? 1=是,0=否 *infrastructure_related:消息是否涉及基础设施? 1=是,0=否 *transport:消息是否涉及交通? 1=是,0=否 *buildings:消息是否涉及建筑物? 1=是,0=否 *electricity:消息是否涉及电力? 1=是,0=否 *tools:消息是否涉及工具? 1=是,0=否 *hospitals:消息是否涉及医院? 1=是,0=否 *shops:消息是否涉及商店? 1=是,0=否 *aid_centers:消息是否涉及救援中心? 1=是,0=否 *other_infrastructure:消息是否涉及其他基础设施? 1=是,0=否 *weather_related:消息是否涉及天气? 1=是,0=否 *floods:消息是否表明发生洪水? 1=是,0=否 *storm:消息是否表明发生风暴? 1=是,0=否 *fire:消息是否表明发生火灾? 1=是,0=否 *earthquake:消息是否表明发生地震? 1=是,0=否 *cold:消息是否表明发生寒冷? 1=是,0=否 *other_weather:消息是否表明发生其他天气问题? 1=是,0=否 *direct_report:消息是否显示直接报告? 1=是,0=否

数据拆分

train test validation
21046 2629 2573

数据集创建

整理原因

构建该数据集的目的是为了了解公民的情感以及他们在灾害中需要什么样的帮助

源数据

初始数据收集和规范化

[需要更多信息]

谁是源语言的生产者?

[需要更多信息]

注释

注释过程

[需要更多信息]

谁是注释员?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

该数据集在了解全球灾害期间公民情感以及他们的响应方面有很大的用途。此外,它帮助政府更好地了解他们的公民,并最终有助于制定相应的更好政策。

偏见讨论

由于消息被翻译成英文,可能无法准确反映个体发布消息时的确切意义

其他已知限制

[需要更多信息]

附加信息

数据集策划者

该数据集最初由 Appen 创建

许可信息

[需要更多信息]

引用信息

Multilingual Disaster Response Messages

贡献

感谢 @darshan-gandhi 添加了这个数据集。