数据集:

miam

任务:

文本生成

填充掩码

文本分类

子任务:

dialogue-modeling language-modeling masked-language-modeling

语言:

计算机处理:

multilingual

大小:

10K<n<100K

语言创建人:

expert-generated

批注创建人:

expert-generated

源数据集:

original

其他:

dialogue-act-classification

许可:

cc-by-sa-4.0

数据集介绍文件清单

英文

MIAM数据集概述

数据集摘要

多语言对话行为基准是一个用于训练、评估和分析自然语言理解系统的资源集合，专门设计用于口语。数据集包括英语、法语、德语、意大利语和西班牙语。它们涵盖了各种领域，包括自发言语、脚本场景和联合任务完成。所有数据集都包含对话行为标签。

支持的任务和排行榜

[需要更多信息]

语言

英语、法语、德语、意大利语、西班牙语。

数据集结构

数据实例

Dihana语料库

对于dihana配置，数据集中的一个示例是：

{
  'Speaker': 'U',
  'Utterance': 'Hola , quería obtener el horario para ir a Valencia',
  'Dialogue_Act': 9,  # 'Pregunta' ('Request')
  'Dialogue_ID': '0',
  'File_ID': 'B209_BA5c3',
}

iLISTEN语料库

对于ilisten配置，数据集中的一个示例是：

{
  'Speaker': 'T_11_U11',
  'Utterance': 'ok, grazie per le informazioni',
  'Dialogue_Act': 6,  # 'KIND-ATTITUDE_SMALL-TALK'
  'Dialogue_ID': '0',
}

LORIA语料库

对于loria配置，数据集中的一个示例是：

{
  'Speaker': 'Samir',
  'Utterance': 'Merci de votre visite, bonne chance, et à la prochaine !',
  'Dialogue_Act': 21,  # 'quit'
  'Dialogue_ID': '5',
  'File_ID': 'Dial_20111128_113927',
}

HCRC MapTask语料库

对于maptask配置，数据集中的一个示例是：

{
  'Speaker': 'f',
  'Utterance': 'is it underneath the rope bridge or to the left',
  'Dialogue_Act': 6,  # 'query_w'
  'Dialogue_ID': '0',
  'File_ID': 'q4ec1',
}

VERBMOBIL语料库

对于vm2配置，数据集中的一个示例是：

{
  'Utterance': 'ja was sind viereinhalb Stunden Bahngerüttel gegen siebzig Minuten Turbulenzen im Flugzeug',
  'Utterance': 'Utterance',
  'Dialogue_Act': 'Dialogue_Act',  # 'INFORM'
  'Speaker': 'A',
  'Dialogue_ID': '66',
}

数据字段

对于dihana配置，不同字段如下：

说话者：字符串格式的说话者标识符。
话语：字符串格式的话语。
对话行为：话语的对话行为标签。可以是以下之一：'Afirmacion' (0) [积极反馈]，'Apertura' (1) [开场白]，'Cierre' (2) [闭幕白]，'Confirmacion' (3) [确认]，'Espera' (4) [等待]，'Indefinida' (5) [未定义]，'Negacion' (6) [消极反馈]，'No_entendido' (7) [请求澄清]，'Nueva_consulta' (8) [新请求]，'Pregunta' (9) [问题] 或 'Respuesta' (10) [回复]。
对话标识符：字符串格式的对话标识符。
文件标识符：字符串格式的源文件标识符。

对于ilisten配置，不同字段如下：

说话者：字符串格式的说话者标识符。
话语：字符串格式的话语。
对话行为：话语的对话行为标签。可以是以下之一：'AGREE' (0)，'ANSWER' (1)，'CLOSING' (2)，'ENCOURAGE-SORRY' (3)，'GENERIC-ANSWER' (4)，'INFO-REQUEST' (5)，'KIND-ATTITUDE_SMALL-TALK' (6)，'OFFER-GIVE-INFO' (7)，'OPENING' (8)，'PERSUASION-SUGGEST' (9)，'QUESTION' (10)，'REJECT' (11)，'SOLICITATION-REQ_CLARIFICATION' (12)，'STATEMENT' (13) 或 'TALK-ABOUT-SELF' (14)。
对话标识符：字符串格式的对话标识符。

对于loria配置，不同字段如下：

说话者：字符串格式的说话者标识符。
话语：字符串格式的话语。
对话行为：话语的对话行为标签。可以是以下之一：'ack' (0)，'ask' (1)，'find_mold' (2)，'find_plans' (3)，'first_step' (4)，'greet' (5)，'help' (6)，'inform' (7)，'inform_engine' (8)，'inform_job' (9)，'inform_material_space' (10)，'informer_conditioner' (11)，'informer_decoration' (12)，'informer_elcomps' (13)，'informer_end_manufacturing' (14)，'kindAtt' (15)，'manufacturing_reqs' (16)，'next_step' (17)，'no' (18)，'other' (19)，'quality_control' (20)，'quit' (21)，'reqRep' (22)，'security_policies' (23)，'staff_enterprise' (24)，'staff_job' (25)，'studies_enterprise' (26)，'studies_job' (27)，'todo_failure' (28)，'todo_irreparable' (29) 或 'yes' (30)。
对话标识符：字符串格式的对话标识符。
文件标识符：字符串格式的源文件标识符。

对于maptask配置，不同字段如下：

说话者：字符串格式的说话者标识符。
话语：字符串格式的话语。
对话行为：话语的对话行为标签。可以是以下之一：'acknowledge' (0)，'align' (1)，'check' (2)，'clarify' (3)，'explain' (4)，'instruct' (5)，'query_w' (6)，'query_yn' (7)，'ready' (8)，'reply_n' (9)，'reply_w' (10) 或 'reply_y' (11)。
对话标识符：字符串格式的对话标识符。
文件标识符：字符串格式的源文件标识符。

对于vm2配置，不同字段如下：

话语：字符串格式的话语。
对话行为：话语的对话行为标签。可以是以下之一：'ACCEPT' (0)，'BACKCHANNEL' (1)，'BYE' (2)，'CLARIFY' (3)，'CLOSE' (4)，'COMMIT' (5)，'CONFIRM' (6)，'DEFER' (7)，'DELIBERATE' (8)，'DEVIATE_SCENARIO' (9)，'EXCLUDE' (10)，'EXPLAINED_REJECT' (11)，'FEEDBACK' (12)，'FEEDBACK_NEGATIVE' (13)，'FEEDBACK_POSITIVE' (14)，'GIVE_REASON' (15)，'GREET' (16)，'INFORM' (17)，'INIT' (18)，'INTRODUCE' (19)，'NOT_CLASSIFIABLE' (20)，'OFFER' (21)，'POLITENESS_FORMULA' (22)，'REJECT' (23)，'REQUEST' (24)，'REQUEST_CLARIFY' (25)，'REQUEST_COMMENT' (26)，'REQUEST_COMMIT' (27)，'REQUEST_SUGGEST' (28)，'SUGGEST' (29) 或 'THANK' (30)。
说话者：字符串格式的说话者。
对话标识符：字符串格式的对话标识符。

数据拆分

Dataset name	Train	Valid	Test
dihana	19063	2123	2361
ilisten	1986	230	971
loria	8465	942	1047
maptask	25382	5221	5335
vm2	25060	2860	2855

数据集创建

策展原因

[需要更多信息]

源数据

初始数据收集和规范化

[需要更多信息]

谁是源语言生产者？

[需要更多信息]

注释

注释过程

[需要更多信息]

谁是标注者？

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的考虑事项

数据的社会影响

[需要更多信息]

偏差讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策展人

匿名。

许可信息

本作品采用 Creative Commons Attribution-NonCommercial-ShareAlike 4.0 Unported License 许可。

引用信息

@inproceedings{colombo-etal-2021-code,
    title = "Code-switched inspired losses for spoken dialog representations",
    author = "Colombo, Pierre  and
      Chapuis, Emile  and
      Labeau, Matthieu  and
      Clavel, Chlo{\'e}",
    booktitle = "Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing",
    month = nov,
    year = "2021",
    address = "Online and Punta Cana, Dominican Republic",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.emnlp-main.656",
    doi = "10.18653/v1/2021.emnlp-main.656",
    pages = "8320--8337",
    abstract = "Spoken dialogue systems need to be able to handle both multiple languages and multilinguality inside a conversation (\textit{e.g} in case of code-switching). In this work, we introduce new pretraining losses tailored to learn generic multilingual spoken dialogue representations. The goal of these losses is to expose the model to code-switched language. In order to scale up training, we automatically build a pretraining corpus composed of multilingual conversations in five different languages (French, Italian, English, German and Spanish) from OpenSubtitles, a huge multilingual corpus composed of 24.3G tokens. We test the generic representations on MIAM, a new benchmark composed of five dialogue act corpora on the same aforementioned languages as well as on two novel multilingual tasks (\textit{i.e} multilingual mask utterance retrieval and multilingual inconsistency identification). Our experiments show that our new losses achieve a better performance in both monolingual and multilingual settings.",
}

贡献

感谢 @eusip 和 @PierreColombo 添加此数据集。

作者:

佚名

数据集大小:

54.15 KB