数据集:

Jzuluaga/atco2_corpus_1h

英文

ATCO2测试集语料库(1小时集)的数据集卡片

数据集概述

ATCO2项目旨在开发一个独特的平台,用于收集、组织和预处理来自空域的空中交通管制(语音通信)数据。该项目得到了Clean Sky 2合作项(JU)在864702号授权协议下的资助。JU获得了欧洲联盟的Horizon 2020研究和创新计划以及非联盟成员的Clean Sky 2 JU成员的支持。

该项目收集了空中交通管制员和飞行员之间的实时语音通信,这些通信可以通过公开可访问的无线电频率信道直接获取,也可以通过空中导航服务提供商(ANSP)间接获取。除了语音通信数据外,还以元数据(即监视数据)的形式提供上下文信息。该数据集包括两个不同的包:

  • 在不同机场(Sion、Bern、Zurich等)收集的5000多小时(伪转录)的空中交通管制语音语料库,以.wav格式进行语音识别。发言人分布在男性和女性之间为90/10%,该组包括英语的母语和非母语讲者。
  • 在不同机场(Sion、Bern、Zurich等)收集的4小时(已转录)的空中交通管制语音语料库,以.wav格式进行语音识别。发言人分布在男性和女性之间为90/10%,该组包括英语的母语和非母语讲者。该语料库已经用XML格式进行了转录,包含正字法信息、发言人噪声信息、SNR值等。
  • 4小时转录数据的免费样本为 ATCO2 project homepage

支持的任务和排行榜

语言和其他详细信息

文本和音频是用英语的。有关更多信息,请参见 ATCO2 corpus paper 的表3和表4。

数据集结构

数据字段

  • id(string):每个示例的录音标识符字符串,对应于它的。
  • audio(audio):给定ID的音频数据。
  • text(string):已经进行了规范的文件转录。请按照以下仓库获取更多细节 w2v2-air-traffic bert-text-diarization-atc
  • segment_start_time(float32):段的开始时间(通常为0)。
  • `segment_end_time(float32):段的结束时间。
  • duration(float32):录音的持续时间,计算为segment_end_time - segment_start_time。

其他信息

授权信息

ATCO2-test-set-1h语料库的授权状态在数据文件夹中的ATCO2-ASRdataset-v1_beta - End-User Data Agreement文件中。请在 ATCO2 project homepage 中下载数据。

引用信息

在HuggingFace中准备、处理、规范化和上传数据集的贡献者:

@article{zuluaga2022how,
    title={How Does Pre-trained Wav2Vec2. 0 Perform on Domain Shifted ASR? An Extensive Benchmark on Air Traffic Control Communications},
    author={Zuluaga-Gomez, Juan and Prasad, Amrutha and Nigmatulina, Iuliia and Sarfjoo, Saeed and others},
    journal={IEEE Spoken Language Technology Workshop (SLT), Doha, Qatar},
    year={2022}
  }
@article{zuluaga2022bertraffic,
  title={BERTraffic: BERT-based Joint Speaker Role and Speaker Change Detection for Air Traffic Control Communications},
  author={Zuluaga-Gomez, Juan and Sarfjoo, Seyyed Saeed and Prasad, Amrutha and others},
  journal={IEEE Spoken Language Technology Workshop (SLT), Doha, Qatar},
  year={2022}
  }
@article{zuluaga2022atco2,
  title={ATCO2 corpus: A Large-Scale Dataset for Research on Automatic Speech Recognition and Natural Language Understanding of Air Traffic Control Communications},
  author={Zuluaga-Gomez, Juan and Vesel{\`y}, Karel and Sz{\"o}ke, Igor and Motlicek, Petr and others},
  journal={arXiv preprint arXiv:2211.04054},
  year={2022}
}