数据集:

Jzuluaga/uwb_atcc

英文

UWB-ATCC语料库数据卡

数据集概述

UWB-ATCC语料库由捷克西波希米亚大学控制工程系提供。该语料库包含空中交通管制员与飞行员之间的通信录音。音频经过手动转录,并用发言人的信息(飞行员/控制员,而不是完整的个人身份)进行标注。当前语料库规模较小(20小时),但我们计划在明年寻找更多的数据。音频数据格式为:8kHz、16bit PCM、单声道。

从以下的方括号``字段中,您可以获取到发言人的角色信息。例如:

  • _PI:只有飞行员讲话的片段
  • _AT:只有ATCO讲话的片段
  • PIAT:既有ATCO又有飞行员讲话的片段

支持的任务和排行榜

  • 自动语音识别。这里提供了已适应/微调的模型--> XLS-R-300m

语言和其他详细信息

文本和录音为英文。作者利用了他们的一个工业合作伙伴的优势,该合作伙伴为多个ATC机构和机场开发复杂的IT解决方案,并且能够获得在捷克领空收集的ATC通信录音。这个合作伙伴能够获取到以下数据:

  • 地面控制 - 起飞前和降落后的通信 - 19.2小时的数据。
  • 塔台控制 - 起飞、降落和等待降落时的通信 - 22.5小时。
  • 进场控制 - 降落进场时的通信 - 25.5小时。
  • 区域控制 - 飞越和巡航时的通信 - 71.3小时。

(并非所有数据都已发布。请检查他们的网站 here

数据集结构

数据字段

  • id(字符串):每个示例的录音标识符字符串,对应它的。
  • audio(音频):给定ID的音频数据
  • text(字符串):文件的转录文本已经进行了规范化。请参考以下资源获取更多详情 w2v2-air-traffic bert-text-diarization-atc
  • segment_start_time(float32):片段的开始时间(通常为0)
  • `segment_end_time(float32):片段的结束时间
  • duration(float32):录音的持续时间,计算为segment_end_time - segment_start_time

其他信息

许可信息

数据集的许可状态取决于 UWB-ATCC corpus 创建者的法律地位。

他们采用了 Creative Commons - Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0) 许可证。

引用信息

准备、处理、规范化和上传数据集到HuggingFace的贡献者:

@article{zuluaga2022how,
    title={How Does Pre-trained Wav2Vec2. 0 Perform on Domain Shifted ASR? An Extensive Benchmark on Air Traffic Control Communications},
    author={Zuluaga-Gomez, Juan and Prasad, Amrutha and Nigmatulina, Iuliia and Sarfjoo, Saeed and others},
    journal={IEEE Spoken Language Technology Workshop (SLT), Doha, Qatar},
    year={2022}
  }

@article{zuluaga2022bertraffic,
  title={BERTraffic: BERT-based Joint Speaker Role and Speaker Change Detection for Air Traffic Control Communications},
  author={Zuluaga-Gomez, Juan and Sarfjoo, Seyyed Saeed and Prasad, Amrutha and others},
  journal={IEEE Spoken Language Technology Workshop (SLT), Doha, Qatar},
  year={2022}
  }

@article{zuluaga2022atco2,
  title={ATCO2 corpus: A Large-Scale Dataset for Research on Automatic Speech Recognition and Natural Language Understanding of Air Traffic Control Communications},
  author={Zuluaga-Gomez, Juan and Vesel{\`y}, Karel and Sz{\"o}ke, Igor and Motlicek, Petr and others},
  journal={arXiv preprint arXiv:2211.04054},
  year={2022}
}

数据集作者:

@article{vsmidl2019air,
  title={Air traffic control communication (ATCC) speech corpora and their use for ASR and TTS development},
  author={{\v{S}}m{\'\i}dl, Lubo{\v{s}} and {\v{S}}vec, Jan and Tihelka, Daniel and Matou{\v{s}}ek, Jind{\v{r}}ich and Romportl, Jan and Ircing, Pavel},
  journal={Language Resources and Evaluation},
  volume={53},
  number={3},
  pages={449--464},
  year={2019},
  publisher={Springer}
}