数据集:

Shiry/ATC_combined

英文

UWB-ATCC语料库数据集卡片

数据集摘要

UWB-ATCC语料库由捷克西布尔诺大学的机电工程系提供。该语料库包含空中交通管制员和飞行员之间的通信记录。语音数据经过手工转录,并用包含说话者信息的标签标记(说话者是飞行员/管制员,而非完整的个人身份)。该语料库目前规模较小(20小时),但我们计划在明年寻找额外的数据。音频数据格式为:8kHz,16bit PCM,单声道。

重要的是,可以从`id`(字符串)字段获取说话者角色。例如:

  • _PI:只有飞行员语音的片段
  • _AT:只有管制员语音的片段
  • PIAT:包含管制员和飞行员语音的片段

支持的任务和排行榜

  • 自动语音识别。可以在此处访问已经适应/微调的模型-> XLS-R-300m

语言和其他细节

文本和录音为英文。作者利用其一个工业合作伙伴可以访问在捷克领空收集的空中交通管制通信录音的机会。该合作伙伴能够提供以下数据:

  • 地面控制-起飞前和降落后的通信-19.2小时的数据。
  • 塔台控制-起飞、降落和备降期间的通信-22.5小时。
  • 进近控制-降落期间的通信-25.5小时。
  • 区域控制-飞越和巡航期间的通信-71.3小时。

(未全部发布数据。请访问他们的网站 here

数据集结构

数据字段

  • id(字符串):每个示例的记录标识符的字符串,对应于其。
  • audio(音频):给定ID的音频数据
  • text(字符串):已经标准化的文件的转录。详细信息请参阅以下存储库 w2v2-air-traffic bert-text-diarization-atc
  • segment_start_time(float32):片段开始时间(通常为0)
  • `segment_end_time(float32):片段结束时间
  • duration(float32):录音时长,计算为segment_end_time - segment_start_time

附加信息

许可信息

数据集的许可状态取决于 UWB-ATCC corpus 创建者的法律地位。

他们使用 Creative Commons - Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0) 许可。

引用信息

为HuggingFace准备、处理、标准化和上传数据集的贡献者:

@article{zuluaga2022how,
    title={How Does Pre-trained Wav2Vec2. 0 Perform on Domain Shifted ASR? An Extensive Benchmark on Air Traffic Control Communications},
    author={Zuluaga-Gomez, Juan and Prasad, Amrutha and Nigmatulina, Iuliia and Sarfjoo, Saeed and others},
    journal={IEEE Spoken Language Technology Workshop (SLT), Doha, Qatar},
    year={2022}
  }

@article{zuluaga2022bertraffic,
  title={BERTraffic: BERT-based Joint Speaker Role and Speaker Change Detection for Air Traffic Control Communications},
  author={Zuluaga-Gomez, Juan and Sarfjoo, Seyyed Saeed and Prasad, Amrutha and others},
  journal={IEEE Spoken Language Technology Workshop (SLT), Doha, Qatar},
  year={2022}
  }

@article{zuluaga2022atco2,
  title={ATCO2 corpus: A Large-Scale Dataset for Research on Automatic Speech Recognition and Natural Language Understanding of Air Traffic Control Communications},
  author={Zuluaga-Gomez, Juan and Vesel{\`y}, Karel and Sz{\"o}ke, Igor and Motlicek, Petr and others},
  journal={arXiv preprint arXiv:2211.04054},
  year={2022}
}

数据集的作者:

@article{vsmidl2019air,
  title={Air traffic control communication (ATCC) speech corpora and their use for ASR and TTS development},
  author={{\v{S}}m{\'\i}dl, Lubo{\v{s}} and {\v{S}}vec, Jan and Tihelka, Daniel and Matou{\v{s}}ek, Jind{\v{r}}ich and Romportl, Jan and Ircing, Pavel},
  journal={Language Resources and Evaluation},
  volume={53},
  number={3},
  pages={449--464},
  year={2019},
  publisher={Springer}
}