数据集:
Jzuluaga/atco2_corpus_1h
ATCO2项目旨在开发一个独特的平台,用于收集、组织和预处理来自空域的空中交通管制(语音通信)数据。该项目得到了Clean Sky 2合作项(JU)在864702号授权协议下的资助。JU获得了欧洲联盟的Horizon 2020研究和创新计划以及非联盟成员的Clean Sky 2 JU成员的支持。
该项目收集了空中交通管制员和飞行员之间的实时语音通信,这些通信可以通过公开可访问的无线电频率信道直接获取,也可以通过空中导航服务提供商(ANSP)间接获取。除了语音通信数据外,还以元数据(即监视数据)的形式提供上下文信息。该数据集包括两个不同的包:
文本和音频是用英语的。有关更多信息,请参见 ATCO2 corpus paper 的表3和表4。
ATCO2-test-set-1h语料库的授权状态在数据文件夹中的ATCO2-ASRdataset-v1_beta - End-User Data Agreement文件中。请在 ATCO2 project homepage 中下载数据。
在HuggingFace中准备、处理、规范化和上传数据集的贡献者:
@article{zuluaga2022how, title={How Does Pre-trained Wav2Vec2. 0 Perform on Domain Shifted ASR? An Extensive Benchmark on Air Traffic Control Communications}, author={Zuluaga-Gomez, Juan and Prasad, Amrutha and Nigmatulina, Iuliia and Sarfjoo, Saeed and others}, journal={IEEE Spoken Language Technology Workshop (SLT), Doha, Qatar}, year={2022} } @article{zuluaga2022bertraffic, title={BERTraffic: BERT-based Joint Speaker Role and Speaker Change Detection for Air Traffic Control Communications}, author={Zuluaga-Gomez, Juan and Sarfjoo, Seyyed Saeed and Prasad, Amrutha and others}, journal={IEEE Spoken Language Technology Workshop (SLT), Doha, Qatar}, year={2022} } @article{zuluaga2022atco2, title={ATCO2 corpus: A Large-Scale Dataset for Research on Automatic Speech Recognition and Natural Language Understanding of Air Traffic Control Communications}, author={Zuluaga-Gomez, Juan and Vesel{\`y}, Karel and Sz{\"o}ke, Igor and Motlicek, Petr and others}, journal={arXiv preprint arXiv:2211.04054}, year={2022} }