数据集:
opus_tedtalks
任务:
翻译计算机处理:
multilingual大小:
10K<n<100K语言创建人:
found批注创建人:
found源数据集:
original许可:
license:unknown这是一个克罗地亚语-英语的平行语料库,包含了翻译和转录的TED演讲,最初来自于 https://wit3.fbk.eu 。该语料库由Željko Agić收集,并使用CC-BY-NC-SA许可提供的 http://lt.ffzg.hr/zagic 。该语料库包含了对应的句子对齐。这些文档是使用Hunalign算法收集和对齐的。
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
初始数据收集和规范化[需要更多信息]
源语言生产者是谁?[需要更多信息]
[需要更多信息]
注释过程[需要更多信息]
标注人员是谁?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
该数据集仅供研究目的使用。请查看数据集许可证获取额外信息。
[需要更多信息]
[CC-BY-NC-SA 许可证] http://creativecommons.org/licenses/by-sa/3.0/
@InProceedings{TIEDEMANN12.463, author = {J{"o}rg Tiedemann}, title = {Parallel Data, Tools and Interfaces in OPUS}, booktitle = {Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC'12)}, year = {2012}, month = {may}, date = {23-25}, address = {Istanbul, Turkey}, editor = {Nicoletta Calzolari (Conference Chair) and Khalid Choukri and Thierry Declerck and Mehmet Ugur Dogan and Bente Maegaard and Joseph Mariani and Jan Odijk and Stelios Piperidis}, publisher = {European Language Resources Association (ELRA)}, isbn = {978-2-9517408-7-7}, language = {english} }
感谢 @rkc007 添加了该数据集。