数据集:

opus_tedtalks

任务:

翻译

语言:

en hr

计算机处理:

multilingual

大小:

10K<n<100K

语言创建人:

found

批注创建人:

found

源数据集:

original
英文

OpusTedtalks 数据集卡片

数据集摘要

这是一个克罗地亚语-英语的平行语料库,包含了翻译和转录的TED演讲,最初来自于 https://wit3.fbk.eu 。该语料库由Željko Agić收集,并使用CC-BY-NC-SA许可提供的 http://lt.ffzg.hr/zagic 。该语料库包含了对应的句子对齐。这些文档是使用Hunalign算法收集和对齐的。

支持的任务和排行榜

[需要更多信息]

语言

[需要更多信息]

数据集结构

数据实例

[需要更多信息]

数据字段

[需要更多信息]

数据切分

[需要更多信息]

数据集创建

策划理由

[需要更多信息]

来源数据

[需要更多信息]

初始数据收集和规范化

[需要更多信息]

源语言生产者是谁?

[需要更多信息]

注释

[需要更多信息]

注释过程

[需要更多信息]

标注人员是谁?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据集的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

该数据集仅供研究目的使用。请查看数据集许可证获取额外信息。

其他信息

数据集策划者

[需要更多信息]

许可信息

[CC-BY-NC-SA 许可证] http://creativecommons.org/licenses/by-sa/3.0/

引用信息

@InProceedings{TIEDEMANN12.463, author = {J{"o}rg Tiedemann}, title = {Parallel Data, Tools and Interfaces in OPUS}, booktitle = {Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC'12)}, year = {2012}, month = {may}, date = {23-25}, address = {Istanbul, Turkey}, editor = {Nicoletta Calzolari (Conference Chair) and Khalid Choukri and Thierry Declerck and Mehmet Ugur Dogan and Bente Maegaard and Joseph Mariani and Jan Odijk and Stelios Piperidis}, publisher = {European Language Resources Association (ELRA)}, isbn = {978-2-9517408-7-7}, language = {english} }

贡献者

感谢 @rkc007 添加了该数据集。