数据集:

bianet

任务:

翻译

计算机处理:

translation

语言创建人:

found

批注创建人:

found

源数据集:

original
英文

数据集卡片:[数据集名称]

数据集概要

这是一个包含土耳其语、库尔德语和英语平行新闻语料库的数据集。Bianet从Bianet在线报纸中收集了3,214篇土耳其文章及其与库尔德语或英语对齐的句子翻译。

3种语言,3种双语句对。文件总数:6;标记总数:225万;句子片段总数:14万。

支持的任务和排行榜

[需要更多信息]

语言

[需要更多信息]

数据集结构

数据实例

[需要更多信息]

数据字段

[需要更多信息]

数据划分

[需要更多信息]

数据集创建

策划原理

[需要更多信息]

源数据

初始数据收集和规范化

[需要更多信息]

源语言制作者是谁?

[需要更多信息]

注释

注释过程

[需要更多信息]

注释者是谁?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集维护者

[需要更多信息]

许可信息

CC-BY-SA-4.0

引用信息

@InProceedings{ATAMAN18.6, author = {Duygu Ataman}, title = {Bianet: A Parallel News Corpus in Turkish, Kurdish and English}, booktitle = {Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018)}, year = {2018}, month = {may}, date = {7-12}, location = {Miyazaki, Japan}, editor = {Jinhua Du and Mihael Arcan and Qun Liu and Hitoshi Isahara}, publisher = {European Language Resources Association (ELRA)}, address = {Paris, France}, isbn = {979-10-95546-15-3}, language = {english} }

贡献

感谢用户 @param087 添加此数据集。