数据集:

open_subtitles

任务:

翻译

计算机处理:

multilingual

语言创建人:

found

批注创建人:

found

源数据集:

original
英文

OpenSubtitles的数据集卡片

数据集摘要

要加载一个在配置中不存在的语言对,您只需要将语言代码指定为pairs。您可以在数据集描述的主页部分找到有效的语言对。例如:

dataset = load_dataset("open_subtitles", lang1="fi", lang2="hi")

支持的任务和排行榜

[需要更多信息]

语言

数据集中的语言有:

  • af
  • ar
  • bg
  • bn
  • br
  • bs
  • ca
  • cs
  • da
  • de
  • el
  • en
  • eo
  • es
  • et
  • eu
  • fa
  • fi
  • fr
  • gl
  • he
  • hi
  • hr
  • hu
  • hy
  • id
  • is
  • it
  • ja
  • ka
  • kk
  • ko
  • lt
  • lv
  • mk
  • ml
  • ms
  • nl
  • no
  • pl
  • pt
  • pt_br:巴西葡萄牙语(pt-BR)
  • ro
  • ru
  • si
  • sk
  • sl
  • sq
  • sr
  • sv
  • ta
  • te
  • th
  • tl
  • tr
  • uk
  • ur
  • vi
  • ze_en:双语中英文字幕(同时显示两种语言,每行一种语言)
  • ze_zh:双语中英文字幕(同时显示两种语言,每行一种语言)
  • zh_cn:简体中文(zh-CN,zh-Hans)
  • zh_tw:繁体中文(zh-TW,zh-Hant)

数据集结构

数据实例

这里是一些问题和事实的示例:

数据字段

[需要更多信息]

数据拆分

[需要更多信息]

数据集创建

策划理由

[需要更多信息]

来源数据

[需要更多信息]

初始数据收集和规范化

[需要更多信息]

源语言制作人是谁?

[需要更多信息]

注释

[需要更多信息]

注释过程

[需要更多信息]

注释者是谁?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

[需要更多信息]

许可信息

[需要更多信息]

引用信息

[需要更多信息]

贡献

感谢 添加了这个数据集。