数据集:

open_subtitles

任务:

翻译

语言:

计算机处理:

multilingual

大小:

10K<n<100K 1M<n<10M n<1K

语言创建人:

found

批注创建人:

found

源数据集:

original

许可:

license:unknown

数据集介绍文件清单

英文

OpenSubtitles的数据集卡片

数据集摘要

要加载一个在配置中不存在的语言对，您只需要将语言代码指定为pairs。您可以在数据集描述的主页部分找到有效的语言对。例如：

dataset = load_dataset("open_subtitles", lang1="fi", lang2="hi")

支持的任务和排行榜

[需要更多信息]

语言

数据集中的语言有：

af
ar
bg
bn
br
bs
ca
cs
da
de
el
en
eo
es
et
eu
fa
fi
fr
gl
he
hi
hr
hu
hy
id
is
it
ja
ka
kk
ko
lt
lv
mk
ml
ms
nl
no
pl
pt
pt_br：巴西葡萄牙语（pt-BR）
ro
ru
si
sk
sl
sq
sr
sv
ta
te
th
tl
tr
uk
ur
vi
ze_en：双语中英文字幕（同时显示两种语言，每行一种语言）
ze_zh：双语中英文字幕（同时显示两种语言，每行一种语言）
zh_cn：简体中文（zh-CN，zh-Hans）
zh_tw：繁体中文（zh-TW，zh-Hant）

数据集结构

数据实例

这里是一些问题和事实的示例：

数据字段

[需要更多信息]

数据拆分

[需要更多信息]

数据集创建

策划理由

[需要更多信息]

来源数据

[需要更多信息]

初始数据收集和规范化

[需要更多信息]

源语言制作人是谁？

[需要更多信息]

注释

[需要更多信息]

注释过程

[需要更多信息]

注释者是谁？

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

[需要更多信息]

许可信息

[需要更多信息]

引用信息

[需要更多信息]

贡献

感谢添加了这个数据集。

作者:

佚名

数据集大小:

25.09 KB