OpenSubtitles的数据集卡片
数据集摘要
要加载一个在配置中不存在的语言对,您只需要将语言代码指定为pairs。您可以在数据集描述的主页部分找到有效的语言对。例如:
dataset = load_dataset("open_subtitles", lang1="fi", lang2="hi")
支持的任务和排行榜
[需要更多信息]
语言
数据集中的语言有:
- af
- ar
- bg
- bn
- br
- bs
- ca
- cs
- da
- de
- el
- en
- eo
- es
- et
- eu
- fa
- fi
- fr
- gl
- he
- hi
- hr
- hu
- hy
- id
- is
- it
- ja
- ka
- kk
- ko
- lt
- lv
- mk
- ml
- ms
- nl
- no
- pl
- pt
- pt_br:巴西葡萄牙语(pt-BR)
- ro
- ru
- si
- sk
- sl
- sq
- sr
- sv
- ta
- te
- th
- tl
- tr
- uk
- ur
- vi
- ze_en:双语中英文字幕(同时显示两种语言,每行一种语言)
- ze_zh:双语中英文字幕(同时显示两种语言,每行一种语言)
- zh_cn:简体中文(zh-CN,zh-Hans)
- zh_tw:繁体中文(zh-TW,zh-Hant)
数据集结构
数据实例
这里是一些问题和事实的示例:
数据字段
[需要更多信息]
数据拆分
[需要更多信息]
数据集创建
策划理由
[需要更多信息]
来源数据
[需要更多信息]
初始数据收集和规范化
[需要更多信息]
源语言制作人是谁?
[需要更多信息]
注释
[需要更多信息]
注释过程
[需要更多信息]
注释者是谁?
[需要更多信息]
个人和敏感信息
[需要更多信息]
使用数据的注意事项
数据的社会影响
[需要更多信息]
偏见讨论
[需要更多信息]
其他已知限制
[需要更多信息]
附加信息
数据集策划者
[需要更多信息]
许可信息
[需要更多信息]
引用信息
[需要更多信息]
贡献
感谢 添加了这个数据集。