数据集:

tatoeba

任务:

翻译

计算机处理:

multilingual

大小:

10K<n<100K

语言创建人:

found

批注创建人:

found

源数据集:

original

许可:

cc-by-2.0
英文

Tatoeba数据集卡片

数据集摘要

Tatoeba是一个包含句子和翻译的集合。

要加载一个不在配置中的语言对,你只需要指定语言代码作为pair。可以在数据集描述的主页部分找到有效的语言对: http://opus.nlpl.eu/Tatoeba.php E.g.

dataset = load_dataset("tatoeba", lang1="en", lang2="he")

默认日期为v2021-07-22,但你也可以使用以下命令更改日期

dataset = load_dataset("tatoeba", lang1="en", lang2="he", date="v2020-11-09")

支持的任务和排行榜

[需要更多信息]

语言

数据集中的语言有:

  • ab
  • acm
  • ady
  • af
  • afb
  • afh
  • aii
  • ain
  • ajp
  • akl
  • aln
  • am
  • an
  • ang
  • aoz
  • apc
  • ar
  • arq
  • ary
  • arz
  • as
  • ast
  • avk
  • awa
  • ayl
  • az
  • ba
  • bal
  • bar
  • be
  • ber
  • bg
  • bho
  • bjn
  • bm
  • bn
  • bo
  • br
  • brx
  • bs
  • bua
  • bvy
  • bzt
  • ca
  • cay
  • cbk
  • ce
  • ceb
  • ch
  • chg
  • chn
  • cho
  • chr
  • cjy
  • ckb
  • ckt
  • cmn
  • co
  • code
  • cpi
  • crh
  • crk
  • cs
  • csb
  • cv
  • cy
  • da
  • de
  • dng
  • drt
  • dsb
  • dtp
  • dv
  • dws
  • ee
  • egl
  • el
  • emx
  • en
  • enm
  • eo
  • es
  • et
  • eu
  • ext
  • fi
  • fj
  • fkv
  • fo
  • fr
  • frm
  • fro
  • frr
  • fuc
  • fur
  • fuv
  • fy
  • ga
  • gag
  • gan
  • gbm
  • gcf
  • gd
  • gil
  • gl
  • gn
  • gom
  • gos
  • got
  • grc
  • gsw
  • gu
  • gv
  • ha
  • hak
  • haw
  • hbo
  • he
  • hi
  • hif
  • hil
  • hnj
  • hoc
  • hr
  • hrx
  • hsb
  • hsn
  • ht
  • hu
  • hy
  • ia
  • iba
  • id
  • ie
  • ig
  • ii
  • ike
  • ilo
  • io
  • is
  • it
  • izh
  • ja
  • jam
  • jbo
  • jdt
  • jpa
  • jv
  • ka
  • kaa
  • kab
  • kam
  • kek
  • kha
  • kjh
  • kk
  • kl
  • km
  • kmr
  • kn
  • ko
  • koi
  • kpv
  • krc
  • krl
  • ksh
  • ku
  • kum
  • kw
  • kxi
  • ky
  • kzj: Coastal Kadazan(已过时的标签;首选值:Kadazan Dusun;Central Dusun(dtp))
  • la
  • laa
  • lad
  • lb
  • ldn
  • lfn
  • lg
  • lij
  • liv
  • lkt
  • lld
  • lmo
  • ln
  • lo
  • lt
  • ltg
  • lut
  • lv
  • lzh
  • lzz
  • mad
  • mai
  • max
  • mdf
  • mfe
  • mg
  • mgm
  • mh
  • mhr
  • mi
  • mic
  • min
  • mk
  • ml
  • mn
  • mni
  • mnw
  • moh
  • mr
  • mt
  • mvv
  • mwl
  • mww
  • my
  • myv
  • na
  • nah
  • nan
  • nb
  • nch
  • nds
  • ngt
  • ngu
  • niu
  • nl
  • nlv
  • nn
  • nog
  • non
  • nov
  • npi
  • nst
  • nus
  • nv
  • ny
  • nys
  • oar
  • oc
  • ofs
  • ood
  • or
  • orv
  • os
  • osp
  • ota
  • otk
  • pa
  • pag
  • pal
  • pam
  • pap
  • pau
  • pcd
  • pdc
  • pes
  • phn
  • pi
  • pl
  • pms
  • pnb
  • ppl
  • prg
  • ps
  • pt
  • qu
  • quc
  • qya
  • rap
  • rif
  • rm
  • rn
  • ro
  • rom
  • ru
  • rue
  • rw
  • sa
  • sah
  • sc
  • scn
  • sco
  • sd
  • sdh
  • se
  • sg
  • sgs
  • shs
  • shy
  • si
  • sjn
  • sl
  • sm
  • sma
  • sn
  • so
  • sq
  • sr
  • stq
  • su
  • sux
  • sv
  • swg
  • swh
  • syc
  • ta
  • te
  • tet
  • tg
  • th
  • thv
  • ti
  • tig
  • tk
  • tl
  • tlh
  • tly
  • tmr
  • tmw
  • tn
  • to
  • toi
  • tok
  • tpi
  • tpw
  • tr
  • ts
  • tt
  • tts
  • tvl
  • ty
  • tyv
  • tzl
  • udm
  • ug
  • uk
  • umb
  • ur
  • uz
  • vec
  • vep
  • vi
  • vo
  • vro
  • wa
  • war
  • wo
  • wuu
  • xal
  • xh
  • xqa
  • yi
  • yo
  • yue
  • zlm
  • zsm
  • zu
  • zza

数据集结构

数据实例

[需要更多信息]

数据字段

[需要更多信息]

数据集划分

[需要更多信息]

数据集创建

策划理由

[需要更多信息]

源数据

[需要更多信息]

初始数据收集和规范化

[需要更多信息]

谁是源语言的生成者?

[需要更多信息]

注释

[需要更多信息]

注释过程

[需要更多信息]

谁是注释者?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据集的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

[需要更多信息]

许可信息

[需要更多信息]

引用信息

[需要更多信息]

贡献者

感谢 @abhishekkrthakur 添加了该数据集。