数据集:
opus_ubuntu
这些是由 Ubuntu 社区捐赠的 Ubuntu 软件包消息的翻译。
要加载不在配置中的语言对,您只需要将语言代码指定为 pairs.You 可以在数据集描述的主页部分找到有效的语言对: http://opus.nlpl.eu/Ubuntu.php 例如:
dataset = load_dataset("opus_ubuntu", lang1="it", lang2="pl")
[需要更多信息]
[需要更多信息]
示例实例:
{ 'id': '0', 'translation': { 'it': 'Comprende Gmail, Google Docs, Google+, YouTube e Picasa', 'pl': 'Zawiera Gmail, Google Docs, Google+, YouTube oraz Picasa' } }
每个实例有两个字段:
每个子集只包含一个训练集。我们为某些语言对提供了示例数量:
train | |
---|---|
as-bs | 8583 |
az-cs | 293 |
bg-de | 184 |
br-es_PR | 125 |
bn-ga | 7324 |
br-hi | 15551 |
br-la | 527 |
bs-szl | 646 |
br-uz | 1416 |
br-yi | 2799 |
[需要更多信息]
[需要更多信息]
初始数据收集和规范化[需要更多信息]
源语言制作者是谁?[需要更多信息]
[需要更多信息]
注释过程[需要更多信息]
注释者是谁?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
BSD "修订版"许可证(请参阅( https://help.launchpad.net/Legal#Translations_copyright)[https://help.launchpad.net/Legal#Translations_copyright] )
@InProceedings{TIEDEMANN12.463, author = {J{\"o}rg Tiedemann}, title = {Parallel Data, Tools and Interfaces in OPUS}, booktitle = {Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC'12)}, year = {2012}, month = {may}, date = {23-25}, address = {Istanbul, Turkey}, editor = {Nicoletta Calzolari (Conference Chair) and Khalid Choukri and Thierry Declerck and Mehmet Ugur Dogan and Bente Maegaard and Joseph Mariani and Jan Odijk and Stelios Piperidis}, publisher = {European Language Resources Association (ELRA)}, isbn = {978-2-9517408-7-7}, language = {english} }
感谢 @rkc007 添加了这个数据集。