数据集:
opus_dgt
由欧盟联合研究中心(JRC)翻译总局(DGT)提供的翻译记忆库收集: https://ec.europa.eu/jrc/en/language-technologies/dgt-translation-memory
该数据集包含25种语言和299个双语对。
要加载不属于配置文件的语言对,您只需要指定语言代码,例如
dataset = load_dataset("opus_dgt", lang1="it", lang2="pl")
您可以在数据集描述的主页部分找到有效的语言对: http://opus.nlpl.eu/DGT.php
[需要更多信息]
数据集中的语言包括:
{ 'id': '0', 'translation': { "bg": "Протокол за поправка на Конвенцията относно компетентността, признаването и изпълнението на съдебни решения по граждански и търговски дела, подписана в Лугано на 30 октомври 2007 г.", "ga": "Miontuairisc cheartaitheach maidir le Coinbhinsiún ar dhlínse agus ar aithint agus ar fhorghníomhú breithiúnas in ábhair shibhialta agus tráchtála, a siníodh in Lugano an 30 Deireadh Fómhair 2007" } }
数据集包含一个训练集拆分。
[需要更多信息]
[需要更多信息]
初始数据收集和规范化[需要更多信息]
源语言制造商是谁?[需要更多信息]
[需要更多信息]
注释过程[需要更多信息]
注释者是谁?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
@InProceedings{TIEDEMANN12.463, author = {J{\"o}rg Tiedemann}, title = {Parallel Data, Tools and Interfaces in OPUS}, booktitle = {Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC'12)}, year = {2012}, month = {may}, date = {23-25}, address = {Istanbul, Turkey}, editor = {Nicoletta Calzolari (Conference Chair) and Khalid Choukri and Thierry Declerck and Mehmet Ugur Dogan and Bente Maegaard and Joseph Mariani and Jan Odijk and Stelios Piperidis}, publisher = {European Language Resources Association (ELRA)}, isbn = {978-2-9517408-7-7}, language = {english} }
感谢 @rkc007 添加了这个数据集。