数据集:
europarl_bilingual
任务:
翻译计算机处理:
translation大小:
100K<n<1M语言创建人:
found批注创建人:
found源数据集:
original许可:
license:unknown这是由爱丁堡大学的 Philipp Koehn 从欧洲议会网站上提取的平行语料库。主要用途是辅助统计机器翻译研究。
要加载不在配置中的语言对,你只需要指定语言代码作为 pairs。你可以在数据集描述的首页部分找到有效的语言对: https://opus.nlpl.eu/Europarl.php 例如
dataset = load_dataset("europarl_bilingual", lang1="fi", lang2="fr")
任务:机器翻译,跨语言词嵌入(CWLE)对齐
每对以下语言都可用:
这是 en-fr 对的一个示例:
{ 'translation': { 'en': 'Resumption of the session', 'fr': 'Reprise de la session' } }
[需要更多信息]
[需要更多信息]
谁是源语言制造者?[需要更多信息]
[需要更多信息]
谁是注释者?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
该数据集与原始来源具有相同的许可证。请查看有关来源的信息,该信息可以在 http://opus.nlpl.eu/Europarl-v8.php 中找到。
@InProceedings{TIEDEMANN12.463, author = {J�rg Tiedemann}, title = {Parallel Data, Tools and Interfaces in OPUS}, booktitle = {Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC'12)}, year = {2012}, month = {may}, date = {23-25}, address = {Istanbul, Turkey}, editor = {Nicoletta Calzolari (Conference Chair) and Khalid Choukri and Thierry Declerck and Mehmet Ugur Dogan and Bente Maegaard and Joseph Mariani and Jan Odijk and Stelios Piperidis}, publisher = {European Language Resources Association (ELRA)}, isbn = {978-2-9517408-7-7}, language = {english} }
感谢 @lucadiliello 添加了该数据集。