NLPC-UOM/sentence_alignment_dataset-Sinhala-Tamil-English | ATYUN.COM 官网-人工智能教程资讯全方位服务平台

数据集:

NLPC-UOM/sentence_alignment_dataset-Sinhala-Tamil-English

数据集概述

这是一个用于句子对齐的黄金标准基准数据集，涵盖了僧伽罗语-英语-泰米尔语之间的对齐。数据是从以下新闻网站爬取得到的。在数据集NLPC-UOM/document_alignment_dataset-Sinhala-Tamil-English中进行了句子对齐的文档被用于注释对齐的句子。

News Source	url
Army	1231321
Hiru	1232321
ITN	1233321
Newsfirst	1234321

对齐的句子是手动进行注释的。

数据集

每个新闻来源的文件夹结构如下。

si-en
  |--army
      |--Sinhala
      |--English
      |--army.si-en
  |--hiru <br/>
      |--Sinhala 
      |--English 
      |--hiru.si-en
  |--itn 
      |--Sinhala 
      |--English 
      |--itn.si-en
  |--newsfirst
      |--Sinhala 
      |--English 
      |--newsfirst.si-en 
ta-en
si-ta

Sinhala/English/Tamil - 包含与新闻来源相关的两种语言之间对齐的文档（army/hiru/itn/newsfirst）。对齐的文档具有相同的ID。army.si-en - 黄金句子对齐。每个句子根据语言前缀_文件ID_句子ID进行引用。

引用信息

@article{fernando2022exploiting, title={Exploiting bilingual lexicons to improve multilingual embedding-based document and sentence alignment for low-resource languages}, author={Fernando, Aloka and Ranathunga, Surangika and Sachintha, Dilan and Piyarathna, Lakmali and Rajitha, Charith}, journal={Knowledge and Information Systems}, pages={1--42}, year={2022}, publisher={Springer}}

作者:

NLPC-UOM

数据集大小:

2.42 MB