数据集:
adithya7/xlel_wd
计算机处理:
multilingual大小:
1M<n<10M语言创建人:
found批注创建人:
found源数据集:
original预印本库:
arxiv:2204.06535许可:
cc-by-4.0XLEL-WD 是一个多语言事件链接数据集。该数据集存储了维基百科/维基新闻文章中对维基数据事件项的提及引用。
对于维基数据事件项的描述是从相应的维基百科文章中收集的。从 adithya7/xlel_wd_dictionary 中下载事件词典。
此数据集可用于事件链接任务。任务有两个变体,即多语言链接和跨语言链接。
此数据集包含来自44种语言的文本。以下列出了这些语言的语言名称及其ISO 639-1代码。有关每种语言的数据集分布的详细信息,请参阅原始论文。
Language | Code | Language | Code | Language | Code | Language | Code |
---|---|---|---|---|---|---|---|
Afrikaans | af | Arabic | ar | Belarusian | be | Bulgarian | bg |
Bengali | bn | Catalan | ca | Czech | cs | Danish | da |
German | de | Greek | el | English | en | Spanish | es |
Persian | fa | Finnish | fi | French | fr | Hebrew | he |
Hindi | hi | Hungarian | hu | Indonesian | id | Italian | it |
Japanese | ja | Korean | ko | Malayalam | ml | Marathi | mr |
Malay | ms | Dutch | nl | Norwegian | no | Polish | pl |
Portuguese | pt | Romanian | ro | Russian | ru | Sinhala | si |
Slovak | sk | Slovene | sl | Serbian | sr | Swedish | sv |
Swahili | sw | Tamil | ta | Telugu | te | Thai | th |
Turkish | tr | Ukrainian | uk | Vietnamese | vi | Chinese | zh |
train.jsonl,dev.jsonl 和 test.jsonl 文件中的每个实例都遵循以下模板。
{ "context_left": "Minibaev's first major international medal came in the men's synchronized 10 metre platform event at the ", "mention": "2010 European Championships", "context_right": ".", "context_lang": "en", "label_id": "830917", }
Field | Meaning |
---|---|
mention | text span of the mention |
context_left | left paragraph context from the document |
context_right | right paragraph context from the document |
context_lang | language of the context (and mention) |
context_title | document title of the mention (only Wikinews subset) |
context_date | document publication date of the mention (only Wikinews subset) |
label_id | Wikidata label ID for the event. E.g. 830917 refers to Q830917 from Wikidata. |
基于维基百科的语料库有三种拆分。这是一个零样本评估设置。
Train | Dev | Test | Total | |
---|---|---|---|---|
Events | 8653 | 1090 | 1204 | 10947 |
Event Sequences | 6758 | 844 | 846 | 8448 |
Mentions | 1.44M | 165K | 190K | 1.8M |
Languages | 44 | 44 | 44 | 44 |
基于维基新闻的评估集有两个变体,一个用于跨领域评估,另一个用于零样本评估。
(Cross-domain) Test | (Zero-shot) Test | |
---|---|---|
Events | 802 | 149 |
Mentions | 2562 | 437 |
Languages | 27 | 21 |
此数据集有助于解决事件链接任务。已经广泛研究了实体的知识库链接,但是不清楚是否可以将相同的方法应用于从知识库中链接提及到事件。我们使用维基数据作为知识库,因为它允许链接多语言维基百科和维基新闻文章的提及。
首先,我们利用维基数据中的时空属性来识别事件项。其次,我们找到每个维基数据事件项对应的多语言维基百科页面。然后,我们从多语言维基百科和维基新闻文章中提取到这些事件项的超链接。
谁是源语言的生产者?XLEL-WD 中的文档是由各个语言的维基百科和维基新闻参与者编写的。
此数据集最初是从维基百科、维基新闻和维基数据中自动收集的。已进行后期处理以提高数据质量。
谁是注释者?XLEL-WD 中的注释(从维基百科/维基新闻到维基数据的超链接)是由原始维基贡献者添加的。
[需要更多信息]
[需要更多信息]
[需要更多信息]
XLEL-WD v1.0.0 主要针对维基数据中的事件名词。它不包括与维基数据中的其他事件项(如疾病爆发(Q3241045)、军事进攻(Q2001676)和战争(Q198))的链接。
数据集由 Adithya Pratapa、Rishubh Gupta 和 Teruko Mitamura 策划。收集数据集的代码可在 Github:xlel-wd 中获得。
XLEL-WD 数据集基于 CC-BY-4.0 license 发布。
@article{pratapa-etal-2022-multilingual, title = {Multilingual Event Linking to Wikidata}, author = {Pratapa, Adithya and Gupta, Rishubh and Mitamura, Teruko}, publisher = {arXiv}, year = {2022}, url = {https://arxiv.org/abs/2204.06535}, }
感谢 @adithya7 添加了这个数据集。