数据集:

bigbio/muchmore

语言:

en de

计算机处理:

multilingual
英文

MuchMore数据集卡片

MuchMore项目使用的语料库是从Springer Link网站获取的英德科学医学摘要的平行语料库。该语料库每种语言大约包含100万个标记。摘要来自41种医学期刊,每种期刊都构成一个相对统一的医学子领域(例如神经学、放射学等)。已通过多种方式对下载的HTML文档进行了归一化处理,以生成由标题、摘要和关键词组成的干净的纯文本版本。此外,语料库还在句子级别上进行了对齐。

自动注释包括:词性;形态(屈折和分解);块;语义类别(UMLS:统一医学语言系统,MeSH:医学主题词,EuroWordNet);来自UMLS的语义关系。

引用信息

@inproceedings{buitelaar2003multi,
  title={A multi-layered, xml-based approach to the integration of linguistic and semantic annotations},
  author={Buitelaar, Paul and Declerck, Thierry and Sacaleanu, Bogdan and Vintar, {{S}}pela and Raileanu, Diana and Crispi, Claudia},
  booktitle={Proceedings of EACL 2003 Workshop on Language Technology and the Semantic Web (NLPXML'03), Budapest, Hungary},
  year={2003}
}