数据集:
bigbio/muchmore
MuchMore项目使用的语料库是从Springer Link网站获取的英德科学医学摘要的平行语料库。该语料库每种语言大约包含100万个标记。摘要来自41种医学期刊,每种期刊都构成一个相对统一的医学子领域(例如神经学、放射学等)。已通过多种方式对下载的HTML文档进行了归一化处理,以生成由标题、摘要和关键词组成的干净的纯文本版本。此外,语料库还在句子级别上进行了对齐。
自动注释包括:词性;形态(屈折和分解);块;语义类别(UMLS:统一医学语言系统,MeSH:医学主题词,EuroWordNet);来自UMLS的语义关系。
@inproceedings{buitelaar2003multi, title={A multi-layered, xml-based approach to the integration of linguistic and semantic annotations}, author={Buitelaar, Paul and Declerck, Thierry and Sacaleanu, Bogdan and Vintar, {{S}}pela and Raileanu, Diana and Crispi, Claudia}, booktitle={Proceedings of EACL 2003 Workshop on Language Technology and the Semantic Web (NLPXML'03), Budapest, Hungary}, year={2003} }