数据集:
bigbio/nlmchem
NLM-Chem语料库包含来自PubMed Central开放访问数据集的150篇全文文章,涵盖了67个不同的化学期刊,旨在覆盖生物医学文献中化学命名使用的一般分布。文章的选择是为了人工注释最有价值(意味着它们富含生物实体,并且目前最先进的命名实体识别系统对生物实体识别存在分歧)。
@Article{islamaj2021nlm, title={NLM-Chem, a new resource for chemical entity recognition in PubMed full text literature}, author={Islamaj, Rezarta and Leaman, Robert and Kim, Sun and Kwon, Dongseop and Wei, Chih-Hsuan and Comeau, Donald C and Peng, Yifan and Cissel, David and Coss, Cathleen and Fisher, Carol and others}, journal={Scientific Data}, volume={8}, number={1}, pages={1--12}, year={2021}, publisher={Nature Publishing Group} }