数据集:
bigbio/blurb
BLURB是一个生物医学自然语言处理资源集合。在一般领域,如新闻和网络,全面的基准数据集和排行榜(如GLUE)极大地加速了开放领域NLP的进展。然而,在生物医学领域,这样的资源似乎很稀缺。过去,生物医学NLP领域有许多共享任务,如BioCreative,BioNLP Shared Tasks,SemEval和BioASQ等。这些努力在推动研究社区的兴趣和进展方面发挥了重要作用,但它们通常专注于个别任务。神经语言模型的出现,如BERT提供了一个统一的基础,可以利用无标签文本的转移学习来支持各种NLP应用。为了加速生物医学预训练策略和任务特定方法的进展,因此有必要创建一个涵盖多样生物医学任务的广泛基准。
受之前的努力(例如BLUE)的启发,我们创建了BLURB(即生物医学语言理解和推理基准)。BLURB包括了基于PubMed的生物医学NLP应用的全面基准,以及一个用于跟踪社区进展的排行榜。BLURB包含了六个不同任务中的十三个公开可用的数据集。为了避免过分强调具有许多可用数据集的任务,如命名实体识别(NER),BLURB将所有任务的宏平均报告为主要得分。BLURB排行榜是无关模型的。任何能够使用相同的训练和开发数据生成测试预测的系统都可以参与。BLURB的主要目标是降低生物医学NLP的进入门槛,并帮助加速这个非常重要领域的进展,为积极的社会和人类影响做出贡献。
该实施包含截至2022.10.06的5个任务的一个子集,包括它们的原始训练、开发和测试划分。
@article{gu2021domain, title = { Domain-specific language model pretraining for biomedical natural language processing }, author = { Gu, Yu and Tinn, Robert and Cheng, Hao and Lucas, Michael and Usuyama, Naoto and Liu, Xiaodong and Naumann, Tristan and Gao, Jianfeng and Poon, Hoifung }, year = 2021, journal = {ACM Transactions on Computing for Healthcare (HEALTH)}, publisher = {ACM New York, NY}, volume = 3, number = 1, pages = {1--23} }