英文

GPT2-BioPT - 用于生成葡萄牙生物医学文本的语言模型

简介

GPT2-BioPT(葡萄牙生物医学GPT-2 small)是一种基于OpenAI GPT-2模型的葡萄牙语言模型,使用生物医学文献中的 GPorTuguese-2 进行训练。

我们使用了迁移学习和微调技术,使用了110MB的训练数据,相当于16,209,373个标记和729,654个句子。

GPT-2

注意:从 Model: gpt2 >> GPT-2 复制/粘贴的信息

GPT-2是在英语语言上预训练的模型,使用因果语言建模(CLM)目标。它在这 paper 中被介绍,并在这个 page (2019年2月14日)首次发布。

免责声明:发布GPT-2的团队还为他们的模型编写了一个 model card 。本模型信息是由Hugging Face团队根据他们提供的信息编写的,并提供了特定的偏见示例。

模型描述

注意:从 Model: gpt2 >> Model description 复制/粘贴的信息

GPT-2是一种使用自监督方式在大规模英语语料库上预训练的转换器模型。这意味着它只是在原始文本上进行了预训练,而没有以任何方式对其进行人工标注(这就是为什么它可以使用大量公开可用的数据),并通过自动处理过程从这些文本中生成输入和标签。

更确切地说,输入是一系列连续文本的固定长度,目标是相同的序列,向右移动一个令牌(单词或部分单词)。模型内部使用掩码机制,确保仅使用令牌 i 的输入来预测该令牌,而不使用未来的令牌。

这样,模型就学习到了英语语言的内部表示,可以用于提取对下游任务有用的特征。然而,该模型在其预训练的任务中表现最佳,即从提示中生成文本。

如何使用HuggingFace中的GPT2-BioPT

from transformers import pipeline

chef = pipeline('text-generation',model="pucpr/gpt2-bio-pt", tokenizer="pucpr/gpt2-bio-pt",config={'max_length':800})

result = chef('O paciente chegou no hospital')[0]['generated_text']
print(result)

结果:

患者在手术后三个月来到医院,没有发生严重并发症。在出现较多病变的群体中,盆腔检查与并发症的缺乏显著相关。骨折发生率较高(...)

引用

@INPROCEEDINGS{9474713,
  author={Schneider, Elisa Terumi Rubel and de Souza, João Vitor Andrioli and Gumiel, Yohan Bonescki and Moro, Claudia and Paraiso, Emerson Cabrera},
  booktitle={2021 IEEE 34th International Symposium on Computer-Based Medical Systems (CBMS)}, 
  title={A GPT-2 Language Model for Biomedical Texts in Portuguese}, 
  year={2021},
  volume={},
  number={},
  pages={474-479},
  doi={10.1109/CBMS52027.2021.00056}}

有问题吗?

GPT2-Bio-Pt repo 上发布Github问题。