模型:
pucpr/gpt2-bio-pt
GPT2-BioPT(葡萄牙生物医学GPT-2 small)是一种基于OpenAI GPT-2模型的葡萄牙语言模型,使用生物医学文献中的 GPorTuguese-2 进行训练。
我们使用了迁移学习和微调技术,使用了110MB的训练数据,相当于16,209,373个标记和729,654个句子。
注意:从 Model: gpt2 >> GPT-2 复制/粘贴的信息
GPT-2是在英语语言上预训练的模型,使用因果语言建模(CLM)目标。它在这 paper 中被介绍,并在这个 page (2019年2月14日)首次发布。
免责声明:发布GPT-2的团队还为他们的模型编写了一个 model card 。本模型信息是由Hugging Face团队根据他们提供的信息编写的,并提供了特定的偏见示例。
注意:从 Model: gpt2 >> Model description 复制/粘贴的信息
GPT-2是一种使用自监督方式在大规模英语语料库上预训练的转换器模型。这意味着它只是在原始文本上进行了预训练,而没有以任何方式对其进行人工标注(这就是为什么它可以使用大量公开可用的数据),并通过自动处理过程从这些文本中生成输入和标签。
更确切地说,输入是一系列连续文本的固定长度,目标是相同的序列,向右移动一个令牌(单词或部分单词)。模型内部使用掩码机制,确保仅使用令牌 i 的输入来预测该令牌,而不使用未来的令牌。
这样,模型就学习到了英语语言的内部表示,可以用于提取对下游任务有用的特征。然而,该模型在其预训练的任务中表现最佳,即从提示中生成文本。
from transformers import pipeline chef = pipeline('text-generation',model="pucpr/gpt2-bio-pt", tokenizer="pucpr/gpt2-bio-pt",config={'max_length':800}) result = chef('O paciente chegou no hospital')[0]['generated_text'] print(result)
结果:
患者在手术后三个月来到医院,没有发生严重并发症。在出现较多病变的群体中,盆腔检查与并发症的缺乏显著相关。骨折发生率较高(...)
@INPROCEEDINGS{9474713, author={Schneider, Elisa Terumi Rubel and de Souza, João Vitor Andrioli and Gumiel, Yohan Bonescki and Moro, Claudia and Paraiso, Emerson Cabrera}, booktitle={2021 IEEE 34th International Symposium on Computer-Based Medical Systems (CBMS)}, title={A GPT-2 Language Model for Biomedical Texts in Portuguese}, year={2021}, volume={}, number={}, pages={474-479}, doi={10.1109/CBMS52027.2021.00056}}
在 GPT2-Bio-Pt repo 上发布Github问题。