该模型是在Google Colab上使用SQUAD v1.1的葡萄牙文数据集进行训练的。
使用的语言模型是 BERTimbau Base (也称为"bert-base-portuguese-cased"),来自 Neuralmind.ai :BERTimbau Base是一个预训练的BERT模型,用于巴西葡萄牙语,在三个下游自然语言处理任务(实体识别、句子文本相似性和文本蕴含识别)中取得了最先进的性能。它有两个尺寸:Base和Large。
所有信息都在博客文章中: NLP | Modelo de Question Answering em qualquer idioma baseado no BERT base (estudo de caso em português)
得到的结果如下:
f1 = 82.50 exact match = 70.49
import transformers from transformers import pipeline # source: https://pt.wikipedia.org/wiki/Pandemia_de_COVID-19 context = r""" A pandemia de COVID-19, também conhecida como pandemia de coronavírus, é uma pandemia em curso de COVID-19, uma doença respiratória aguda causada pelo coronavírus da síndrome respiratória aguda grave 2 (SARS-CoV-2). A doença foi identificada pela primeira vez em Wuhan, na província de Hubei, República Popular da China, em 1 de dezembro de 2019, mas o primeiro caso foi reportado em 31 de dezembro do mesmo ano. Acredita-se que o vírus tenha uma origem zoonótica, porque os primeiros casos confirmados tinham principalmente ligações ao Mercado Atacadista de Frutos do Mar de Huanan, que também vendia animais vivos. Em 11 de março de 2020, a Organização Mundial da Saúde declarou o surto uma pandemia. Até 8 de fevereiro de 2021, pelo menos 105 743 102 casos da doença foram confirmados em pelo menos 191 países e territórios, com cerca de 2 308 943 mortes e 58 851 440 pessoas curadas. """ model_name = 'pierreguillou/bert-base-cased-squad-v1.1-portuguese' nlp = pipeline("question-answering", model=model_name) question = "Quando começou a pandemia de Covid-19 no mundo?" result = nlp(question=question, context=context) print(f"Answer: '{result['answer']}', score: {round(result['score'], 4)}, start: {result['start']}, end: {result['end']}") # Answer: '1 de dezembro de 2019', score: 0.713, start: 328, end: 349
from transformers import AutoTokenizer, AutoModelForQuestionAnswering tokenizer = AutoTokenizer.from_pretrained("pierreguillou/bert-base-cased-squad-v1.1-portuguese") model = AutoModelForQuestionAnswering.from_pretrained("pierreguillou/bert-base-cased-squad-v1.1-portuguese")
或者只需克隆模型存储库:
git lfs install git clone https://huggingface.co/pierreguillou/bert-base-cased-squad-v1.1-portuguese # if you want to clone without large files – just their pointers # prepend your git clone with the following env var: GIT_LFS_SKIP_SMUDGE=1
用于此模型的训练数据来自葡萄牙SQUAD。它可能包含许多未经过滤的内容,这远非中立,并且存在偏见。
葡萄牙BERT基本大小写QA(问题回答),经过 Pierre GUILLOU 的训练和评估,感谢许多组织( link to the list )的开源代码、平台和建议。特别是: Hugging Face , Neuralmind.ai , Deep Learning Brasil group , Google Colab 和 AI Lab 。
如果您使用我们的工作,请引用:
@inproceedings{pierreguillou2021bertbasecasedsquadv11portuguese, title={Portuguese BERT base cased QA (Question Answering), finetuned on SQUAD v1.1}, author={Pierre Guillou}, year={2021} }