此模型是使用DDQA数据集进行微调的
您可以将此模型用于问答任务
'em(严格匹配)': 0.845933014354067, 'f1': 0.9197176274789681
请安装sentencepiece和transformers(pip install sentencepiece, pip install transformers),然后执行以下代码来进行问答任务。
import torch from transformers import AutoTokenizer, LukeForQuestionAnswering tokenizer = AutoTokenizer.from_pretrained('Mizuiro-sakura/luke-japanese-base-finetuned-QA') model=LukeForQuestionAnswering.from_pretrained('Mizuiro-sakura/luke-japanese-base-finetuned-QA') # 学習済みモデルの読み込み text={ 'context':'私の名前はEIMIです。好きな食べ物は苺です。 趣味は皆さんと会話することです。', 'question' :'好きな食べ物は何ですか' } input_ids=tokenizer.encode(text['question'],text['context']) # tokenizerで形態素解析しつつコードに変換する output= model(torch.tensor([input_ids])) # 学習済みモデルを用いて解析 prediction = tokenizer.decode(input_ids[torch.argmax(output.start_logits): torch.argmax(output.end_logits)]) # 答えに該当する部分を抜き取る print(prediction)
LUKE(Language Understanding with Knowledge-based Embeddings)是基于Transformer的一种新的预训练上下文表示模型,用于表示单词和实体。LUKE将给定文本中的单词和实体视为独立的标记,并输出它们的上下文表示。LUKE采用了一种实体感知的自注意机制,这是对Transformer的自注意机制的扩展,并在计算注意力分数时考虑到标记的类型(单词或实体)。
LUKE在包括SQuAD v1.1(提取式问答)、CoNLL-2003(命名实体识别)、ReCoRD(填空式问答)、TACRED(关系分类)和Open Entity(实体类型)在内的五个流行NLP基准测试中取得了最先进的结果。luke-japanese是LUKE的日本语版本,它是一个基于单词和实体的知识扩展Transformer模型。
我要感谢山田先生和Studio ousia的开发者。I would like to thank Mr.Yamada @ikuyamada and Studio ousia @StudioOusia。
[1]@inproceedings{yamada2020luke, title={LUKE: Deep Contextualized Entity Representations with Entity-aware Self-attention}, author={Ikuya Yamada and Akari Asai and Hiroyuki Shindo and Hideaki Takeda and Yuji Matsumoto}, booktitle={EMNLP}, year={2020} }