此模型是基于luke-japanese-base-lite进行微调的问答模型

此模型是使用DDQA数据集进行微调的

您可以将此模型用于问答任务

模型精度

'em(严格匹配)': 0.845933014354067, 'f1': 0.9197176274789681

使用方法

请安装sentencepiece和transformers（pip install sentencepiece, pip install transformers），然后执行以下代码来进行问答任务。

import torch
from transformers import AutoTokenizer, LukeForQuestionAnswering

tokenizer = AutoTokenizer.from_pretrained('Mizuiro-sakura/luke-japanese-base-finetuned-QA')
model=LukeForQuestionAnswering.from_pretrained('Mizuiro-sakura/luke-japanese-base-finetuned-QA') # 学習済みモデルの読み込み
text={
    'context':'私の名前はEIMIです。好きな食べ物は苺です。 趣味は皆さんと会話することです。',
    'question' :'好きな食べ物は何ですか'
}

input_ids=tokenizer.encode(text['question'],text['context']) # tokenizerで形態素解析しつつコードに変換する
output= model(torch.tensor([input_ids])) # 学習済みモデルを用いて解析
prediction = tokenizer.decode(input_ids[torch.argmax(output.start_logits): torch.argmax(output.end_logits)]) # 答えに該当する部分を抜き取る
print(prediction)

Luke是什么？[1]

LUKE（Language Understanding with Knowledge-based Embeddings）是基于Transformer的一种新的预训练上下文表示模型，用于表示单词和实体。LUKE将给定文本中的单词和实体视为独立的标记，并输出它们的上下文表示。LUKE采用了一种实体感知的自注意机制，这是对Transformer的自注意机制的扩展，并在计算注意力分数时考虑到标记的类型（单词或实体）。

LUKE在包括SQuAD v1.1（提取式问答）、CoNLL-2003（命名实体识别）、ReCoRD（填空式问答）、TACRED（关系分类）和Open Entity（实体类型）在内的五个流行NLP基准测试中取得了最先进的结果。luke-japanese是LUKE的日本语版本，它是一个基于单词和实体的知识扩展Transformer模型。

致谢

我要感谢山田先生和Studio ousia的开发者。I would like to thank Mr.Yamada @ikuyamada and Studio ousia @StudioOusia。

引用

[1]@inproceedings{yamada2020luke, title={LUKE: Deep Contextualized Entity Representations with Entity-aware Self-attention}, author={Ikuya Yamada and Akari Asai and Hiroyuki Shindo and Hideaki Takeda and Yuji Matsumoto}, booktitle={EMNLP}, year={2020} }

作者:

Mizuiro Sakura

数据集大小:

506.28 MB