このモデルはluke-japanese-large-liteを運転ドメインQAデータセット(DDQA)( https://nlp.ist.i.kyoto-u.ac.jp/index.php?Driving%20domain%20QA%20datasets )を用いてファインチューニングしたものです。
Question-Answeringタスク(SQuAD)に用いることができます。
该模型使用DDQA数据集进行微调。
您可以将该模型用于问答任务。
'em(厳密一致)': 0.8631578947368421, 'f1': 0.9302271135164113
安装sentencepiece和transformers (pip install sentencepiece , pip install transformers),然后执行以下代码,可以用于问答任务。请执行此代码。
import torch from transformers import AutoTokenizer, LukeForQuestionAnswering tokenizer = AutoTokenizer.from_pretrained('Mizuiro-sakura/luke-japanese-large-finetuned-QA') model=LukeForQuestionAnswering.from_pretrained('Mizuiro-sakura/luke-japanese-large-finetuned-QA') # 学習済みモデルの読み込み text={ 'context':'私の名前はEIMIです。好きな食べ物は苺です。 趣味は皆さんと会話することです。', 'question' :'好きな食べ物は何ですか' } input_ids=tokenizer.encode(text['question'],text['context']) # tokenizerで形態素解析しつつコードに変換する output= model(torch.tensor([input_ids])) # 学習済みモデルを用いて解析 prediction = tokenizer.decode(input_ids[torch.argmax(output.start_logits): torch.argmax(output.end_logits)]) # 答えに該当する部分を抜き取る print(prediction)
LUKE(Language Understanding with Knowledge-based Embeddings)是基于Transformer的一种新型预训练上下文化表示方法,用于词汇和实体。LUKE将给定文本中的词汇和实体视为独立的令牌,并输出它们的上下文化表示。LUKE采用了一种实体感知的自注意机制,这是Transformer的自注意机制的扩展,并在计算注意力分数时考虑了令牌的类型(词汇或实体)。
LUKE在包括SQuAD v1.1(抽取式问答)、CoNLL-2003(命名实体识别)、ReCoRD(填空式问答)、TACRED(关系分类)和Open Entity(实体类型)在内的五个流行的NLP基准测试中取得了最先进的结果。luke-japanese是LUKE的日语版本,通过对词汇和实体进行知识扩展并进行Transformer模型的预训练。
我想对山田先生和 Studio ousia致以感谢。感谢他们的LUKE模型的开发。
[1]@inproceedings{yamada2020luke, title={LUKE: Deep Contextualized Entity Representations with Entity-aware Self-attention}, author={Ikuya Yamada and Akari Asai and Hiroyuki Shindo and Hideaki Takeda and Yuji Matsumoto}, booktitle={EMNLP}, year={2020} }