ByT5 基础模型在 TweetQA 数据集上进行了问题回答的微调任务。
ByT5是 Google's T5 的无需分词版本,基本上遵循 MT5 的架构。ByT5只是在 mC4 上进行了预训练,没有进行任何监督训练,并且平均遮罩了20个UTF-8字符的范围。因此,在将其用于下游任务之前,必须对该模型进行微调。ByT5对于嘈杂的文本数据尤为有效,例如 mt5-base 在 TweetQA 上明显优于谷歌的byt5-base。论文: ByT5: Towards a token-free future with pre-trained byte-to-byte models 作者:Linting Xue,Aditya Barua,Noah Constant,Rami Al-Rfou,Sharan Narang,Mihir Kale,Adam Roberts,Colin Raffel
随着社交媒体越来越受欢迎,很多新闻和实时事件得到了报道。开发自动化的问题回答系统对于依赖实时知识的许多应用的效果至关重要。虽然以前的问题回答(QA)数据集主要集中在新闻和维基百科等正式文本上,但我们提供了第一个用于社交媒体数据的大规模QA数据集。为了确保推文的有意义并包含有趣的信息,我们收集了记者用于撰写新闻文章的推文。然后,我们请人类注释者在这些推文上撰写问题和答案。与SQuAD等QA数据集不同(其中答案是可提取的),我们允许答案是抽象的。该任务要求模型阅读短推文和一个问题,并输出一个文本短语(不需要在推文中)作为答案。
样本
{ "Question": "who is the tallest host?", "Answer": ["sam bee","sam bee"], "Tweet": "Don't believe @ConanOBrien's height lies. Sam Bee is the tallest host in late night. #alternativefacts\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\u2014 Full Frontal (@FullFrontalSamB) January 22, 2017", "qid": "3554ee17d86b678be34c4dc2c04e334f" }
问题:基于推文的信息的问题
答案:推文中可能的答案列表
推文:源推文
qid:问题id
git clone https://github.com/huggingface/transformers.git pip install -q ./transformers
from transformers import AutoTokenizer, T5ForConditionalGeneration ckpt = 'Narrativa/byt5-base-finetuned-tweet-qa' tokenizer = AutoTokenizer.from_pretrained(ckpt) model = T5ForConditionalGeneration.from_pretrained(ckpt).to('cuda') def get_answer(question, context): input_text = 'question: %s context: %s' % (question, context) inputs = tokenizer([input_text], return_tensors='pt') input_ids = inputs.input_ids.to('cuda') attention_mask = inputs.attention_mask.to('cuda') output = model.generate(input_ids, attention_mask=attention_mask) return tokenizer.decode(output[0], skip_special_tokens=True) context = "MONSTARS BASKETBALL @M0NSTARSBBALLWiggins answers Kemba's floater with a three! game tied 106-106. 8.9 to play. CHA ball!12/4/2016, 2:26:30 AM" question = 'who answered kemba\'s "floater"?' get_answer(question, context) # wiggins
创建者: Narrativa
关于Narrativa:自然语言生成(NLG)|我们的基于机器学习的平台Gabriele构建和部署自然语言解决方案。#NLG#AI