文生文跨语言版 ProphetNet ,在 wiki100 xGLUE dataset 上进行预训练,然后在xGLUE跨语言新闻标题生成任务上进行微调。ProphetNet是一种用于序列到序列学习的新型预训练语言模型,其具有一种名为未来 n-gram 预测的自我监督目标。ProphetNet能够使用 n 流解码器预测更多未来的标记。原始实现是基于 Fairseq 版本的 github repo 。
xProphetNet还作为xGLUE跨语言自然语言生成任务的基线模型。对于 xGLUE 跨语言 NLG 任务,xProphetNet 使用英文数据进行微调,但可以用于英文和其他零样本语言数据的推理。
from transformers import XLMProphetNetTokenizer, XLMProphetNetForConditionalGeneration, ProphetNetConfig model = XLMProphetNetForConditionalGeneration.from_pretrained('microsoft/xprophetnet-large-wiki100-cased-xglue-ntg') tokenizer = XLMProphetNetTokenizer.from_pretrained('microsoft/xprophetnet-large-wiki100-cased-xglue-ntg') EN_SENTENCE = "Microsoft Corporation intends to officially end free support for the Windows 7 operating system after January 14, 2020, according to the official portal of the organization. From that day, users of this system will not be able to receive security updates, which could make their computers vulnerable to cyber attacks." RU_SENTENCE = "орпорация Microsoft намерена официально прекратить бесплатную поддержку операционной системы Windows 7 после 14 января 2020 года, сообщается на официальном портале организации . С указанного дня пользователи этой системы не смогут получать обновления безопасности, из-за чего их компьютеры могут стать уязвимыми к кибератакам." ZH_SENTENCE = "根据该组织的官方门户网站,微软公司打算在2020年1月14日之后正式终止对Windows 7操作系统的免费支持。从那时起,该系统的用户将无法接收安全更新,这可能会使他们的计算机容易受到网络攻击。" inputs = tokenizer([EN_SENTENCE, RU_SENTENCE, ZH_SENTENCE], padding=True, max_length=256, return_tensors='pt') summary_ids = model.generate(inputs['input_ids'], num_beams=4, max_length=100, early_stopping=True) tokenizer.batch_decode(summary_ids, skip_special_tokens=True) # should give: # 'Microsoft to end Windows 7 free support after January 14, 2020' # 'Microsoft намерена прекратить бесплатную поддержку Windows 7 после 14 января 2020 года' # '微软终止对Windows 7操作系统的免费支持'
@article{yan2020prophetnet, title={Prophetnet: Predicting future n-gram for sequence-to-sequence pre-training}, author={Yan, Yu and Qi, Weizhen and Gong, Yeyun and Liu, Dayiheng and Duan, Nan and Chen, Jiusheng and Zhang, Ruofei and Zhou, Ming}, journal={arXiv preprint arXiv:2001.04063}, year={2020} }