模型:
LorenzoDeMattei/GePpeTto
预训练的 GPT2 117M 模型适用于意大利语。
您可以在以下论文中找到更多细节:
Lorenzo De Mattei, Michele Cafagna, Felice Dell’Orletta, Malvina Nissim, Marco Guerini "GePpeTto Carves Italian into a Language Model", arXiv 预印本。PDF 可在此处获取: https://arxiv.org/abs/2004.14253
预训练集包括两个主要来源。第一个是意大利维基百科的转储(2019 年 11 月),包含 2.8GB 的文本。第二个是 ItWac 语料库(Baroni et al., 2009),总计 11GB 的网络文本。该语料库提供了一种混合使用的标准和非标准意大利语,在相当广泛的时间跨度上提供了比维基百科转储更早的文本(后者仅至 2000 年代末期)。
该模型使用 GPT2 的 Hugging Face 实现,在 4 个 NVIDIA Tesla T4 GPU 上进行了 620k 步的训练。
训练参数:
Domain | Perplexity |
---|---|
Wikipedia | 26.1052 |
ItWac | 30.3965 |
Legal | 37.2197 |
News | 45.3859 |
Social Media | 84.6408 |
有关进一步细节、定性分析和人类评估,请查看: https://arxiv.org/abs/2004.14253
您可以通过安装 Huggingface 库 transformers 来使用此模型。直接通过如下方式初始化:
from transformers import GPT2Tokenizer, GPT2Model model = GPT2Model.from_pretrained('LorenzoDeMattei/GePpeTto') tokenizer = GPT2Tokenizer.from_pretrained( 'LorenzoDeMattei/GePpeTto', )
from transformers import AutoTokenizer, AutoModelWithLMHead, pipeline, GPT2Tokenizer tokenizer = AutoTokenizer.from_pretrained("LorenzoDeMattei/GePpeTto") model = AutoModelWithLMHead.from_pretrained("LorenzoDeMattei/GePpeTto") text_generator = pipeline('text-generation', model=model, tokenizer=tokenizer) prompts = [ "Wikipedia Geppetto", "Maestro Ciliegia regala il pezzo di legno al suo amico Geppetto, il quale lo prende per fabbricarsi un burattino maraviglioso"] samples_outputs = text_generator( prompts, do_sample=True, max_length=50, top_k=50, top_p=0.95, num_return_sequences=3 ) for i, sample_outputs in enumerate(samples_outputs): print(100 * '-') print("Prompt:", prompts[i]) for sample_output in sample_outputs: print("Sample:", sample_output['generated_text']) print()
输出为:
---------------------------------------------------------------------------------------------------- Prompt: Wikipedia Geppetto Sample: Wikipedia Geppetto rosso (film 1920) Geppetto rosso ("The Smokes in the Black") è un film muto del 1920 diretto da Henry H. Leonard. Il film fu prodotto dalla Selig Poly Sample: Wikipedia Geppetto Geppetto ("Geppetto" in piemontese) è un comune italiano di 978 abitanti della provincia di Cuneo in Piemonte. L'abitato, che si trova nel versante valtellinese, si sviluppa nella Sample: Wikipedia Geppetto di Natale (romanzo) Geppetto di Natale è un romanzo di Mario Caiano, pubblicato nel 2012. ---------------------------------------------------------------------------------------------------- Prompt: Maestro Ciliegia regala il pezzo di legno al suo amico Geppetto, il quale lo prende per fabbricarsi un burattino maraviglioso Sample: Maestro Ciliegia regala il pezzo di legno al suo amico Geppetto, il quale lo prende per fabbricarsi un burattino maraviglioso. Il burattino riesce a scappare. Dopo aver trovato un prezioso sacchetto si reca Sample: Maestro Ciliegia regala il pezzo di legno al suo amico Geppetto, il quale lo prende per fabbricarsi un burattino maraviglioso, e l'unico che lo possiede, ma, di fronte a tutte queste prove Sample: Maestro Ciliegia regala il pezzo di legno al suo amico Geppetto, il quale lo prende per fabbricarsi un burattino maraviglioso: - A voi gli occhi, le guance! A voi il mio pezzo!
请使用以下 BibTeX 条目:
@misc{mattei2020geppetto, title={GePpeTto Carves Italian into a Language Model}, author={Lorenzo De Mattei and Michele Cafagna and Felice Dell'Orletta and Malvina Nissim and Marco Guerini}, year={2020}, eprint={2004.14253}, archivePrefix={arXiv}, primaryClass={cs.CL} }
Marco Baroni, Silvia Bernardini, Adriano Ferraresi 和 Eros Zanchetta。2009。The WaCky wide web:一组非常大的经过语言处理的网络爬取语料库。Language resources and evaluation, 43(3):209–226.