模型:
LorenzoDeMattei/GePpeTto
预训练的 GPT2 117M 模型适用于意大利语。
您可以在以下论文中找到更多细节:
Lorenzo De Mattei, Michele Cafagna, Felice Dell’Orletta, Malvina Nissim, Marco Guerini "GePpeTto Carves Italian into a Language Model", arXiv 预印本。PDF 可在此处获取: https://arxiv.org/abs/2004.14253
预训练集包括两个主要来源。第一个是意大利维基百科的转储(2019 年 11 月),包含 2.8GB 的文本。第二个是 ItWac 语料库(Baroni et al., 2009),总计 11GB 的网络文本。该语料库提供了一种混合使用的标准和非标准意大利语,在相当广泛的时间跨度上提供了比维基百科转储更早的文本(后者仅至 2000 年代末期)。
该模型使用 GPT2 的 Hugging Face 实现,在 4 个 NVIDIA Tesla T4 GPU 上进行了 620k 步的训练。
训练参数:
Domain | Perplexity |
---|---|
Wikipedia | 26.1052 |
ItWac | 30.3965 |
Legal | 37.2197 |
News | 45.3859 |
Social Media | 84.6408 |
有关进一步细节、定性分析和人类评估,请查看: https://arxiv.org/abs/2004.14253
您可以通过安装 Huggingface 库 transformers 来使用此模型。直接通过如下方式初始化:
from transformers import GPT2Tokenizer, GPT2Model
model = GPT2Model.from_pretrained('LorenzoDeMattei/GePpeTto')
tokenizer = GPT2Tokenizer.from_pretrained(
'LorenzoDeMattei/GePpeTto',
)
from transformers import AutoTokenizer, AutoModelWithLMHead, pipeline, GPT2Tokenizer
tokenizer = AutoTokenizer.from_pretrained("LorenzoDeMattei/GePpeTto")
model = AutoModelWithLMHead.from_pretrained("LorenzoDeMattei/GePpeTto")
text_generator = pipeline('text-generation', model=model, tokenizer=tokenizer)
prompts = [
"Wikipedia Geppetto",
"Maestro Ciliegia regala il pezzo di legno al suo amico Geppetto, il quale lo prende per fabbricarsi un burattino maraviglioso"]
samples_outputs = text_generator(
prompts,
do_sample=True,
max_length=50,
top_k=50,
top_p=0.95,
num_return_sequences=3
)
for i, sample_outputs in enumerate(samples_outputs):
print(100 * '-')
print("Prompt:", prompts[i])
for sample_output in sample_outputs:
print("Sample:", sample_output['generated_text'])
print()
输出为:
----------------------------------------------------------------------------------------------------
Prompt: Wikipedia Geppetto
Sample: Wikipedia Geppetto rosso (film 1920)
Geppetto rosso ("The Smokes in the Black") è un film muto del 1920 diretto da Henry H. Leonard.
Il film fu prodotto dalla Selig Poly
Sample: Wikipedia Geppetto
Geppetto ("Geppetto" in piemontese) è un comune italiano di 978 abitanti della provincia di Cuneo in Piemonte.
L'abitato, che si trova nel versante valtellinese, si sviluppa nella
Sample: Wikipedia Geppetto di Natale (romanzo)
Geppetto di Natale è un romanzo di Mario Caiano, pubblicato nel 2012.
----------------------------------------------------------------------------------------------------
Prompt: Maestro Ciliegia regala il pezzo di legno al suo amico Geppetto, il quale lo prende per fabbricarsi un burattino maraviglioso
Sample: Maestro Ciliegia regala il pezzo di legno al suo amico Geppetto, il quale lo prende per fabbricarsi un burattino maraviglioso. Il burattino riesce a scappare. Dopo aver trovato un prezioso sacchetto si reca
Sample: Maestro Ciliegia regala il pezzo di legno al suo amico Geppetto, il quale lo prende per fabbricarsi un burattino maraviglioso, e l'unico che lo possiede, ma, di fronte a tutte queste prove
Sample: Maestro Ciliegia regala il pezzo di legno al suo amico Geppetto, il quale lo prende per fabbricarsi un burattino maraviglioso: - A voi gli occhi, le guance! A voi il mio pezzo!
请使用以下 BibTeX 条目:
@misc{mattei2020geppetto,
title={GePpeTto Carves Italian into a Language Model},
author={Lorenzo De Mattei and Michele Cafagna and Felice Dell'Orletta and Malvina Nissim and Marco Guerini},
year={2020},
eprint={2004.14253},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
Marco Baroni, Silvia Bernardini, Adriano Ferraresi 和 Eros Zanchetta。2009。The WaCky wide web:一组非常大的经过语言处理的网络爬取语料库。Language resources and evaluation, 43(3):209–226.