英文

GePpeTto GPT2 模型 ??

预训练的 GPT2 117M 模型适用于意大利语。

您可以在以下论文中找到更多细节:

Lorenzo De Mattei, Michele Cafagna, Felice Dell’Orletta, Malvina Nissim, Marco Guerini "GePpeTto Carves Italian into a Language Model", arXiv 预印本。PDF 可在此处获取: https://arxiv.org/abs/2004.14253

预训练语料库

预训练集包括两个主要来源。第一个是意大利维基百科的转储(2019 年 11 月),包含 2.8GB 的文本。第二个是 ItWac 语料库(Baroni et al., 2009),总计 11GB 的网络文本。该语料库提供了一种混合使用的标准和非标准意大利语,在相当广泛的时间跨度上提供了比维基百科转储更早的文本(后者仅至 2000 年代末期)。

预训练细节

该模型使用 GPT2 的 Hugging Face 实现,在 4 个 NVIDIA Tesla T4 GPU 上进行了 620k 步的训练。

训练参数:

  • GPT-2 small 配置
  • 词汇大小:30k
  • 批次大小:32
  • 块大小:100
  • Adam 优化器
  • 初始学习率:5e-5
  • 热身步骤:10k

困惑度评分

Domain Perplexity
Wikipedia 26.1052
ItWac 30.3965
Legal 37.2197
News 45.3859
Social Media 84.6408

有关进一步细节、定性分析和人类评估,请查看: https://arxiv.org/abs/2004.14253

加载预训练模型

您可以通过安装 Huggingface 库 transformers 来使用此模型。直接通过如下方式初始化:

from transformers import GPT2Tokenizer, GPT2Model

model = GPT2Model.from_pretrained('LorenzoDeMattei/GePpeTto')
tokenizer = GPT2Tokenizer.from_pretrained(
    'LorenzoDeMattei/GePpeTto',
)

使用 GPT2LMHeadModel 的示例

from transformers import AutoTokenizer, AutoModelWithLMHead, pipeline, GPT2Tokenizer

tokenizer = AutoTokenizer.from_pretrained("LorenzoDeMattei/GePpeTto")
model = AutoModelWithLMHead.from_pretrained("LorenzoDeMattei/GePpeTto")

text_generator = pipeline('text-generation', model=model, tokenizer=tokenizer)
prompts = [
    "Wikipedia Geppetto",
    "Maestro Ciliegia regala il pezzo di legno al suo amico Geppetto, il quale lo prende per fabbricarsi un burattino maraviglioso"]


samples_outputs = text_generator(
    prompts,
    do_sample=True,
    max_length=50,
    top_k=50,
    top_p=0.95,
    num_return_sequences=3
)


for i, sample_outputs in enumerate(samples_outputs):
    print(100 * '-')
    print("Prompt:", prompts[i])
    for sample_output in sample_outputs:
        print("Sample:", sample_output['generated_text'])
        print()

输出为:

----------------------------------------------------------------------------------------------------
Prompt: Wikipedia Geppetto
Sample: Wikipedia Geppetto rosso (film 1920)

Geppetto rosso ("The Smokes in the Black") è un film muto del 1920 diretto da Henry H. Leonard.

Il film fu prodotto dalla Selig Poly

Sample: Wikipedia Geppetto

Geppetto ("Geppetto" in piemontese) è un comune italiano di 978 abitanti della provincia di Cuneo in Piemonte.

L'abitato, che si trova nel versante valtellinese, si sviluppa nella

Sample: Wikipedia Geppetto di Natale (romanzo)

Geppetto di Natale è un romanzo di Mario Caiano, pubblicato nel 2012.

----------------------------------------------------------------------------------------------------
Prompt: Maestro Ciliegia regala il pezzo di legno al suo amico Geppetto, il quale lo prende per fabbricarsi un burattino maraviglioso
Sample: Maestro Ciliegia regala il pezzo di legno al suo amico Geppetto, il quale lo prende per fabbricarsi un burattino maraviglioso. Il burattino riesce a scappare. Dopo aver trovato un prezioso sacchetto si reca

Sample: Maestro Ciliegia regala il pezzo di legno al suo amico Geppetto, il quale lo prende per fabbricarsi un burattino maraviglioso, e l'unico che lo possiede, ma, di fronte a tutte queste prove

Sample: Maestro Ciliegia regala il pezzo di legno al suo amico Geppetto, il quale lo prende per fabbricarsi un burattino maraviglioso: - A voi gli occhi, le guance! A voi il mio pezzo!

引用

请使用以下 BibTeX 条目:

@misc{mattei2020geppetto,
    title={GePpeTto Carves Italian into a Language Model},
    author={Lorenzo De Mattei and Michele Cafagna and Felice Dell'Orletta and Malvina Nissim and Marco Guerini},
    year={2020},
    eprint={2004.14253},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

参考文献

Marco Baroni, Silvia Bernardini, Adriano Ferraresi 和 Eros Zanchetta。2009。The WaCky wide web:一组非常大的经过语言处理的网络爬取语料库。Language resources and evaluation, 43(3):209–226.