英文

模型描述

GPT-fr ??是由 Quantmetry Laboratoire de Linguistique Formelle (LLF) 开发的面向法语的GPT模型。我们在一个非常大而多样的法语语料库上对模型进行训练。我们提供以下配置的权重:

Model name Number of layers Attention Heads Embedding Dimension Total Parameters
gpt-fr-cased-small 12 12 768 124 M
gpt-fr-cased-base 24 14 1,792 1,017 B

使用和限制

该模型可用于语言生成任务。此外,许多任务可能被格式化为直接生成自然语言的输出。这样的配置可以用于自动摘要或问答等任务。我们希望我们的模型能够在学术和工业应用中使用。

如何使用

该模型可以通过惊人的?Transformers库来使用:

from transformers import GPT2Tokenizer, GPT2LMHeadModel

# Load pretrained model and tokenizer
model = GPT2LMHeadModel.from_pretrained("asi/gpt-fr-cased-small")
tokenizer = GPT2Tokenizer.from_pretrained("asi/gpt-fr-cased-small")

# Generate a sample of text
model.eval()
input_sentence = "Longtemps je me suis couché de bonne heure."
input_ids = tokenizer.encode(input_sentence, return_tensors='pt')

beam_outputs = model.generate(
    input_ids, 
    max_length=100, 
    do_sample=True,   
    top_k=50, 
    top_p=0.95, 
    num_return_sequences=1
)

print("Output:\n" + 100 * '-')
print(tokenizer.decode(beam_outputs[0], skip_special_tokens=True))
限制和偏见

大型语言模型往往会复制预训练数据集中的偏见,如性别歧视或产生冒犯性内容。

为了限制过多的明确内容,我们事先仔细选择了数据源。这个过程——在我们的论文中详细说明——旨在通过不进行手动和任意过滤来限制模型生成的冒犯性内容。

然而,一些包含在数据中的社会偏见可能会被模型反映出来。例如,在性别平等方面,我们生成了以下句子序列“Ma femme/Mon mari vient d'obtenir un nouveau poste. A partir de demain elle/il sera _______”,并观察到模型根据主语性别生成了不同的职位。我们使用了k=50的top-k随机采样策略,并在第一个标点符号元素处停止。妻子的职位生成结果为“femme de ménage de la maison”,而丈夫的职位为“à la tête de la police”。我们非常感谢您的反馈,以更好地定性和定量评估此类影响。

训练数据

我们创建了一个专门的语料库来训练我们的生成模型。事实上,该模型使用1,024个固定长度的上下文大小,并需要用于训练的长文档。我们汇总了现有的语料库: Wikipedia OpenSubtitle (Tiedemann, 2012), Gutenberg 。语料库经过过滤并分成句子。接着,在每个文档中将连续的句子拼接在1,024个令牌的限制内。

训练过程

我们在一个TPU v2-8上使用了令人惊叹的 Google Colab 云服务器对模型进行了预训练。

评估结果

我们为GPT-fr提供了一个专门的语言模型评估基准。与 WikiText 英语基准类似,我们从已验证的 good featured 法语维基百科文章集合中收集了超过7000万个令牌。该模型在测试集上达到的零-shot困惑度为109.2。

BibTeX条目和引用信息

除了由HuggingFace Transformers库托管的模型,我们还维护了一个 git repository 。如果您在科学出版物或工业应用中使用GPT-fr,请引用以下论文:

@inproceedings{simoulin:hal-03265900,
  TITLE = {{Un mod{\`e}le Transformer G{\'e}n{\'e}ratif Pr{\'e}-entrain{\'e} pour le \_\_\_\_\_\_ fran{\c c}ais}},
  AUTHOR = {Simoulin, Antoine and Crabb{\'e}, Benoit},
  URL = {https://hal.archives-ouvertes.fr/hal-03265900},
  BOOKTITLE = {{Traitement Automatique des Langues Naturelles}},
  ADDRESS = {Lille, France},
  EDITOR = {Denis, Pascal and Grabar, Natalia and Fraisse, Amel and Cardon, R{\'e}mi and Jacquemin, Bernard and Kergosien, Eric and Balvet, Antonio},
  PUBLISHER = {{ATALA}},
  PAGES = {246-255},
  YEAR = {2021},
  KEYWORDS = {fran{\c c}ais. ; GPT ; G{\'e}n{\'e}ratif ; Transformer ; Pr{\'e}-entra{\^i}n{\'e}},
  PDF = {https://hal.archives-ouvertes.fr/hal-03265900/file/7.pdf},
  HAL_ID = {hal-03265900},
  HAL_VERSION = {v1},
}

参考文献

Jörg Tiedemann: Parallel Data, Tools and Interfaces in OPUS. LREC 2012: 2214-2218