模型:
asi/gpt-fr-cased-small
GPT-fr ??是由 Quantmetry 和 Laboratoire de Linguistique Formelle (LLF) 开发的面向法语的GPT模型。我们在一个非常大而多样的法语语料库上对模型进行训练。我们提供以下配置的权重:
Model name | Number of layers | Attention Heads | Embedding Dimension | Total Parameters |
---|---|---|---|---|
gpt-fr-cased-small | 12 | 12 | 768 | 124 M |
gpt-fr-cased-base | 24 | 14 | 1,792 | 1,017 B |
该模型可用于语言生成任务。此外,许多任务可能被格式化为直接生成自然语言的输出。这样的配置可以用于自动摘要或问答等任务。我们希望我们的模型能够在学术和工业应用中使用。
如何使用该模型可以通过惊人的?Transformers库来使用:
from transformers import GPT2Tokenizer, GPT2LMHeadModel # Load pretrained model and tokenizer model = GPT2LMHeadModel.from_pretrained("asi/gpt-fr-cased-small") tokenizer = GPT2Tokenizer.from_pretrained("asi/gpt-fr-cased-small") # Generate a sample of text model.eval() input_sentence = "Longtemps je me suis couché de bonne heure." input_ids = tokenizer.encode(input_sentence, return_tensors='pt') beam_outputs = model.generate( input_ids, max_length=100, do_sample=True, top_k=50, top_p=0.95, num_return_sequences=1 ) print("Output:\n" + 100 * '-') print(tokenizer.decode(beam_outputs[0], skip_special_tokens=True))限制和偏见
大型语言模型往往会复制预训练数据集中的偏见,如性别歧视或产生冒犯性内容。
为了限制过多的明确内容,我们事先仔细选择了数据源。这个过程——在我们的论文中详细说明——旨在通过不进行手动和任意过滤来限制模型生成的冒犯性内容。
然而,一些包含在数据中的社会偏见可能会被模型反映出来。例如,在性别平等方面,我们生成了以下句子序列“Ma femme/Mon mari vient d'obtenir un nouveau poste. A partir de demain elle/il sera _______”,并观察到模型根据主语性别生成了不同的职位。我们使用了k=50的top-k随机采样策略,并在第一个标点符号元素处停止。妻子的职位生成结果为“femme de ménage de la maison”,而丈夫的职位为“à la tête de la police”。我们非常感谢您的反馈,以更好地定性和定量评估此类影响。
我们创建了一个专门的语料库来训练我们的生成模型。事实上,该模型使用1,024个固定长度的上下文大小,并需要用于训练的长文档。我们汇总了现有的语料库: Wikipedia , OpenSubtitle (Tiedemann, 2012), Gutenberg 。语料库经过过滤并分成句子。接着,在每个文档中将连续的句子拼接在1,024个令牌的限制内。
我们在一个TPU v2-8上使用了令人惊叹的 Google Colab 云服务器对模型进行了预训练。
我们为GPT-fr提供了一个专门的语言模型评估基准。与 WikiText 英语基准类似,我们从已验证的 good 和 featured 法语维基百科文章集合中收集了超过7000万个令牌。该模型在测试集上达到的零-shot困惑度为109.2。
除了由HuggingFace Transformers库托管的模型,我们还维护了一个 git repository 。如果您在科学出版物或工业应用中使用GPT-fr,请引用以下论文:
@inproceedings{simoulin:hal-03265900, TITLE = {{Un mod{\`e}le Transformer G{\'e}n{\'e}ratif Pr{\'e}-entrain{\'e} pour le \_\_\_\_\_\_ fran{\c c}ais}}, AUTHOR = {Simoulin, Antoine and Crabb{\'e}, Benoit}, URL = {https://hal.archives-ouvertes.fr/hal-03265900}, BOOKTITLE = {{Traitement Automatique des Langues Naturelles}}, ADDRESS = {Lille, France}, EDITOR = {Denis, Pascal and Grabar, Natalia and Fraisse, Amel and Cardon, R{\'e}mi and Jacquemin, Bernard and Kergosien, Eric and Balvet, Antonio}, PUBLISHER = {{ATALA}}, PAGES = {246-255}, YEAR = {2021}, KEYWORDS = {fran{\c c}ais. ; GPT ; G{\'e}n{\'e}ratif ; Transformer ; Pr{\'e}-entra{\^i}n{\'e}}, PDF = {https://hal.archives-ouvertes.fr/hal-03265900/file/7.pdf}, HAL_ID = {hal-03265900}, HAL_VERSION = {v1}, }