英文

GPT-2

GPT-2 是使用因果性语言建模(Causal Language Modeling,CLM)目标在保加利亚语上进行预训练的模型。它于 this paper 年引入,并于 this page 首次发布。

模型描述

这是 MEDIUM 版本。

训练数据来源于 OSCAR Chitanka Wikipedia 的保加利亚文本。

预期用途和限制

您可以将原始模型用于:

  • 文本生成
  • 自动补全
  • 拼写纠正

或对其进行微调以用于下游任务。

如何使用

以下是如何在PyTorch中使用该模型的方法:

>>> from transformers import AutoModel, AutoTokenizer
>>>
>>> model_id = "rmihaylov/gpt2-medium-bg"
>>> tokenizer = AutoTokenizer.from_pretrained(model_id)
>>> model = AutoModel.from_pretrained(model_id, trust_remote_code=True)
>>>
>>> input_ids = tokenizer.encode(
>>>     "Здравей,", 
>>>     add_special_tokens=False, 
>>>     return_tensors='pt')
>>>
>>> output_ids = model.generate(
>>>     input_ids, 
>>>     do_sample=True, 
>>>     max_length=50, 
>>>     top_p=0.92, 
>>>     pad_token_id=2,
>>>     top_k=0)
>>>
>>> output = tokenizer.decode(output_ids[0])
>>>
>>> output = output.replace('<|endoftext|>', '\n\n\n')
>>> output = output.replace('<|unknown|>', '')
>>> output = output.replace('▁', ' ')
>>> output = output.replace('<|n|>', '\n')
>>>
>>> print(output)

Здравей, господин Фиш. — Добс забеляза как пребледня Ривера. 
 — Не си тръгвайте още. Имам да ви задам няколко въпроса. 
 — Благодаря, благодаря. — Фиш не изчака да му покаже, че е забелязал жеста й

限制和偏差

正如OpenAI团队在其 model card 中指出的那样:

由于GPT-2等大规模语言模型无法区分事实和虚构,因此我们不支持需要生成文本为真实内容的用例。

此外,像GPT-2这样的语言模型会反映出其训练数据中固有的偏见,因此我们不建议将其部署到与人类进行交互的系统中,除非部署者首先对与预期用例相关的偏见进行研究。我们在774M和1.5B之间的性别、种族和宗教偏见探测中没有找到统计学上显著差异,这意味着对于对人类属性相关偏见敏感的用例,所有GPT-2的版本都应以类似的谨慎水平对待。