GPT-2 是使用因果性语言建模(Causal Language Modeling,CLM)目标在保加利亚语上进行预训练的模型。它于 this paper 年引入,并于 this page 首次发布。
这是 MEDIUM 版本。
训练数据来源于 OSCAR 、 Chitanka 和 Wikipedia 的保加利亚文本。
您可以将原始模型用于:
或对其进行微调以用于下游任务。
以下是如何在PyTorch中使用该模型的方法:
>>> from transformers import AutoModel, AutoTokenizer
>>>
>>> model_id = "rmihaylov/gpt2-medium-bg"
>>> tokenizer = AutoTokenizer.from_pretrained(model_id)
>>> model = AutoModel.from_pretrained(model_id, trust_remote_code=True)
>>>
>>> input_ids = tokenizer.encode(
>>> "Здравей,",
>>> add_special_tokens=False,
>>> return_tensors='pt')
>>>
>>> output_ids = model.generate(
>>> input_ids,
>>> do_sample=True,
>>> max_length=50,
>>> top_p=0.92,
>>> pad_token_id=2,
>>> top_k=0)
>>>
>>> output = tokenizer.decode(output_ids[0])
>>>
>>> output = output.replace('<|endoftext|>', '\n\n\n')
>>> output = output.replace('<|unknown|>', '')
>>> output = output.replace('▁', ' ')
>>> output = output.replace('<|n|>', '\n')
>>>
>>> print(output)
Здравей, господин Фиш. — Добс забеляза как пребледня Ривера.
— Не си тръгвайте още. Имам да ви задам няколко въпроса.
— Благодаря, благодаря. — Фиш не изчака да му покаже, че е забелязал жеста й
正如OpenAI团队在其 model card 中指出的那样:
由于GPT-2等大规模语言模型无法区分事实和虚构,因此我们不支持需要生成文本为真实内容的用例。
此外,像GPT-2这样的语言模型会反映出其训练数据中固有的偏见,因此我们不建议将其部署到与人类进行交互的系统中,除非部署者首先对与预期用例相关的偏见进行研究。我们在774M和1.5B之间的性别、种族和宗教偏见探测中没有找到统计学上显著差异,这意味着对于对人类属性相关偏见敏感的用例,所有GPT-2的版本都应以类似的谨慎水平对待。