GPT-2 是使用因果性语言建模(Causal Language Modeling,CLM)目标在保加利亚语上进行预训练的模型。它于 this paper 年引入,并于 this page 首次发布。
这是 MEDIUM 版本。
训练数据来源于 OSCAR 、 Chitanka 和 Wikipedia 的保加利亚文本。
您可以将原始模型用于:
或对其进行微调以用于下游任务。
以下是如何在PyTorch中使用该模型的方法:
>>> from transformers import AutoModel, AutoTokenizer >>> >>> model_id = "rmihaylov/gpt2-medium-bg" >>> tokenizer = AutoTokenizer.from_pretrained(model_id) >>> model = AutoModel.from_pretrained(model_id, trust_remote_code=True) >>> >>> input_ids = tokenizer.encode( >>> "Здравей,", >>> add_special_tokens=False, >>> return_tensors='pt') >>> >>> output_ids = model.generate( >>> input_ids, >>> do_sample=True, >>> max_length=50, >>> top_p=0.92, >>> pad_token_id=2, >>> top_k=0) >>> >>> output = tokenizer.decode(output_ids[0]) >>> >>> output = output.replace('<|endoftext|>', '\n\n\n') >>> output = output.replace('<|unknown|>', '') >>> output = output.replace('▁', ' ') >>> output = output.replace('<|n|>', '\n') >>> >>> print(output) Здравей, господин Фиш. — Добс забеляза как пребледня Ривера. — Не си тръгвайте още. Имам да ви задам няколко въпроса. — Благодаря, благодаря. — Фиш не изчака да му покаже, че е забелязал жеста й
正如OpenAI团队在其 model card 中指出的那样:
由于GPT-2等大规模语言模型无法区分事实和虚构,因此我们不支持需要生成文本为真实内容的用例。
此外,像GPT-2这样的语言模型会反映出其训练数据中固有的偏见,因此我们不建议将其部署到与人类进行交互的系统中,除非部署者首先对与预期用例相关的偏见进行研究。我们在774M和1.5B之间的性别、种族和宗教偏见探测中没有找到统计学上显著差异,这意味着对于对人类属性相关偏见敏感的用例,所有GPT-2的版本都应以类似的谨慎水平对待。