模型:

Norod78/hebrew-bad_wiki-gpt_neo-tiny

任务:

文本生成

类库:

PyTorch Core ML Safetensors Transformers

语言:

其他:

gpt_neo

预印本库:

arxiv:1910.09700 arxiv:2105.09680

许可:

mit

模型介绍文件清单

英文

hebrew-bad_wiki-gpt_neo-tiny

模型详情

模型描述：

模型开发者注意到该模型是一种生成真正糟糕维基百科摘要文本的希伯来语无意义生成模型。

开发者： Doron Adler
模型类型：文本生成
语言：希伯来语
许可证：MIT
获取更多信息的资源：
GitHub Repo
HuggingFace Space

使用方法

该模型可用于文本生成。

风险、限制和偏见

内容警告：读者应注意，本部分包含令人不安、冒犯的内容，并可能传播历史和现实的刻板印象。

大量研究探讨了语言模型的偏见和公平性问题（例如， Sheng et al. (2021) 和 Bender et al. (2021) ）。

训练

训练数据：来自2020年5月的 Hebrew Wikipedia Dump （hewiki摘要）

训练过程：该模型是在之前使用 EleutherAI's gpt-neo 进行训练的 hebrew-gpt_neo-tiny 的微调结果之上进行微调的。

使用 @minimaxir 的 aitextgen 对维基摘要文本进行了微调。

评估

配置：hebrew-gpt_neo-tiny的模型配置可以在 hebrew-gpt_neo model github 上找到

激活函数：gelu
头数：12
词汇数：50257
训练批量大小：250
评估批量大小：64
预测批量大小：1

环境影响

可以使用 Machine Learning Impact calculator 中提出的 Lacoste et al. (2019) 估算碳排放量。我们根据 associated paper 提供的硬件类型进行说明。

硬件类型：[需要更多信息]
使用小时数：未知
云服务提供商：GCP tpu-v8s
计算区域：europe-west4
产生的碳排放量：[需要更多信息]

如何开始使用该模型

还可以使用Google Colab笔记本 here 进行操作。

from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("Norod78/hebrew-bad_wiki-gpt_neo-tiny")

model = AutoModelForCausalLM.from_pretrained("Norod78/hebrew-bad_wiki-gpt_neo-tiny")

作者:

Doron Adler

数据集大小:

1.69 GB