模型:

dkalpakchi/SweCTRL-Mini

英文

SweCTRL-Mini

SweCTRL-Mini是一个大型的瑞典语语言模型,可在单个普通GPU上用于推理和微调。该模型基于Keskar、McCann、Varshney、Xiong和Socher(2019)的CTRL架构,这意味着SweCTRL-Mini模型的用户可以通过在生成提示中插入特殊符号来控制生成文本的风格。重要的是要注意,该模型的特点是:

  • 没有受到类似GPT指示的训练,
  • 没有进行像ChatGPT那样的对话训练,
  • 训练过程中未使用多模态数据。只有一种模态——文本,其中超过99%的文本是瑞典语。

对于使用推理API(右边的文本框)的注意事项:有一些预设可以用适当的控制代码在文本开头启动生成文本的风格,例如::wiki:对于来自维基百科的文本。你可以在这些控制代码的基础上添加自己的提示。例如,如果你想要一篇关于斯德哥尔摩的维基百科文章,你可以写::wiki:斯德哥尔摩。在示例中,生成的文本最多限制为75个新的标记。此外,通常情况下,在到达结束控制代码后(该代码在末尾有$符号),生成应该停止,例如::wiki:$对于维基百科的文本,然而,我无法在这里进行配置,所以请忽略在该标记后生成的所有文本。此外,请注意,没有筛选器或其他机制来保证文本不受偏见的影响,也不禁止它生成任何主题的文本。

模型细节

模型描述

  • 开发者:Dmytro Kalpakchi(在Johan Boye的监督下开发)
  • 共享者:Dmytro Kalpakchi
  • 模型类型:基于Transformer的语言模型,通过预测下一个标记进行训练
  • 语言(NLP):瑞典语
  • 许可证:BigScience Open RAIL-M
  • 从模型进行微调:没有,从头开始训练

模型来源

用途

直接使用

该模型应该用于生成瑞典语的各种类型的文本。

超出范围的使用

有关使用限制的信息,请参阅许可证文件的附录A。该模型的上下文窗口大小仅为256个标记,因此它很可能无法很好地用于文本摘要。此外,它的训练数据中绝大部分是瑞典语,尽管还包含其他语言的标记,因此进行机器翻译之类的任务需要进一步的微调。

偏见、风险和限制

为了减少包含个人可识别数据的可能性,我们尽力删除包含此类数据的来源(有关数据筛选过程的更多详细信息,请参见技术说明)。然而,我们仍然注意到模型可以生成包含各种偏见形式的文本,因此我们强烈建议对生成的文本进行人工筛选。目前,我们还没有对生成文本中包含的偏见种类进行系统调查,也没有对其发生频率进行系统调查。对于这个问题,社区的贡献将非常受欢迎。

推荐

有关模型使用的进一步建议,请参阅相关论文。

如何开始使用该模型

开始使用该模型的最快方法是使用下面的代码:

from transformers import pipeline
pipe = pipeline(model="dkalpakchi/SweCTRL-Mini")
print(pipe(":nyheter:", max_length=256, repetition_penalty=1.1, top_p=0.9))

对于更高级的用法和其他代码示例,请参见相关的GitHub代码库( https://github.com/dkalpakchi/SweCTRL-Mini )。

训练细节

训练数据

训练数据包括清理后的瑞典语mC4子集,以及一些来自Project Runeberg的文档。有关训练数据的详细信息,请参见技术说明的第1节。可部分挖掘训练数据的接口位于: https://swectrl.dev/data

训练过程

预处理[可选]

详见技术说明的第1节。

训练超参数
  • 训练制度:fp32

评估

详见相关论文的第5.3、6和7节以及技术说明的第3节。

环境影响

可使用 Machine Learning Impact calculator 中提供的 Lacoste et al. (2019) 来估计碳排放量。

  • 硬件类型:8个A100 GPU
  • 使用时间:用于训练和实验的11907.6个GPU小时
  • 供应商:BerzeLiUs超级计算机
  • 排放碳量:没有关于碳效率的公开数据,因此很难估计

技术规格

详见相关论文的第3节。

引用

BibTeX:

@article{kalpakchi2023swectrl,
  title={SweCTRL-Mini: a data-transparent Transformer-based large language model for controllable text generation in Swedish},
  author={Kalpakchi, Dmytro and Boye, Johan},
  journal={arXiv preprint arXiv:2304.13994},
  year={2023}
}

APA:

Kalpakchi, D., & Boye, J. (2023). SweCTRL-Mini: a data-transparent Transformer-based large language model for controllable text generation in Swedish. arXiv preprint arXiv:2304.13994.

模型卡作者

Dmytro Kalpakchi(dmytroka@kth.se)

模型卡联系方式

Dmytro Kalpakchi(dmytroka@kth.se)

参考文献

Keskar, N. S., McCann, B., Varshney, L. R., Xiong, C., & Socher, R. (2019). Ctrl: A conditional transformer language model for controllable generation. arXiv preprint arXiv:1909.05858.