模型:
dkalpakchi/SweCTRL-Mini
SweCTRL-Mini是一个大型的瑞典语语言模型,可在单个普通GPU上用于推理和微调。该模型基于Keskar、McCann、Varshney、Xiong和Socher(2019)的CTRL架构,这意味着SweCTRL-Mini模型的用户可以通过在生成提示中插入特殊符号来控制生成文本的风格。重要的是要注意,该模型的特点是:
对于使用推理API(右边的文本框)的注意事项:有一些预设可以用适当的控制代码在文本开头启动生成文本的风格,例如::wiki:对于来自维基百科的文本。你可以在这些控制代码的基础上添加自己的提示。例如,如果你想要一篇关于斯德哥尔摩的维基百科文章,你可以写::wiki:斯德哥尔摩。在示例中,生成的文本最多限制为75个新的标记。此外,通常情况下,在到达结束控制代码后(该代码在末尾有$符号),生成应该停止,例如::wiki:$对于维基百科的文本,然而,我无法在这里进行配置,所以请忽略在该标记后生成的所有文本。此外,请注意,没有筛选器或其他机制来保证文本不受偏见的影响,也不禁止它生成任何主题的文本。
该模型应该用于生成瑞典语的各种类型的文本。
有关使用限制的信息,请参阅许可证文件的附录A。该模型的上下文窗口大小仅为256个标记,因此它很可能无法很好地用于文本摘要。此外,它的训练数据中绝大部分是瑞典语,尽管还包含其他语言的标记,因此进行机器翻译之类的任务需要进一步的微调。
为了减少包含个人可识别数据的可能性,我们尽力删除包含此类数据的来源(有关数据筛选过程的更多详细信息,请参见技术说明)。然而,我们仍然注意到模型可以生成包含各种偏见形式的文本,因此我们强烈建议对生成的文本进行人工筛选。目前,我们还没有对生成文本中包含的偏见种类进行系统调查,也没有对其发生频率进行系统调查。对于这个问题,社区的贡献将非常受欢迎。
有关模型使用的进一步建议,请参阅相关论文。
开始使用该模型的最快方法是使用下面的代码:
from transformers import pipeline pipe = pipeline(model="dkalpakchi/SweCTRL-Mini") print(pipe(":nyheter:", max_length=256, repetition_penalty=1.1, top_p=0.9))
对于更高级的用法和其他代码示例,请参见相关的GitHub代码库( https://github.com/dkalpakchi/SweCTRL-Mini )。
训练数据包括清理后的瑞典语mC4子集,以及一些来自Project Runeberg的文档。有关训练数据的详细信息,请参见技术说明的第1节。可部分挖掘训练数据的接口位于: https://swectrl.dev/data
详见技术说明的第1节。
训练超参数详见相关论文的第5.3、6和7节以及技术说明的第3节。
可使用 Machine Learning Impact calculator 中提供的 Lacoste et al. (2019) 来估计碳排放量。
详见相关论文的第3节。
BibTeX:
@article{kalpakchi2023swectrl, title={SweCTRL-Mini: a data-transparent Transformer-based large language model for controllable text generation in Swedish}, author={Kalpakchi, Dmytro and Boye, Johan}, journal={arXiv preprint arXiv:2304.13994}, year={2023} }
APA:
Kalpakchi, D., & Boye, J. (2023). SweCTRL-Mini: a data-transparent Transformer-based large language model for controllable text generation in Swedish. arXiv preprint arXiv:2304.13994.
Dmytro Kalpakchi(dmytroka@kth.se)
Dmytro Kalpakchi(dmytroka@kth.se)
Keskar, N. S., McCann, B., Varshney, L. R., Xiong, C., & Socher, R. (2019). Ctrl: A conditional transformer language model for controllable generation. arXiv preprint arXiv:1909.05858.