这是WIP！

GALACTICA（mini）

根据 Mitchell et al. (2018) ，本模型卡提供了关于GALACTICA模型的信息，包括该模型的训练方法和预期应用场景。有关模型的详细训练和评估信息，请参阅 release paper 。

模型详情

GALACTICA模型是基于大规模科学语料库进行训练的。这些模型旨在执行科学任务，包括但不限于引文预测、科学问答、数学推理、摘要生成、文档生成、分子属性预测和实体提取。这些模型由Meta AI的Papers with Code团队开发，用于研究语言模型用于科学自动化组织的应用。我们训练的模型参数范围从125M到120B。以下是发布的模型摘要：

Size	Parameters
mini	125 M
base	1.3 B
standard	6.7 B
large	30 B
huge	120 B

发布日期

2022年11月

模型类型

基于变压器的架构，采用仅解码器的设置，并进行了一些修改（更多细节请参阅论文）。

论文和演示

[Paper] / [Demo]

模型用途

GALACTICA模型的主要预期用户是研究语言模型应用于科学领域的研究人员。我们还预计该模型将对希望构建科学工具的开发人员有所帮助。但是，鉴于语言模型出现“幻觉”的潜力，我们建议在没有保障措施的情况下谨慎进行生产使用。

该模型采用非商业CC BY-NC 4.0许可证进行提供。有关如何使用该模型的更多信息，请参阅本存储库的README.md。

训练数据

GALACTICA模型是在1060亿个开放获取的科学文本和数据的基础上进行训练的。这包括论文、教科书、科学网站、百科全书、参考资料、知识库等。我们对不同模态进行分词，以提供不同任务的自然语言接口。有关训练数据的详细信息，请参阅README.md。有关训练数据的完整信息，请参阅论文。

性能和局限性

该模型在各种知识探针、推理和知识密集型科学任务上优于其他现有的语言模型。这也扩展到一般的NLP任务，GALACTICA模型比其他开源通用语言模型表现更好。尽管如此，我们在本节中列出了一些局限性。

与其他语言模型一样，GALACTICA模型常常容易产生“幻觉”，即使在训练时使用高质量的学术语料库也不能避免，特别是对于不太流行和引用次数较少的科学概念。在生成模型输出时，无法保证其真实性。这也适用于特定的模态，如引文预测。尽管GALACTICA的引文行为随着规模的增大逼近了真实的引文行为，但该模型在较大规模下仍然存在偏爱流行性的问题。

此外，我们对与刻板印象和有毒性相关的多个基准进行了模型评估。总体而言，与其他大型语言模型相比，该模型的有毒性率明显较低。尽管如此，该模型在某些度量标准上仍然存在偏差（详见论文）。因此，我们建议在使用该模型进行生成时要谨慎。

更广泛的影响

GALACTICA可以作为发现学术文献的一种新方法。我们还预计将在特定领域（如数学、生物学和化学）应用该模型。在论文中，我们展示了该模型作为标准搜索工具的替代品的几个示例。我们期待基于GALACTICA等大型语言模型构建新一代科学工具。

我们鼓励研究人员探索这些模型的有益和新的用途。但是，了解大型语言模型的当前局限性是非常重要的。研究人员应注意使用这些模型可能带来的常见问题，如幻觉和偏差。

作者:

Manuel Romero

数据集大小:

480.28 MB