模型:
mrm8488/galactica-125m
根据 Mitchell et al. (2018) ,本模型卡提供了关于GALACTICA模型的信息,包括该模型的训练方法和预期应用场景。有关模型的详细训练和评估信息,请参阅 release paper 。
GALACTICA模型是基于大规模科学语料库进行训练的。这些模型旨在执行科学任务,包括但不限于引文预测、科学问答、数学推理、摘要生成、文档生成、分子属性预测和实体提取。这些模型由Meta AI的Papers with Code团队开发,用于研究语言模型用于科学自动化组织的应用。我们训练的模型参数范围从125M到120B。以下是发布的模型摘要:
Size | Parameters |
---|---|
mini | 125 M |
base | 1.3 B |
standard | 6.7 B |
large | 30 B |
huge | 120 B |
2022年11月
基于变压器的架构,采用仅解码器的设置,并进行了一些修改(更多细节请参阅论文)。
GALACTICA模型的主要预期用户是研究语言模型应用于科学领域的研究人员。我们还预计该模型将对希望构建科学工具的开发人员有所帮助。但是,鉴于语言模型出现“幻觉”的潜力,我们建议在没有保障措施的情况下谨慎进行生产使用。
该模型采用非商业CC BY-NC 4.0许可证进行提供。有关如何使用该模型的更多信息,请参阅本存储库的README.md。
GALACTICA模型是在1060亿个开放获取的科学文本和数据的基础上进行训练的。这包括论文、教科书、科学网站、百科全书、参考资料、知识库等。我们对不同模态进行分词,以提供不同任务的自然语言接口。有关训练数据的详细信息,请参阅README.md。有关训练数据的完整信息,请参阅论文。
该模型在各种知识探针、推理和知识密集型科学任务上优于其他现有的语言模型。这也扩展到一般的NLP任务,GALACTICA模型比其他开源通用语言模型表现更好。尽管如此,我们在本节中列出了一些局限性。
与其他语言模型一样,GALACTICA模型常常容易产生“幻觉”,即使在训练时使用高质量的学术语料库也不能避免,特别是对于不太流行和引用次数较少的科学概念。在生成模型输出时,无法保证其真实性。这也适用于特定的模态,如引文预测。尽管GALACTICA的引文行为随着规模的增大逼近了真实的引文行为,但该模型在较大规模下仍然存在偏爱流行性的问题。
此外,我们对与刻板印象和有毒性相关的多个基准进行了模型评估。总体而言,与其他大型语言模型相比,该模型的有毒性率明显较低。尽管如此,该模型在某些度量标准上仍然存在偏差(详见论文)。因此,我们建议在使用该模型进行生成时要谨慎。
GALACTICA可以作为发现学术文献的一种新方法。我们还预计将在特定领域(如数学、生物学和化学)应用该模型。在论文中,我们展示了该模型作为标准搜索工具的替代品的几个示例。我们期待基于GALACTICA等大型语言模型构建新一代科学工具。
我们鼓励研究人员探索这些模型的有益和新的用途。但是,了解大型语言模型的当前局限性是非常重要的。研究人员应注意使用这些模型可能带来的常见问题,如幻觉和偏差。