在昨日,在线视频平台哔哩哔哩宣布,其研发的轻量级Index-1.9B系列模型正式开源。这一系列模型包括基座模型、对照组、对话模型及角色扮演模型等多个版本,展示了B站在人工智能领域的深度布局与创新能力。
据悉,Index-1.9B base作为基座模型,拥有高达19亿非词嵌入参数量,其在包含2.8T中英文为主的语料上进行了预训练。在多个评测基准上,该模型与同级别模型相比表现出色,彰显了其卓越的性能。
值得关注的是,Index-1.9B pure作为基座模型的对照组,同样拥有与base相同的参数和训练策略。但与众不同的是,pure版本在语料中严格过滤了所有指令相关的数据,旨在验证指令对基准测试的影响,为模型的优化提供了宝贵的参考。
而Index-1.9B chat模型,则是基于index-1.9B base通过SFT和DPO对齐后的对话模型。由于预训练中引入了大量互联网社区语料,使得chat模型在聊天时表现出更强的趣味性和互动性,为用户带来更加丰富的体验。
更为引人瞩目的是,Index-1.9B character模型在SFT和DPO的基础上,引入了RAG技术来实现fewshots角色扮演定制。这一创新功能允许用户根据需求创建自己的角色,极大地丰富了模型的应用场景和互动方式。目前,该模型已内置了名为“三三”的角色,供用户体验。
B站方面表示,Index-1.9B系列模型在预训练阶段使用了高达2.8T规模的数据,中英比例达到4:5,代码占比6%。这一庞大的数据集为模型的训练提供了强有力的支持,确保了模型的准确性和泛化能力。
对于此次开源,B站表示旨在推动人工智能技术的发展和应用,同时也希望能够吸引更多的开发者加入到模型的研究和优化中来,共同推动技术的进步和创新。
目前,Index-1.9B系列模型的开源项目已经上线,开发者可以通过访问:
https://github.com/bilibili/Index-1.9B/blob/main/README.md