近日,智象未来宣布推出了智象多模态生成大模型3.0与智象多模态理解大模型1.0。
据悉,智象多模态大模型已构建了国内规模最大的多模态版权语料库,包含数十万小时的版权视频素材及上万个授权IP,覆盖超过70%的华语影视数据,并已生成上亿条AIGC二次创作素材。这些资源在影视、文旅、通信、营销、教育等多个领域得到了广泛应用。
在技术上,智象多模态生成大模型3.0实现了图像和视频生成能力的显著提升。新版本优化了画面质量与相关性,增强了镜头运动和画面运动的可控性,并对多场景驱动进行了优化。此外,该版本创新性地融合了自回归模型与扩散模型,形成了全球首创的扩散自回归模型架构,有效降低了模型规模与计算成本,实现了性能与效率的双重提升。同时,新版本还引入了混合成像模型MOE架构,确保了高生成质量的同时,显著加快了推理速度,为实时或近实时的应用提供了技术支撑。
与此同时,智象多模态理解大模型1.0也正式亮相。该版本通过对物体级别的画面建模以及事件级别的时空建模,实现了对图像与视频内容的精细、准确理解。在先导区启动仪式的现场展示中,智象多模态理解大模型1.0成功对视频画面进行了详尽描述,捕捉了画面中物体间的复杂关系、逻辑链条、空间布局和镜头运动。
此外,智象未来科技还展示了“一站式视频平台”的创新实践。该平台允许用户上传个人照片,创造全新的交互式体验,并展示了安徽文物IP的个性化互动展示。这一实践不仅增强了内容的吸引力,也为安徽文化旅游的宣传提供了独特视角。
智象未来科技此次发布的多模态大模型新版本,标志着该公司在人工智能领域的技术创新和应用拓展上迈出了坚实的一步,也为创意产业与视觉艺术的发展注入了新的活力。