在AI大模型领域,国内独角兽公司智谱AI正酝酿着一场技术革新。据报道,该公司正致力于研发一款与OpenAI的Sora相媲美的文生视频模型,预计最快将在今年内与公众见面。
“文生视频技术正迎来快速发展的黄金时期,今年有望成为其大模型爆发的关键年份。”智谱AI内部人士向媒体透露。他们发现,国内市场对此技术的需求非常广泛,涵盖电影制作、短视频、游戏开发等多个领域。智谱AI将借助更高质量的数据和更强大的模型参数,力求推出高质量的产品以满足这些需求。
智谱AI成立于2019年,由清华大学计算机系的技术成果转化而来,其背后有着深厚的学术背景。公司CEO张鹏、总裁王绍兰和董事长刘德兵都是清华大学计算机系出身,并曾在知识工程(KEG)实验室担任核心成员。
作为国内最早涉足大模型领域的公司之一,智谱AI已经推出了多款备受瞩目的产品。2023年3月,他们推出了ChatGLM系列千亿开源基座对话模型,并在过去一年内完成了四次重要升级,最终在2024年1月推出了GLM4系列。
基于这些强大的基座大模型,智谱AI还构建了AIGC模型产品矩阵,包括AI提效助手智谱清言、高效率代码模型CodeGeeX、多模态理解模型CogVLM和文生图模型CogView等。这些产品在不同领域均展现出了出色的性能和应用价值。
张鹏在今年3月表示,智谱AI已经拥有超过2000家生态合作伙伴和超过1000个大模型规模化应用。他们还与200多家企业进行了深度共创,覆盖了传媒、咨询、消费、金融、新能源、互联网和智能办公等多个领域。此外,智谱AI的ChatGLM-6B模型在全球范围内的累计下载量已经超过了1300万,GitHub Star星数更是达到了5万,超过了Meta Llama两个版本的总和。这使得智谱AI成为了全球最受欢迎的开源机构之一,并力压OpenAI、谷歌和微软等巨头。
对于即将发布的文生视频模型,智谱AI内部人士表示,其性能已经接近海外顶级模型。他们透露,最新基座大模型GLM-4在整体性能上相比上一代有了大幅提升,已经逼近GPT-4的水平。在某些中文对齐的任务上,GLM-4甚至能够略微超过GPT-4。根据最新的海外伯克利Arena Hard基准测试,GLM的排名仅次于GPT-4 Turbo和Claude 3 Opus,在国内外模型中均处于领先地位。
在研发文生视频模型的过程中,智谱AI面临着技术路线选择、高质量视频素材语料等挑战。他们需要在技术路线上优化Transformer与Diffusion的结合架构,解决连续帧之间的抖动问题,实现高分辨率和高一致性的长序列生成,并获取更多更细节的真实场景数据。同时,他们还需要注重数据版权和使用问题,确保模型的合法性和可持续性。
值得注意的是,智谱AI此前已经投资了生数科技并与清华大学联合发布了中国首个长时长、高一致性、高动态性视频大模型Vidu。这款模型被誉为“国内首个Sora级视频模型”和“中国首个纯自研视频大模型”。如果智谱AI也发布类似的文生视频模型的话,两者将形成一定的竞争关系。然而,这也将推动双方在技术上不断创新和突破,共同推动中国AI产业的发展。
截至目前,智谱AI已经以产业型投资方式投资、入股了超过13家AI产业链的初创公司。张鹏曾表示,智谱AI正在经历一个从量变到质变的过程,特别是在大模型所谓的涌现方面。他们的目标是瞄准AGI(通用人工智能),实现超过人类水平的超级认知智能、自我解释、自我评测和自我监督,并确保模型的安全和可控性。