阶跃星辰与吉利汽车集团共同宣布,将双方联合研发的Step系列多模态大模型向全球开发者开放源代码。此次开源的模型包括两款,分别为视频生成模型Step-Video-T2V和语音交互模型Step-Audio。
Step-Video-T2V是一款参数量达到300亿的视频生成模型,具备生成204帧、540P分辨率高质量视频的能力。据阶跃星辰介绍,该模型在当前的开源视频生成模型中,参数量与性能均处于领先地位。
另一款开源的模型Step-Audio,则是行业内首个达到产品级标准的开源语音交互模型。该模型能够根据不同的场景需求,生成具有情绪、方言、语种、歌声和个性化风格的语音表达,实现与用户的高质量对话。同时,Step-Audio生成的语音具有自然、高情商等特征,并支持高质量的音色复刻功能。
用户现已可以通过阶跃星辰的跃问App体验Step-Audio的新功能。此次开源行动,标志着阶跃星辰与吉利汽车集团在人工智能领域的合作进一步深化,也为全球开发者提供了更多创新的可能性。