人工智能公司Sesame已经发布了支持Maya的基础模型,这个令人印象深刻的逼真语音助手。
该模型的参数量达到10亿(“参数”指的是模型的各个组成部分),采用Apache 2.0许可证,这意味着可以在很少限制下用于商业用途。根据Sesame在AI开发平台Hugging Face上的描述,该模型被称为CSM-1B,可以从文本和音频输入生成“RVQ音频代码”。Sesame在AI开发平台Hugging Face上的描述。
RVQ指的是“残差矢量量化”,这是一种将音频编码为称为代码的离散标记的技术。RVQ被用于许多最近的AI音频技术中,包括谷歌的SoundStream和Meta的Encodec。
CSM-1B使用了Meta的Llama系列模型作为其骨干,并配有音频“解码器”组件。Sesame表示,经过微调的CSM变体为Maya提供支持。
“这里开源的模型是一个基础生成模型”Sesame在CSM-1B的Hugging Face和GitHub存储库中写道。“它能够生成多种声音,但尚未针对任何特定声音进行微调[…]由于训练数据中的数据污染,该模型对非英语语言有一定的处理能力,但可能效果不佳。”
尚不清楚Sesame用什么数据来训练CSM-1B。公司没有说明。
值得注意的是,该模型没有真正的安全措施。Sesame采用荣誉制度,仅仅敦促开发者和用户不要在未经同意的情况下使用该模型模仿他人的声音,创建误导性内容如假新闻,或从事“有害”或“恶意”活动。
Sesame由Oculus联合创始人Brendan Iribe共同创立,在二月底因其助手技术而走红,该技术几乎接近突破恐怖谷。Maya和Sesame的另一个助手Miles会呼吸并带有不流利的语音特征,并且可以在说话时被打断,很像OpenAI的语音模式。
Sesame从Andreessen Horowitz、Spark Capital和Matrix Partners筹集了未公开的资金。除了构建语音助手技术外,公司表示正在原型设计“全天佩戴”的AI眼镜,这些眼镜将配备其定制模型。