Podcastle,一家专注于播客录制与编辑的平台,近日正式加入了AI文本转语音技术的竞争行列,发布了其自主研发的AI模型——Asyncflow v1.0。同时,该公司还面向开发者推出了API接口,以便他们能将这一文本转语音模型直接集成到各自的应用程序中。
通过Asyncflow v1.0,Podcastle能够提供超过450种AI语音,用于文本的朗读与叙述。据Podcastle透露,他们在开发与训练该模型时,特别注重成本控制与效率提升,这使得其在与同类产品的竞争中具有了一定的优势。
此番动作使得Podcastle与ElevenLabs、Speechify和WellSaid等多家创业公司并肩,这些公司均致力于开发能够将任意文本转换为AI语音片段的技术与模型。这一技术的应用范围广泛,涵盖了市场营销、广告、内容创作、教育以及企业培训等多个领域。
Podcastle的创始人阿图·叶里茨扬在接受采访时表示,公司自成立之初就计划开发文本转语音模型,但高昂的开发成本与数据需求一度成为阻碍。
“我们一直想打造一个强大的文本转语音模型。然而,开发成本非常高昂。得益于近年来大型语言模型的快速发展,我们去年取得了重大突破,能够在不需要大量数据的情况下,构建出高质量的语音模型。”叶里茨扬说。
去年,Podcastle还成功完成了1350万美元的A轮融资,为项目的推进提供了资金支持。
在费用方面,Podcastle对每500分钟的文本转语音转换收费约40美元,而ElevenLabs的相同服务则收费99美元。
此外,Podcastle还对其语音克隆功能进行了升级,使得训练过程更加快捷。以往,训练过程需要用户朗读大约70个不同的句子,而现在,仅需几秒的录音即可创建出用户的语音克隆。这一新过程还结合了Podcastle去年发布的Magic Dust AI技术,以改善录音质量。
据测试,虽然通过新过程创建的语音在模仿语调方面表现良好,但听起来仍略显机械。Podcastle表示,他们将持续改进该功能,并指出用户可以通过训练不同的语音样本来获得不同的效果。
Podcastle还强调,除了成本优势外,将音频、视频、播客以及AI叙述工具整合到一个重新设计的平台中,也将为其在竞争中脱颖而出。叶里茨扬指出,虽然目前大多数用户使用Podcastle来处理音频内容,但视频处理的需求也在迅速增长。