德国AI翻译服务公司DeepL,以其声称比谷歌等竞争对手更为细腻精准的在线文本翻译服务而闻名,如今已跻身估值20亿美元的企业行列,并拥有超过10万名付费用户。随着AI服务热潮的持续升温,DeepL宣布在平台上新增音频模式,即DeepL Voice功能。该功能允许用户在听到某种语言的语音时,能够实时自动翻译成另一种语言。
目前,DeepL Voice支持的语言包括英语、德语、日语、韩语、瑞典语、荷兰语、法语、土耳其语、波兰语、葡萄牙语、俄语、西班牙语和意大利语。尽管DeepL Voice本身不提供音频或视频文件形式的翻译结果,但用户可以在实时对话和视频会议中看到翻译后的文本。这些翻译文本可以以“镜像”形式显示在智能手机上,供会议双方查看,或者作为与对方共享的转录文本,而在视频会议服务中,翻译会以字幕形式出现。
DeepL的创始人兼首席执行官暗示,未来可能会提供更多形式的输出。虽然这是DeepL首款语音产品,但很可能不会是唯一一款。他指出,语音翻译将是未来一年内翻译领域的主要发展方向。
实际上,其他科技公司也在涉足这一领域。例如,DeepL的最大竞争对手之一谷歌,已在其Meet视频会议服务中加入了实时翻译字幕功能。此外,还有多家AI初创公司正在开发语音翻译服务,如AI语音专家ElevenLabs和使用“深度伪造”语音和视频进行翻译的Panjaya。值得注意的是,后者使用了ElevenLabs的API,而ElevenLabs本身也利用DeepL的技术来支持其翻译服务。
DeepL Voice目前尚未提供API,且主要面向B2B市场,直接与客户和合作伙伴合作。在视频通话服务方面,目前仅微软的Teams支持DeepL的字幕功能。至于Zoom和谷歌Meet是否会在未来加入DeepL Voice,目前尚无确切消息。
自2017年DeepL成立以来,实时语音翻译一直是用户最强烈的需求之一。然而,DeepL采取了稳健的产品开发策略,其目标是从零开始构建服务,而不是依赖和调整其他公司的大型语言模型。例如,DeepL在今年7月发布了一款专为翻译优化的新型大型语言模型,据称性能优于GPT-4以及谷歌和微软的产品。同时,DeepL还继续提升书面翻译的质量和词汇表。
DeepL Voice的一大独特卖点是实时翻译能力,这对于许多市场上的“AI翻译”服务来说是一个挑战,因为后者往往存在延迟,难以在实时情境中使用。DeepL表示,专注于文本翻译也是出于技术考虑:文本翻译的计算和生成速度非常快,而音频和视频的处理以及AI架构在这方面仍有待提升。
除了视频会议和会议场景外,DeepL还设想在服务行业中应用这一功能,例如餐厅的一线工作人员可以使用该服务更轻松地与顾客沟通。