人工智能初创公司ElevenLabs成功融资1.8亿美元,其主要以音频生成技术著称。此次,该公司推出了首款独立语音转文字模型——Scribe,标志着其技术发展的一个新方向。
ElevenLabs目前估值达33亿美元,此前已通过其庞大的语音库为多家公司提供语音转文字服务。现在,该公司计划进军语音检测领域,与Gladia、Speechmatics、AssemblyAI、Deepgram以及OpenAI的Whisper模型等竞争对手一较高下。
Scribe模型在发布时支持超过99种语言。ElevenLabs将其中25种语言的识别准确率归为“优秀”类别,这些语言的单词错误率低于5%,包括英语(准确率据称达97%)、法语、德语、印地语、印尼语、日语、坎纳达语、马拉雅拉姆语、波兰语、葡萄牙语、西班牙语和越南语等。其余语言则被归入不同类别,具有“高”(5%至10%单词错误率)、“良好”(10%至20%单词错误率)和“中等”(25%至50%单词错误率)的单词错误率。
据ElevenLabs称,在FLEURS和Common Voice基准测试中,Scribe模型在多种语言上的表现优于Google的Gemini 2.0 Flash和Whisper Large V3。
去年,ElevenLabs为其AI对话代理平台开发了语音转文字组件。然而,此次是其首次发布独立语音检测模型。
Scribe模型还具有智能扬声器说话人识别功能,可识别说话人,提供单词级别的时间戳以实现准确字幕,并自动标记声音事件,如观众笑声。ElevenLabs为其工作室客户提供了一种直接将视频内容转录为字幕或配文的方式。
目前,Scribe仅支持预录音频格式。该公司表示,将很快推出低延迟实时版本的模型。这意味着它目前尚不适用于会议转录或语音笔记。
ElevenLabs对Scribe的定价为每小时转录音频0.4美元。虽然这一价格具有竞争力,但目前一些竞争对手提供的音频转录价格更低,同时功能也有所不同。