ElevenLabs推出独立语音转文字模型Scribe

2025年02月27日由 daydream 发表 4948 0

人工智能初创公司ElevenLabs成功融资1.8亿美元，其主要以音频生成技术著称。此次，该公司推出了首款独立语音转文字模型——Scribe，标志着其技术发展的一个新方向。

微信截图_20250227094513

ElevenLabs目前估值达33亿美元，此前已通过其庞大的语音库为多家公司提供语音转文字服务。现在，该公司计划进军语音检测领域，与Gladia、Speechmatics、AssemblyAI、Deepgram以及OpenAI的Whisper模型等竞争对手一较高下。

Scribe模型在发布时支持超过99种语言。ElevenLabs将其中25种语言的识别准确率归为“优秀”类别，这些语言的单词错误率低于5%，包括英语（准确率据称达97%）、法语、德语、印地语、印尼语、日语、坎纳达语、马拉雅拉姆语、波兰语、葡萄牙语、西班牙语和越南语等。其余语言则被归入不同类别，具有“高”（5%至10%单词错误率）、“良好”（10%至20%单词错误率）和“中等”（25%至50%单词错误率）的单词错误率。

据ElevenLabs称，在FLEURS和Common Voice基准测试中，Scribe模型在多种语言上的表现优于Google的Gemini 2.0 Flash和Whisper Large V3。

微信截图_20250227094556

去年，ElevenLabs为其AI对话代理平台开发了语音转文字组件。然而，此次是其首次发布独立语音检测模型。

Scribe模型还具有智能扬声器说话人识别功能，可识别说话人，提供单词级别的时间戳以实现准确字幕，并自动标记声音事件，如观众笑声。ElevenLabs为其工作室客户提供了一种直接将视频内容转录为字幕或配文的方式。

目前，Scribe仅支持预录音频格式。该公司表示，将很快推出低延迟实时版本的模型。这意味着它目前尚不适用于会议转录或语音笔记。

ElevenLabs对Scribe的定价为每小时转录音频0.4美元。虽然这一价格具有竞争力，但目前一些竞争对手提供的音频转录价格更低，同时功能也有所不同。

文章来源：https://techcrunch.com/2025/02/26/elevenlabs-is-launching-its-own-speech-to-text-model/

标签：

ElevenLabs 模型 Scribe

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 Anthropic计划为聊天机器人Claude推出“双向”语音模式

下一篇 Hume推出Octave TTS：可根据定制的情绪创建自定义AI语音

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来