Transformers.js：全面支持文本至语音功能

2023年11月28日由 daydream 发表 698 0

Transformers.js是一个设计用于直接在网络浏览器中运行Transformers模型的JavaScript库，从而消除了对外部服务器处理的需求。在最近升级到2.7版本的更新中，Transformers.js引入了包括值得注意的文本至语音（TTS）支持在内的改进。这次升级响应了用户的需求，增加了该库适用于更多用例的灵活性。

微信截图_20231128132235

文本至语音（TTS）牵涉到从文本创建听起来自然的语音，支持多种口语和发音人。目前，Transformers.js仅支持使用 Xenova/speecht5_tts进行TTS，该模型基于Microsoft的SpeechT5，并使用ONNX权重。他们计划在未来的更新中，包括增加对bark和MMS的支持。

开发者可以通过使用@xenova/transformers的pipeline函数来使用文本至语音功能。这涉及到指定'text-to-speech'任务和将使用的模型（'Xenova/speecht5_tts'），并且提供了一个选项 { quantized: false }。此外，还提供了一个链接到含有发音人嵌入的文件。

一旦将TTS模型应用于给定文本，输出包含一个音频数组和采样率。这个数组代表合成的语音，可以进一步处理或直接在浏览器中播放。

Transformers.js适用于包括风格转换、图像修补、图像上色和超分辨率在内的多个用例。它的多功能性和定期更新使其成为探索机器学习和网络开发交集的开发者的有价值资产，使其成为Web机器学习领域的可靠工具。

Transformers.js设计成与Hugging Face的transformers python库功能上相当，这意味着您可以使用非常相似的API运行相同的预训练模型。

支持大量任务和模型的Transformers.js涵盖了自然语言处理、视觉、音频、表格数据、多模态应用和强化学习。该库涵盖了从文本分类和摘要到图像分割和对象检测等各种机器学习应用任务，使其成为多用途工具。

支持的模型列表广泛，包括BERT、GPT-2、T5 和 Vision Transformer (ViT)等多种架构，确保用户可以为其特定任务选择合适的模型。

社区对于Transformers.js的发布反应积极。今年早些时候在Reddit上发起的一个帖子中，用户Intrepid-Air6525表示：

“我决定使用它来替换openai的嵌入模型。工作得很快。我正在使用webLLM进行实际的LLM，因为我不想使用太多的CPU处理。”

用户1EvilSexyGenius评论了Hugging Face在市场中的定位以及相关对实践实现的讨论焦点：

“考虑到 transformers.js和他们的最佳库，我认为很明显 [Hugging Face] 真的在努力民主化语言模型，将它们带给人们。与所有日常模型的发布相比，这个社区可以从这样的帖子中受益。”

文章来源：https://www.infoq.com/news/2023/11/transformersjs-ml-for-web/

标签：

模型语音 TTS

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 xAI的聊天机器人“Grok”将于下周向X Premium+订阅者推出

下一篇 AWS升级Transcribe服务：AI能力增强，支持100+语言

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来