谷歌开发语音命令数据集的目的——帮助大家创建基础且有用的语音交互

登录注册

资讯

学习

基础知识理论实践学习教程

企业招聘

下载

模型数据集

AI工具箱

企业服务

EVA 智能HR 视频AI

ChatGPT 人工智能应用人工智能未来计算机视觉

热门新闻

行业人工智能

所以，能动手就别吵吵了

行业人工智能

为什么数据污染对LLM来说是一个大问题

机器人康奈尔大学

康奈尔大学推出新的社交机器人，更柔软，更人性化

常用工具

火山写作

字节跳动旗下团队推出的免费AI英语写作助手

Stable Diffusion

StabilityAI推出的文本到图像生成AI

GitHub Copilot

GitHub AI编程工具

Adobe Firefly

Adobe最新推出的AI图片生成工具

文心一格

AI艺术和创意辅助平台

您尚未登录账户

请先登录您的atyun账户，方可使用该功能

仅限企业账户使用

该功能仅限企业账号使用，开通企业账号可享受更多服务，是否现在注册企业账号？

立即注册企业账号

暂不需要

您的企业账号申请正在审核中

审核通过后即可使用此功能，请耐心等待~

2017年08月25日由 nanan 发表 58094 0

谷歌的工程师们经常被问到这样的一个问题——怎么上手用深度学习做语音识别或其它音频识别，比如关键词或指令？

目前，出现了一些很优秀的开源语音识别系统，例如Kaldi，就能把神经系统作为其中的一个模块。但其的高度复杂性，并不适合解决简单问题的指南。更重要的是，对于新手而言，免费、公开可获取到的数据并不多，适合简单的关键词也不是很多。

为解决这一问题，谷歌的TensorFlow 和 AIY 团队创建了TensorFlow 和 AIY 团队创建了Speech Commands Dataset，即“语音命令数据集”。据了解，谷歌在今日宣布开源该数据集。

对于30个命令短语，会有65000次的长约一秒钟的发音，这来源于65000个不同人的贡献。该数据集未来将会不断的扩大。

建立这数据集的目的，是帮助大家为应用创建基础但有用的语音交互。谷歌也已经将开发这一数据集的基础设施开源，尤其是针对冷门语言和应用。

下载预建的 TensorFlow 安卓演示 APP，打开 “TF Speech”，就能体验谷歌基于该数据集开发的识别模型。

标签：

行业数据集数据开源项目

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 AI空前火爆，“智能时代”真的到来了吗？

下一篇机器人+正在成为现实，旗瀚科技打造开发者生态

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术