使用人工神经网络和人工蜂群优化进行语音识别

2019年10月08日由 KING 发表 529925 0

在过去的十年左右的时间里，机器学习的进步为开发越来越先进的语音识别工具铺平了道路。通过分析人类语音的音频文件，这些工具可以学习识别不同语言的单词和短语，并将其转换为机器可读格式。

尽管几种基于机器学习的模型在语音识别任务上已经取得了可喜的成果，但它们并非总是在所有语言中都表现良好。例如，当一种语言的词汇表中包含许多发音相似的单词时，语音识别系统的准确性会大大下降。印度杰比信息技术学院的研究人员已经开发出一种语音识别系统来解决这个问题。他们在Springer Link的国际语音技术杂志上发表的一篇论文中介绍了这个新系统，该系统将人工神经网络（ANN）与称为对立人工蜂群（OABC）的优化技术相结合。

研究人员在论文中写道：“在这项工作中，使用Levenberg-Marquardt算法重新设计了ANN的默认结构，以准确地检索最佳结果。使用对立人工蜂群优化技术进一步优化了隐层和隐层的神经元。”

研究人员开发的系统的独特之处在于它使用OABC优化算法来优化ANN的隐层和人工神经元。顾名思义，人工蜂群（ABC）算法旨在模拟蜜蜂的行为，以解决各种优化问题。研究人员在论文中解释说：“通常，优化算法会在匹配域中随机初始化解决方案。但是这种解决方案可能与最佳解决方案处于相反的方向，从而大大增加了计算成本。因此，这种基于对立的初始化被称为OABC。”

研究人员开发的系统将不同人说的单个单词视为输入语音信号。随后，它提取所谓的调幅（AM）频谱图特征，这些特征本质上是特定于声音的特征。

然后，由模型提取的特征将用于训练ANN以识别人类语音。在大型音频文件数据库上进行训练后，人工神经网络学会预测新的人类语音样本中的孤立词。研究人员在一系列人类语音音频片段上测试了他们的系统，并将其与更传统的语音识别技术进行了比较。他们的技术优于其他所有方法，获得了显着的准确性得分。

研究人员在论文中写道：“该方法的灵敏度，特异性和准确性分别为90.41％，99.66％和99.36％，比所有现有方法都要好。”

将来，语音识别系统可用于在各种环境中实现更有效的人机通信。此外，他们用于开发系统的方法可能会启发其他团队设计类似的结合了ANN和OABC优化技术模型。

标签：

语音识别语音识别

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇谷歌开源实时转写应用中的语音引擎，可为70多种语言实时添加字幕

下一篇 NVIDIA最新深度学习模型：根据音乐自动编舞

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术