人工智能将脑活动解码为语音,实现高准确度的语音重建和恢复

2023年09月05日 由 neo 发表 320 0

本月发表在《神经工程学杂志》上的一项新研究展示了一种脑-计算机接口(BCI)如何使用人工智能(AI)深度学习来将脑活动转换为语音,准确率高达100%。

QQ截图20230905154747

“本研究表明,如果使用语音重建进行分类,即使在相当小的数据集(12个单词的10次重复)上也可以实现高准确度和稳健的解码,”该研究的主要作者、Radboud大学Donders脑认知研究所的博士后研究员Julia Berezutskaya写道。“这些结果突出了这种方法在BCI中进一步使用的潜力。”


脑-计算机接口,也称为脑机接口(BMI),为那些失去说话或移动能力的人提供了希望,它通过从脑活动中解码患者的意图,来操作和控制机器人肢体、计算机软件应用程序(如电子邮件)和其他外部设备。


“到目前为止,还没有对优化深度学习模型进行语音重建的全面研究。此外,对于此类模型中使用的大脑和音频语音特征的选择缺乏共识。”研究人员写道。


该团队利用在语音产生过程中在感觉运动皮层区域产生的脑活动的高密度颅内电图记录进行语音重建,验证并改进了本研究中使用的神经解码方法。


“理解哪些解码策略能够提供最佳和直接适用的结果对于推进该领域至关重要,”科学家们写道。


语音重建使用脑活动数据作为输入,以产生称为语音频谱图的光谱的图形表示。研究参与者使用Blackrock Microsystems公司的NeuroPort神经记录系统植入了高密度颅内电图(HD ECoG)网格,用来收集在大声说出12个单词各10次时产生的感觉运动区域的脑活动数据。


研究人员评估了三种不同的深度学习语音重建模型:一个序列到序列(S2S)递归神经网络(RNN),一个多层感知器(MLP),和一个DenseNet(DN)卷积神经网络(CNN)。


科学家们表示,在所有模型中,人工智能机器学习分类器对重建语音中的单个单词进行解码的准确率达到了92% 到100%。此外,他们发现,为了更准确的人工智能语音重建,需要高度复杂的人工智能深度神经网络模型。


多层感知器(MLP)的计算架构相对简单,由基本线性运算和非线性激活函数组成,其性能优于具有更复杂计算运算的人工智能模型。具有注意力机制和状态记忆的循环序列到序列,以及具有跳跃连接和局部卷积的卷积 DenseNet,都是比多层感知器AI模型使用更复杂计算的AI模型。


研究结果表明,结合人工智能和脑机接口,直接从感觉运动区域的脑活动中重建语音,可以实现高度准确的单词解码。


研究小组总结道:“这些结果有可能进一步推进语音解码和重建领域的最先进技术,以便以后在BCI中进行沟通。”

文章来源:https://www.psychologytoday.com/us/blog/the-future-brain/202309/ai-decodes-brain-activity-into-speech-with-high-accuracy
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消