苹果的创新让失声者重新发声

2023年12月04日由 samoyed 发表 357 0

苹果公司的最新创新“Personal Voice”在国际残疾人日前发布，标志着语音技术迈出了重要一步。

昨天，苹果在发布一部短片和一本电子书的同时，也展示了其设备的新功能——Personal Voice。该公司一直因其易于视觉、听力和运动障碍患者以及老年人使用而获得更高的评价。它在人工智能方面向前迈出了一步，进一步增加像VoiceOver、引导访问(Guided Access)、门检测(Door Detection)、实时聆听(Live Listen)、放大器(Point and Speak for Magnifier)等功能。

Apples-Scary-New-Innovation-Brings-Back-the-Voiceless

Personal Voice于今年早些时候宣布，全球无障碍政策与倡议高级总监Sarah Herrlinger表示，“这些开创性的功能是根据残疾人士的反馈设计的，可以支持不同的用户群体。”尽管它没有公开谈论人工智能，但它正在迅速更新其功能，以整合更好的技术。

为医疗保健克隆声音一直在进行中。以前，由于各种疾病而失声的患者必须使用电喉。该设备需要放置在患者的喉咙上，振动会使其产生机器人声音。

克隆视频和图像的公司也克隆声音，这些声音不仅用于所有娱乐空间，还用于医疗保健。ElevenLabs、Murf.ai、Resemble ai、Respeecher等公司都创造了声音和视频克隆。

人工智能的善用范例

利用现有功能，个人语音插件进一步增强了用户体验。用户需要大声朗读一系列随机选择的文本提示，提供自己声音的样本。对声音样本的声学分析提取了诸如音高、音色和语调等声学特征。在用户的声音数据和一个大型文本与语音对的数据集上训练文本到语音模型。该模型学习将声学特征与对应的文本关联起来并生成模仿用户声音的合成语音。

所有这些都在用户的手机上完成，不会有侵犯隐私的风险——这是苹果最为人所知的特征。创建的声音可以用于电话、FaceTime和其他应用。此功能可以与差不多的时间宣布的Live Speech一起使用。您输入想要说的话，而您的个人语音会大声为您说出来。

可能被恶意使用

这项即将为许多人提供声音的功能也引发了安全和隐私担忧，鉴于深度伪造技术所带来的日益增长的威胁。互联网上充斥着各种各样的个人和公司被声音克隆所骗，清空银行账户的故事。将您的语音记录自愿交给苹果真的明智吗？

该公司在其公告中确保了所有数据处理都是在设备本地完成的，这降低了数据泄露的风险。访问个人语音的生成和管理通过FaceID或TouchID等生物识别锁来保护，其使用需要解锁设备，从而防止未经授权的访问。个人语音可以在链接到同一iCloud账户的设备间共享，以及第三方应用程序，但似乎没有办法将语音转移到其他设备。

关于增加更多保障措施的可能性，如追踪合成语音以便检测，可以考虑以增强安全性。“公开检测手段会是一个好的方式，不过鉴于该公司对隐私和安全的关注，我怀疑它可能已经包含了这个功能。”该主题的作者和安全专家Matt Smallman写道。

人工智能专家和Third AI的产品负责人Vinod Iyengar并不那么乐观。“深度伪造很快就会因此泛滥成灾，”他说。声音克隆可以用来创造看似真实的伪造音频内容，使得辨别真伪录音变得更加困难。

这可能是另一个灰色地带，也是未来即将到来的法律麻烦。

与此同时，社交媒体上对苹果未来发展方向的猜测越来越多，认为这些功能表明苹果未来产品可能集成更先进的人工智能。有关苹果可能会惊喜地推出新的本地人工智能工具的讨论，表明了从基于云的数据处理向本地数据处理转变的趋势。

文章来源：https://analyticsindiamag.com/apples-scary-new-innovation-brings-back-the-voiceless/

标签：

苹果

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 Speranza新系统：确保开源软件安全与维护者匿名

下一篇 GAIA：新的通用人工智能基准测试工具

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来