谷歌宣布,其HeAR模型(Health Acoustic Representations,健康声学表征)这一用于分析健康相关声音的开创性人工智能系统,现已通过谷歌云API向研究人员开放。这是利用人工智能潜在地彻底改变各种健康状况筛查、诊断和监测方式的重要一步。
HeAR模型今年早些时候在一篇论文中首次介绍,旨在从咳嗽、呼吸声等声学数据中提取有价值的健康见解,这些声音可能表明存在结核病(TB)或慢性阻塞性肺病(COPD)等疾病。该模型在包含3.13亿个两秒钟音频片段的大型数据集上进行训练,使其能够识别健康相关声音中的复杂模式。
研究人员发现,HeAR模型在多种任务中均优于其他模型,显示出在健康相关声学数据中捕捉有意义模式方面的卓越能力。重要的是,使用HeAR训练的模型在训练数据较少的情况下也能实现高性能,这是医疗研究中的一个关键优势,因为数据稀缺往往是一个挑战。
HeAR的潜在应用非常广泛。例如,印度呼吸健康科技公司Salcit Technologies正在探索如何利用HeAR增强其现有的AI模型Swaasa,以基于咳嗽声实现结核病的早期检测。这在医疗资源匮乏的地区可能产生特别大的影响。
谷歌研究部门负责HeAR的产品经理Sujay Kakarmath强调了该模型的潜力:“每一次结核病病例的遗漏都是一场悲剧;每一次晚期的诊断,都是一次心碎。声学生物标志物有可能改写这一现状。”
联合国主办的“终止结核病伙伴关系”组织也对这一方法表示支持。该组织的数字健康专家Zhi Zhen Qin表示,像HeAR这样的解决方案“可能在结核病筛查和检测方面开辟新天地,为最需要的人提供一种潜在的低影响、可及的工具”。
HeAR的潜力不仅限于结核病。凭借其跨不同麦克风和环境的泛化能力,该模型可能推动低成本、易获取的呼吸系统疾病筛查,标志着声学健康研究迈出了重要一步。谷歌的目标是使这项技术广泛可用,支持全球医疗界开发创新解决方案,打破早期诊断和治疗方面的障碍。
重要的是要注意,HeAR本身不是一个诊断工具。它是一个神经网络,输出针对捕获健康相关声音最显著部分的低维嵌入。研究人员可以使用这些嵌入来构建和改进针对特定健康状况的模型。
对HeAR感兴趣的研究人员可以按照这些说明通过谷歌云请求访问API。