哥伦比亚大学的工程师们开发了新的人工智能技术,可以从人群中选择正确的说话者声音进行放大。
听力健全的人可以在嘈杂的环境中和他人交谈,因为大脑会自动“过滤”背景杂音,将注意力集中在说话对象身上。但是现有的助听器会不加识别地放大所有周围的声音,因此在嘈杂的环境中使用效果并不理想。
为了改变这一现状,哥伦比亚大学的工程师们开发了新的人工智能技术,可以从人群中选择正确的说话者声音进行放大,这项突破性进展或许将为我们带来更好的助听器。
图片来源:威廉希尔Pixabay
翻译 页一
审校 刘悦晨
编辑 戚译引
我们的大脑有一项非凡的本领,能够在嘈杂的环境中分辨出不同的声音,例如在拥挤的咖啡店或繁忙的城市街道上。这一点即使最先进的助听器也很难做到。但现在,哥伦比亚大学(Columbia University)的工程师们宣布了一项实验技术,可以模仿大脑的功能,检测并放大多个声音中的其中一个。在人工智能的推动下,这种由使用者大脑控制的助听器采用人工智能技术,它就像一个自动过滤器,监测佩戴者的脑波,放大他们想要集中注意力聆听的声音。
尽管这项技术仍处于研发的早期阶段,但它向更好的助听器迈出了重要一步,最终有望让使用者与周围的人流畅、高效地交谈。这一成果近期发表在《科学·进展》(Science Advances)杂志上。
“处理声音的大脑区域异常敏感和强大,它可以毫不费力地将一个声音放大,覆盖其他的声音,而如今的助听器与之相比仍然显得苍白无力。我们希望开发一种能够充分利用大脑自身功能的设备,让全世界数亿听力受损的人能够像他们的朋友和家人一样轻松地交谈,”尼玛·梅斯格拉尼(Nima Mesgarani)博士说,他是哥伦比亚大学莫蒂默·B·扎克曼心智大脑行为研究所(Mortimer B. Zuckerman Mind Brain Behavior Institute)的首席研究员,也是该论文的资深作者。
现代助听器能够出色地增强语音,同时还能抑制某些类型的背景噪音,例如交通噪音等。但它们很难将人群中某个人的音量提高到其他人声之上。科学家们将这一问题称为“鸡尾酒会问题”,得名于嘈杂聚会中混合在一起的刺耳声音。
“在聚会等拥挤的场合,助听器往往会同时放大所有人的声音,这严重地阻碍了佩戴者进行有效的交谈。其实在本质上,这样的做法是将他们与周围的人隔离了。”梅斯格拉尼博士说道,他也是哥伦比亚大学工程学院电气工程副教授。
哥伦比亚大学研究小组的大脑控制助听器则有所不同,它不仅依赖麦克风等体外扩音器,还能监测使用者自己的脑波。
“先前,我们发现当两个人相互交谈时,说话者的脑波开始与聆听者的脑波相似,”梅斯格拉尼博士说。
利用这些知识,研究小组将强大的语音分离算法与神经网络相结合,后者是模拟大脑自然计算能力的复杂数学模型。他们开发出一个系统,先将每个说话者的声音从群体中分离出来,然后分别与使用者(聆听者)的脑波进行比较。声音模式与使用者脑波最接近的,其音量会被提高到其他人声之上。
研究者在 2017 年发布了这个系统的早期版本,虽然前景很好,但有一个关键的缺陷:它必须经过预先训练才能识别特定的说话者。
“如果你和你的家人在一家餐馆里,这个设备会为你识别和解码家人的声音,然而一旦来了一个新人,例如服务员,这个系统就会失灵,”梅斯格拉尼博士解释说。
现今技术的发展在很大程度上解决了这个问题。在哥伦比亚科技风险投资公司(Columbia Technology Ventures)的资助下,梅斯格拉尼博士和第一作者韩聪(Cong Han,音译)以及詹姆斯·奥沙利文(James O'Sullivan)博士再次利用深度神经网络的力量,建立了一个更为复杂的模型,可以适用于助听器使用者可能遇到的任何交谈对象。
“我们最终得到的是一种语音分离算法,它的性能与之前的版本类似,但有着一个重要的改进,它能立即识别和解码一个任何人的声音,”梅斯格拉尼博士说。
为了测试该算法的有效性,研究者与阿舍什·迪内什·梅塔(Ashesh Dinesh Mehta)博士进行合作。梅塔博士是诺斯威尔神经与神经外科健康研究所(Northwell Health Institute for Neurology and Neurosurgery)的神经外科医生,也是这篇论文的共同作者。他主要治疗癫痫患者,其中一些必须定期接受手术。
梅斯格拉尼博士说:“这些患者自愿参加实验,他们聆听不同的说话者,同时我们通过植入大脑的电极直接监测他们的脑波。然后,我们将新开发的算法应用于这些数据。”
研究小组的算法追踪患者在聆听不同说话者时的注意力,在此之前患者从未听过这些说话者的声音。当患者把注意力集中于某一说话者时,系统会自动放大他的声音。当他们的注意力转移至另一个说话者时,这些人声的音量也随之改变。
受到这些结果的鼓舞,研究人员如今正在探索如何将这一实验原型改进为一种无创设备,可以被放置在头皮外部或耳朵周围。他们还希望进一步改进和优化算法,使其能够在更多样的环境中发挥作用。
梅斯格拉尼博士说:“到目前为止,我们只在室内环境中进行了测试,但我们希望确保它在繁忙的城市街道或嘈杂的餐厅中同样有效,这样无论佩戴者走到哪里,他们都能充分体验周围的世界和人。”