基于实时神经网络的智能耳机系统创建可编程声泡
探讨“声泡”与未来耳戴式设备:基于实时神经网络的创新研究
在日常生活中,噪声和复杂音景 (Acoustic Scene) 经常造成话语难以辨别,特别是在拥挤的环境中,例如餐厅、会议室或飞机上。传统的降噪耳机虽然能在一定程度上抑制环境噪声,但无法区分音源的距离,亦无法根据特定音源的空间位置精准塑造声场。基于此背景,来自华盛顿大学Paul G. Allen计算机科学与工程学院、微软以及AssemblyAI的团队开展了一项重要研究。他们开发了一套能够创建“声泡”(Sound Bubbles)的智能耳戴式设备,借助多通道麦克风阵列及实时嵌入式神经网络,解决了上述困境。本文发表在《Nature Electronics》2024年11月期,展示了这项研究在听觉增强领域的重要突破和技术实现。
技术背景与科学问题
为什么需要“声泡”?
我们的听觉系统只能在有限范围内估测声源的距离,并且在干扰源较强时更难专注于近期目标声源。此外,现有降噪耳机多采用幅度或频率层面的音源分离,不能同时兼顾声源距离、实时处理低延迟需求以及复杂声环境中的多声源分离。
因此,团队提出创建“声泡”的听觉增强设想:在用户周围生成一个可编程的限定区域,区域内的音源被高保真保留,而区域外的噪声和音源显著衰减。这项技术可应用于多种场景,例如在嘈杂餐厅聚焦于餐桌谈话,抑或在会议室仅收听特定区域的对话。
论文之创新贡献
这篇文章的作者包括Tuochao Chen、Malek Itani、Sefik Emre Eskimez、Takuya Yoshioka及Shyamnath Gollakota,并分别来自多家知名研究机构。发表时,该研究从多角度解决了以听觉增强为核心的技术挑战,包括在实时低延迟的硬件平台上运行基于深度学习的神经网络、支持多用户在新环境下的泛化能力、动态调整“声泡”半径以及针对多人语音样本的分离处理。
方法论细节
一、系统架构与主要技术实现
1. 硬件基础与麦克风阵列
系统基于优化的六通道麦克风阵列,内置于降噪耳机结构中。其中,两个麦克风嵌入耳罩内,其余沿耳机头带布置。声波数据通过高通量嵌入式CPU进行捕获与处理,以实现快速音频处理和声音实时重建。
2. 实时神经网络设计
模型核心由四大模块组成: - 特征编码器:音频信号先经短时傅里叶变换 (Short-Time Fourier Transform, STFT) 转换为时间–频率(Time-Frequency, TF)域表征,并提取信号间的相位差 (Interchannel Phase Difference, IPD) 及幅度差 (Interchannel Level Difference, ILD) 特征。 - 距离嵌入模块:通过“位置嵌入”编码模块动态生成距离掩模,以可视化与操控“声泡”边界。 - 声源分离模块:核心采用优化后的TF-GridNet架构,去除高复杂度运算以符合嵌入式CPU计算需求。 - 特征解码器:对分离后的频域特征反傅里叶变换,恢复语音信号至时域。
3. 算法优化与低延迟处理
音频分块以8毫秒为单位处理,延迟仅7.30毫秒,完全满足20-30毫秒的实时需求。团队在推理过程中引入缓存状态与中间计算结果复用,从而显著缩短每块操作时间。此外,使用开源框架ONNX运行时进一步减少模型负载。
二、实验数据与泛化能力
1. 数据采集平台与拓展训练集
为模拟多种真实场景,团队搭建了一个全自动采集系统:人形假人头部被安装于可旋转底座并结合可升降扬声器,通过驱动平台动态采集22种室内环境下的音频反射数据,覆盖不同的房间形式、彼此角度与高度分布,总计时长为15.85小时。此外,收集自真人佩戴者的音频数据进一步用于模型微调。
2. 增强技术与数据扩充
通过四项数据增强策略(偏移麦克风录音开始点、变更通道幅度、随机频域丢弃、改变音频速度)改善模型对用户间微小头部差异与环境多变条件的适应能力。
关键实验结果
一、声泡效果与语音分离能力分析
- 不同半径(1米、1.5米、2米)下的声泡测试结果表明,在混响环境中,网络平均可将“声泡”外音频能量衰减49分贝,最大达到69分贝。同时,演示验证了多重重叠说话者进入/退出“声泡”时的模型适应性。
- 对语音质量的客观评价测试,包含输入信号-失真比(SI-SDR)改善率如下:单个声源时,1米和1.5米下分别提升12.35dB与11.52dB;两个声源时,提升达8.55dB。
二、真实场景泛化评估
在见所未见的房间与未知用户数据上,系统依然保有良好的分离性能。特别值得称道的是,数据表明,中小型房间由于较多早期反射可加强声源定位表现,而设备在大房间环境中则需要更多优化来应对背景“扩散噪声”。
三、硬件集成
集成方案基于Raspberry Pi 4b与市售SONY WH-1000XM4耳机,测试证明设备能实时处理片段长度为8毫秒的语音流数据,并成功实现“声泡”区域扩展、用户可感知边界计算。
研究意义与展望
本研究成果具有重要的技术与科学价值,一方面,其提出的技术在智能助听器、会议协作设备、虚拟/增强现实装置等方向上具有广泛应用潜力;另一方面,这一创新直接填补了实时音频分离与距离感知在移动终端硬件上的技术空白。但当前原型仍面临一定局限性,例如对室外数据缺乏广泛泛化能力,以及音频界区边缘无法对远声源精准调节。
未来研究方向包括引入人工神经处理单元,显著优化电池续航与模型效率,同时结合更多优化技术(例如定点量化模型)降低部署成本。此外,在“声泡”半径动态调整上,研究团队提出通过更密集的边界样本数据扩展训练集。
本文不仅展示了针对复杂环境的实时听觉增强技术的研究成功,也引领了耳戴式智能设备未来发展方向。