本文介绍了一项由Shan Gao、Jing Lin、Xihong Wu和Tianshu Qu共同完成的研究,题为《Sparse DNN Model for Frequency Expanding of Higher Order Ambisonics Encoding Process》。该研究发表于2022年的IEEE/ACM Transactions on Audio, Speech, and Language Processing期刊。研究的主要目标是解决高阶Ambisonics(HOA)信号在低频段的噪声污染和高频段的空间混叠问题,提出了一种基于稀疏深度神经网络(Sparse Deep Neural Network, Sparse-DNN)的声场分解模型,以扩展HOA信号的频率带宽。
Ambisonics是一种三维音频分解与再现技术,最早由Gerzon于1973年提出。它通过在球谐函数域中对声场进行分析和合成,广泛应用于声场记录、虚拟声音再现、房间几何推断和方向估计等领域。然而,传统的声场分解方法在低频段受到噪声干扰,而在高频段则受到空间混叠的影响,限制了HOA信号的性能。为了解决这些问题,研究者们提出了多种方法,如Tikhonov滤波器、空间抗混叠滤波器等,但这些方法在实际应用中存在局限性。
本研究提出了一种基于稀疏深度神经网络的声场分解模型,旨在扩展HOA信号的频率带宽。具体来说,研究采用了频域多尺度卷积网络来实现球谐函数分解,并通过学习空间混叠模式来消除混叠。此外,研究还引入了稀疏编码网络来捕捉声场的稀疏特征,从而在稀疏条件满足时提高模型性能。
研究的主要流程包括以下几个步骤: 1. 声场分解的物理模型:首先,研究者介绍了从麦克风阵列信号到Ambisonic信号的转换过程,并分析了噪声干扰和空间混叠问题。 2. 神经网络模型设计:研究者设计了一个端到端的声场分解网络,输入为频域信号,输出为理想的HOA信号。网络结构包括多尺度卷积层、稀疏编码网络和全连接层。 3. 多尺度卷积网络:通过多尺度卷积层捕捉不同频率下的空间特征,并在每个子频带上进行卷积操作,以提取频率依赖的变换特征。 4. 稀疏编码网络:稀疏编码网络通过添加稀疏约束来提取声场的稀疏特征,从而在稀疏条件下提高模型性能。 5. 全连接层:在每个频率点上添加全连接层,以保留不同频率点之间的变换差异。
研究通过模拟和实际环境下的实验验证了所提出模型的有效性。实验结果表明,该模型在多声源(最多10个声源)和低混响环境(T60 ≤ 400 ms)下能够显著扩展HOA信号的操作频率范围,并在高频段有效消除空间混叠。即使在稀疏条件不满足的情况下(T60 = 800 ms),该模型仍能保持与传统方法相同的性能。
具体实验结果包括: 1. 波束图重建:在2 kHz和10 kHz频率下,模型能够准确重建球谐函数的波束图,尤其是在高频段,模型能够有效消除空间混叠带来的干扰。 2. 声场重建:模型在更宽的频率范围内实现了声场的准确重建,尤其是在空间混叠发生时,模型表现优于传统方法。 3. 定量评估:通过归一化均方误差(NMSE)评估,模型在不同声源数量、不同噪声环境和不同混响环境下的表现均优于传统方法。
本研究提出了一种基于稀疏深度神经网络的声场分解模型,能够有效扩展HOA信号的频率带宽,并在多声源和低混响环境下表现出色。即使在稀疏条件不满足的情况下,模型仍能保持与传统方法相当的性能。该模型在噪声环境和实际环境中的有效性也得到了验证,展示了其良好的泛化性能。
本研究不仅在理论上提出了新的声场分解方法,还为实际应用中的HOA信号处理提供了有效的解决方案。该模型在虚拟现实、增强现实、声场记录等领域具有广泛的应用潜力,能够显著提升三维音频的再现质量。