基于深度学习和语音合成的神经语音解码框架
神经科学研究获重大突破:深度学习技术实现从脑电信号解码出自然语音
纽约大学一个跨学科研究团队最近在神经科学和人工智能界取得重大突破。他们开发出一种基于深度学习的新框架,能够直接从人脑的神经信号中解码并合成出自然的人声。这项创新性成果有望为失语和失音症患者研发出新一代语音类脑机接口。
研究动机 语音障碍严重影响患者的社交和生活质量。过去几十年,研究人员一直致力于开发能从大脑解码并合成语音的神经假体,以帮助这些患者重建交流能力。然而,由于训练所需的大脑和语音数据的稀缺性、语音生成过程的复杂性和高维度性,构建高性能语音解码系统一直是个巨大的挑战。
研究成果精髓 该团队提出了一种创新的基于深度学习的语音解码框架,核心包括两个模块:(1)一个”脑电解码器”,将植入大脑皮层的电极阵列(ECoG)采集的脑电信号转化为可解释的语音参数;(2)一种全新的”可区分语音合成器”,能将语音参数转化为声谱图,再通过Griffin-Lim算法合成出波形。
研究人员还提出了语音自编码器的概念,利用语音信号对”语音合成器”进行预训练,生成参考语音参数,指导”脑电解码器”的训练。该框架可生成拟真度极高的语音,并在48名被试中获得高度可重复的解码性能。
该语音解码框架的一大创新之处是编码器的因果性。去年,大多数研究只报告了非因果编码器的结果,这意味着它们不仅利用了当前和过去的脑电信号,还利用了未来的信号,从而依赖了语音反馈信息。这在实时语音生成应用中是行不通的。研究人员开发的编码器可在因果和非因果模式下工作,前者仅利用当前和过去的信号,因而更适合实时应用。实验证实,在因果模式下,卷积神经网络(ResNet)和变换网络(Swin Transformer)等先进架构,能达到接近于非因果模式的高精度解码性能。
此外,该框架展示了从右脑皮层成功解码语音的可能性,为那些左脑严重受损导致失语的患者开辟了一条新的治疗途径。研究还发现,无论是高密度还是临床常用的低密度电极阵列,该框架均可获得很高的解码性能,这极大扩展了其应用前景。
创新意义 该语音解码框架产出了多方面的创新:
采用具解释性的中间语音参数表示,并配以全新的可区分语音合成器,可生成保持说话人个体特征的自然语音。
首次系统研究了语音解码编码器的因果性,为实时语音生成应用提供了可行的解决方案。
证实了从右脑半球成功解码语音的可能性,为失语症患者提供了新的治疗希望。
无论在高密度还是低密度电极阵列上,均展现出卓越的解码性能,大幅提高了在临床上的实用性。
研究团队发布了开源解码框架,有利于加速语音科学研究以及语音假体的发展。
该项突破性研究为神经科学和人工智能界打开了新的大门,展望未来,语音类脑机接口有望让沉默的大脑重新获得言语的力量。