由大脑皮质发音表征驱动的双语语音神经假体
由大脑皮质发音表征驱动的双语语音神经假体
背景
在神经假体的发展过程中,从大脑活动解码语言的研究一直集中在单一语言的解码上。因此,双语言语产生依赖于不同语言的独特或共享皮层活动的程度仍不清楚。当前研究通过电皮层图(electrocorticography, ECoG)结合深度学习和统计自然语言模型来记录和解码一名西班牙语-英语双语患者的言语运动皮层活动,并将其转化为两种语言的句子。该研究旨在解决双语解码的实际应用问题,尤其是在不需要手动指定目标语言的情况下,实现言语解码。
言语丧失症(anarthria),即失去清晰发音的能力,是中风和肌萎缩侧索硬化症等神经疾病的严重症状之一。目前,侵入性言语脑-计算机接口(BCI)正在被开发,以通过解码皮层活动恢复患者的自然沟通能力。然而,现有的言语BCI研究主要集中在单一语言的解码上,尤其是英语或荷兰语,这与研究对象的选择有很大关系。因此,对于双语和非英语语言的神经假体研究较少。在全球大约三分之二的人口是双语,研究表明,这些双语者经常在不同的社交环境中使用不同的语言,其多语言使用对其整体人格和世界观有着重要的影响。能够设计出适用于多语言解码的BCI系统对于恢复所有可能受益的患者的沟通能力十分必要。
论文来源
这篇论文由Alexander B. Silva、Jessie R. Liu、Sean L. Metzger等人撰写,来自加利福尼亚大学旧金山分校(University of California, San Francisco, UCSF)的神经外科系和韦尔神经科学研究所(Weill Institute for Neurosciences),以及加利福尼亚大学伯克利分校(University of California, Berkeley)。该论文发表在《Nature Biomedical Engineering》期刊上,发表于2024年4月1日,DOI:https://doi.org/10.1038/s41551-024-01207-5。
研究细节
研究流程
系统激活与语句解码:
- 参与者尝试发声并通过语音检测模块识别初始的发声尝试,一旦检测到初始尝试,系统会每3.5秒提示下一句话,每次尝试中会记录和处理神经特征。
- 双语词汇表包括51个英语单词和50个西班牙语单词。模型利用共享的发声特征跨语言泛化,使用转移学习将一个语言的神经数据用于提高另一个语言的解码性能。
词汇表与语言模型:
- 模型使用共享的双语音节分类器,并通过语言模型(LM)优先选择语言学上有效的短语,根据上下文准确变位动词,从两个语言模型中选择得分最高的句子进行显示。
模型训练与评估:
- 使用隔离目标任务的数据训练分类和检测模型。在该任务中,参与者尝试以视觉提示生产目标单词,并记录高伽玛活动(HGA)和低频信号(LFS)特征进行预测。
- 使用“复制打字”任务进行评估,参与者按提示重现随机英语和西班牙语短语。性能衡量主要采用单词错误率(WER)指标。
研究结果
双语言语神经假体性能:
- 系统能灵活地解码英语和西班牙语短语。通过高密度ECoG阵列记录神经特征并优化解码模型,在线测试块的中位单词错误率(WER)为25.0%(可信区间99%:17.2, 36.4%),通过结合语言建模,WER显著降低至70.6%(99% CI:61.9, 78.1%)。
语音检测与语言分类:
- 使用递归神经网络(RNN)分类器处理每个3.5秒窗口的神经特征,生成跨越双语104个单词的概率分布。该系统在目标语言上的自由解码准确度达到87.5%(99% CI:85.7, 100%),远高于随机预测和基于神经活动的语言选择,说明语言建模在选择正确语言中的重要性。
共享音节表示:
- 参与者在两种语言的语音尝试中显示出相似的神经活动模式,进一步证明了跨语言的共享发声特征。通过训练在一种语言上的数据建立的模型可以在另一种语言上实现有效分类。
研究结论
研究表明,跨语言共享的皮层发声表示不仅在瘫痪之后持续存在,还可以在不同语言之间进行有效解码,无需为每种语言单独训练解码器。通过转移学习,可以利用之前收集的神经数据显著提高新的语言词汇解码性能,减少训练时间和对参与者的负担。
研究亮点
解决了双语解码问题:
- 借助共享的发声特征,首次实现了不需要手动指定目标语言的情况下,双语言语解码技术。
模型的快速迁移学习:
- 利用一种语言的神经数据提高另一种语言的解码性能,大大减少了双语参与者的训练时间和使用负担。
系统性能稳定持久:
- 无需频繁重新校准,解码模型在超过40天的时间内保持性能稳定。
广泛应用前景:
- 该技术为双语和非英语语言的BCI应用提供了新的可能,具有重要的临床应用价值和科学研究意义。
其他有价值的信息
尽管这项研究的局限性在于仅有一个参与者,但双语间强共享的发声表示使其对其他学习第二语言较早的人(这往往伴随更强的共享表示)有很好的泛化潜力。未来的研究还应关注语言熟练程度、习得年龄和与母语的发声相似性对共享表示的影响。
总结
这项研究展示了一个双语言语神经假体的可行性,它能够灵活解码用户意图的语言,并通过最少的训练数据在语言之间进行泛化,为瘫痪患者恢复自然沟通提供了宝贵的技术手段。这一研究成果不仅推动了多语言BCI的发展,还为未来的研究提供了重要的参考框架。