Un cadre de décodage de la parole neuronale s'appuyant sur l'apprentissage profond et la synthèse vocale
Une percée majeure dans la recherche en neurosciences : la technologie de l’apprentissage profond permet de décoder la parole naturelle à partir de signaux cérébraux
Une équipe de recherche interdisciplinaire de l’Université de New York a récemment réalisé une percée majeure dans les domaines des neurosciences et de l’intelligence artificielle. Ils ont développé un nouveau cadre basé sur l’apprentissage profond capable de décoder et de synthétiser la parole naturelle directement à partir des signaux neuronaux du cerveau humain. Cette innovation prometteuse pourrait conduire au développement d’une nouvelle génération d’interfaces cerveau-machine vocales pour les patients souffrant d’aphasie ou de troubles de la parole.
Motivation de la recherche Les troubles de la parole affectent gravement les interactions sociales et la qualité de vie des patients. Au cours des dernières décennies, les chercheurs se sont efforcés de développer des prothèses neurales capables de décoder et de synthétiser la parole à partir du cerveau, afin d’aider ces patients à retrouver leurs capacités de communication. Cependant, en raison de la rareté des données cérébrales et vocales nécessaires à l’entraînement, de la complexité et de la haute dimensionnalité du processus de génération de la parole, la construction de systèmes de décodage vocal performants a toujours représenté un énorme défi.
Essence des résultats de recherche L’équipe a proposé un cadre innovant de décodage vocal basé sur l’apprentissage profond, comprenant deux modules principaux : (1) un « décodeur cérébral » qui transforme les signaux cérébraux captés par des réseaux d’électrodes corticales implantées (ECoG) en paramètres vocaux interprétables ; (2) un tout nouveau « synthétiseur vocal discriminatif » capable de convertir ces paramètres vocaux en spectrogrammes, puis en formes d’onde à l’aide de l’algorithme Griffin-Lim.
Les chercheurs ont également introduit le concept d’auto-encodeur vocal, utilisant le signal vocal pour pré-entraîner le « synthétiseur vocal » afin de générer des paramètres vocaux de référence pour guider l’entraînement du « décodeur cérébral ». Ce cadre peut générer une parole d’une qualité extrêmement naturelle et a montré des performances de décodage hautement reproductibles chez 48 sujets.
Une innovation majeure de ce cadre de décodage vocal est la causalité de l’encodeur. L’année dernière, la plupart des recherches ne rapportaient que les résultats des encodeurs non causaux, ce qui signifie qu’ils utilisaient non seulement les signaux cérébraux actuels et passés, mais aussi futurs, s’appuyant ainsi sur un retour d’information vocal. Cela n’est pas réalisable pour des applications de génération vocale en temps réel. Les chercheurs ont développé un encodeur capable de fonctionner en mode causal et non causal, le premier n’utilisant que les signaux actuels et passés, ce qui le rend plus adapté aux applications en temps réel. Les expériences ont démontré que, dans le mode causal, des architectures de pointe comme les réseaux neuronaux convolutifs (ResNet) et les réseaux transformateurs (Swin Transformer) peuvent atteindre des performances de décodage proches de celles du mode non causal.
De plus, ce cadre a démontré la possibilité de décoder avec succès la parole à partir du cortex cérébral droit, ouvrant ainsi une nouvelle voie thérapeutique pour les patients souffrant d’aphasie due à des lésions sévères de l’hémisphère gauche. La recherche a également révélé que, qu’il s’agisse de réseaux d’électrodes à haute densité ou de réseaux à basse densité couramment utilisés en clinique, ce cadre peut atteindre d’excellentes performances de décodage, élargissant considérablement ses perspectives d’application.
Signification innovante Le cadre de décodage vocal comporte plusieurs aspects novateurs :
L’adoption d’une représentation intermédiaire des paramètres vocaux interprétables, associée à un tout nouveau synthétiseur vocal discriminatif, permet de générer une parole naturelle conservant les caractéristiques individuelles du locuteur.
C’est la première étude systématique de la causalité des encodeurs de décodage vocal, offrant une solution viable pour les applications de génération vocale en temps réel.
Il démontre la possibilité de décoder avec succès la parole à partir de l’hémisphère cérébral droit, ouvrant de nouvelles perspectives thérapeutiques pour les patients souffrant d’aphasie.
Des performances de décodage exceptionnelles sont obtenues, qu’il s’agisse de réseaux d’électrodes à haute ou basse densité, augmentant considérablement son utilité clinique.
L’équipe de recherche a publié un cadre de décodage open source, favorisant l’accélération des recherches en sciences vocales et le développement de prothèses vocales.
Cette percée ouvre de nouvelles portes pour les neurosciences et l’intelligence artificielle. À l’avenir, les interfaces cerveau-machine vocales pourraient bien redonner la parole aux cerveaux silencieux.