Système de casque intelligent avec réseaux neuronaux en temps réel pour créer des bulles sonores programmables
Rapport sur la thèse : “Des dispositifs auditifs avec des bulles sonores”
Les environnements bruyants et les paysages sonores complexes rendent souvent la communication difficile, en particulier dans des lieux tels que les restaurants bondés, les salles de conférence ou les avions. Bien que les casques anti-bruit traditionnels réduisent les bruits de fond, ils sont incapables de différencier les sources sonores en fonction de leur distance ou d’adapter précisément le champ sonore à des positions acoustiques spécifiques. Partant de cette observation, une équipe de chercheurs de l’école Paul G. Allen d’informatique et d’ingénierie de l’Université de Washington, de Microsoft, et d’AssemblyAI a développé une technologie révolutionnaire permettant de créer des “bulles sonores”, incarnée dans des dispositifs auditifs intelligents. Cette innovation combine des réseaux neuronaux embarqués en temps réel avec des matrices de microphones multi-canaux, et résout les limites des approches précédentes. L’étude a été publiée dans le numéro de novembre 2024 de Nature Electronics et marque une avancée significative dans le domaine de l’amélioration auditive.
Contexte technique et problématique scientifique
Pourquoi des “bulles sonores” ?
Le système auditif humain est limité dans sa capacité à estimer la distance des sources sonores, et ces limitations deviennent particulièrement visibles lorsque des sources d’interférences sont présentes. De plus, les casques anti-bruit actuels utilisent souvent des séparations basées sur l’intensité ou la fréquence du signal sonore, mais ils ne prennent pas en compte la distance des sources, ne sont pas conçus pour les environnements complexes et peinent à répondre aux exigences de faible latence.
L’objectif de cette étude est de permettre la création de “bulles sonores”, des zones programmables autour de l’utilisateur dans lesquelles seuls les sons internes à la bulle sont audibles avec des niveaux de qualité élevés, tandis que les bruits extérieurs et autres sources sonores sont fortement atténués. L’application de cette technologie peut inclure des environnements comme des restaurants bruyants ou des salles de réunion simultanées, où l’utilisateur peut se concentrer uniquement sur la conversation proche.
Contributions principales de l’article
Les auteurs, comprenant Tuochao Chen, Malek Itani, Sefik Emre Eskimez, Takuya Yoshioka et Shyamnath Gollakota, ont réussi à aborder divers défis scientifiques et techniques complexes dans ce domaine. Ces défis incluent l’optimisation d’un dispositif basse latence capable de fonctionner en temps réel, la prise en charge de multiples utilisateurs dans de nouveaux environnements acoustiques, la programmation dynamique des rayons des bulles et la séparation des sources dans des environnements multi-locuteurs.
Méthodologie
I. Architecture système et mise en œuvre technologique
1. Infrastructure matériel et matrice de microphones
Le système repose sur une matrice de microphones à six canaux, intégrée dans un casque anti-bruit. Deux microphones sont placés à l’intérieur des écouteurs, tandis que les autres sont disposés le long du bandeau du casque. Les données sonores captées sont traitées en temps réel par un processeur central intégré, garantissant une reconstruction rapide et fidèle des sons souhaités.
2. Conception du réseau neuronal en temps réel
L’architecture du modèle se compose de quatre modules essentiels : - Encodage des caractéristiques : Les signaux audio sont transformés en représentations dans le domaine temps-fréquence à l’aide de la transformée de Fourier à court terme (Short-Time Fourier Transform, STFT) et des caractéristiques spécifiques comme la différence de phase intercanal (IPD) et la différence de niveau intercanal (ILD) sont extraites. - Incorporation de la distance : Un module d’encodage positionnel génère dynamiquement un masque de distance pour configurer les limites de la bulle sonore. - Séparation des sources : Le module utilise une version optimisée de TF-GridNet. Des adaptations visent à réduire la complexité afin de répondre aux contraintes des plateformes embarquées. - Décodage des caractéristiques : Après la séparation, la représentation est retransformée en un signal dans le domaine temporel grâce à une transformée inverse de Fourier, restituant les sons des locuteurs sélectionnés.
3. Optimisation algorithmique pour la faible latence
Avec un traitement par blocs audio de 8 millisecondes, la latence moyenne du système est de seulement 7,30 ms, tout en respectant la contrainte de latence stricte de 20-30 ms. Par ailleurs, le système implémente des techniques de mise en cache et de réutilisation des calculs intermédiaires pour réduire les temps de traitement supplémentaires. De plus, l’intégration avec le cadre ONNX RunTime permet de maximiser les performances sur les dispositifs embarqués.
II. Acquisition et généralisation des données
1. Collecte de données et plateformes robotiques
Les chercheurs ont conçu une plateforme automatisée pour capturer des enregistrements audio dans des environnements réels, en utilisant des têtes de mannequin montées sur des plateformes rotatives et des haut-parleurs ajustables en hauteur. Cette approche a permis de collecter des données dans 22 environnements intérieurs différents (bureaux, salles de conférence, laboratoires, etc.), créant un corpus de 15,85 heures simulant différents types de réflexions acoustiques à des distances variées.
2. Techniques d’augmentation et diversité des données
Afin d’accroître la robustesse du modèle, diverses techniques d’augmentation ont été utilisées, notamment le décalage des canaux d’enregistrement, les variations d’amplitude, la suppression aléatoire des bins fréquentiels et le changement de vitesse des clips audio.
Résultats principaux
I. Efficacité des bulles sonores et séparation des sources
- Dans des tests à différentes rayons (1 m, 1,5 m, 2 m), le modèle a démontré une atténuation moyenne des sons extérieurs à la bulle de 49 dB, atteignant un maximum de 69 dB dans des environnements réverbérants. Il a également montré une capacité d’adaptation notable pour des sources multiples entrant ou sortant de la bulle.
- Une évaluation objective de la qualité audio, basée sur l’amélioration du rapport signal-distorsion invariant (SI-SDR), a montré des gains significatifs : pour une seule source sonore dans une bulle de 1,5 m, le SI-SDR s’est amélioré de 11,52 dB en moyenne.
II. Généralisation à des environnements réels
Le système a maintenu d’excellentes performances dans des environnements totalement nouveaux et avec des utilisateurs qui n’ont pas fait partie du processus d’entraînement. En particulier, l’étude a montré que les pièces plus petites, où les premières réflexions acoustiques dominent, permettaient une meilleure localisation des sources sonores que les grands espaces avec bruit diffus.
III. Intégration matérielle
Une intégration complète a été réalisée avec un Raspberry Pi 4b ainsi que le casque SONY WH-1000XM4. Les performances en temps réel du modèle ont été confirmées, avec une gestion fluide des modifications instantanées du rayon des bulles sonores.
Perspectives et conclusions
Les implications de ce travail sont significatives, à la fois sur le plan technologique et scientifique. Notamment, ces “bulles sonores” pourraient trouver une application immédiate dans des prothèses auditives intelligentes, des appareils de collaboration pour les conférences, ou encore des dispositifs pour la réalité augmentée. Cependant, certaines limitations subsistent, comme une capacité limitée à s’adapter aux environnements extérieurs et une difficulté à définir précisément les limites de la bulle pour les sources distantes.
Les prochaines étapes incluent : - L’utilisation de processeurs neuronaux intégrés pour réduire la consommation énergétique et améliorer l’autonomie. - La réduction des coûts de calcul grâce à des techniques d’optimisation, comme la quantification des poids. - Une collection de données plus étendue dans des environnements extérieurs.
Cette étude pose les bases d’une nouvelle génération de dispositifs auditifs capables de maximiser la perception audio dans des environnements complexes, tout en ouvrant des pistes excitantes pour la recherche future.