Une architecture intégrée IGZO-RRAM-SRAM en 3D monolithique pour un calcul en mémoire robuste et efficace

Une étude sur une nouvelle architecture intégrée en 3D monolithique IGZO-RRAM-SRAM : Une percée pour améliorer l’efficacité des calculs basés sur les réseaux neuronaux

Contexte et motivation de la recherche

Avec l’application croissante des réseaux neuronaux (Neural Network, NN) dans le domaine de l’intelligence artificielle, les architectures de calcul traditionnelles ne répondent plus aux exigences élevées en matière de consommation énergétique, rapidité et densité. Cela incite les chercheurs à se tourner vers la technologie des puces de calcul en mémoire (Compute-In-Memory, CIM). Le CIM intègre les unités de calcul et de stockage dans une seule architecture, éliminant ainsi l’effet de « mur mémoire » causé par de fréquents transferts entre le stockage et le calcul, et améliorant significativement l’efficacité du système. Les architectures CIM actuelles s’appuient principalement sur des mémoires statiques (Static Random Access Memory, SRAM), des mémoires résistives (Resistive Random Access Memory, RRAM) ou des dispositifs à base d’oxyde d’indium-gallium-zinc (Indium-Gallium-Zinc-Oxide, IGZO).

Cependant, les systèmes CIM basés sur un seul type de mémoire font face à plusieurs défis en ce qui concerne l’équilibre entre densité, efficacité énergétique et précision. Plus précisément : 1. Problèmes de non-idéalité des dispositifs uniques : Les différents types de mémoires présentent chacun des limitations. Par exemple, la SRAM offre une haute précision mais a une densité faible et une consommation d’énergie élevée, tandis que la RRAM présente une haute densité mais souffre de variations entre cellules et d’une endurance d’écriture limitée. 2. Proportion élevée des composants hors matrice CIM : En particulier, le stockage des données d’activation intermédiaires occupe une grande part des ressources systèmes. De grands réseaux neuronaux nécessitent un stockage massif des activations intermédiaires. Les solutions traditionnelles, reposant sur la SRAM, souffrent cependant de leur faible densité, ce qui réduit l’efficacité globale des systèmes CIM.

Ces problèmes poussent les chercheurs à trouver une nouvelle architecture CIM capable de combiner le meilleur des différentes technologies tout en surmontant ces limitations. L’étude publiée dans Science China Information Sciences propose une solution novatrice : une architecture monolithique intégrée en 3D combinant IGZO, RRAM et SRAM (Monolithic 3D IGZO-RRAM-SRAM Architecture), pour relever ces défis.

Origine de la recherche

Ce travail a été réalisé par l’Institut de microélectronique de l’Académie des sciences de Chine en collaboration avec l’Université de l’Académie des sciences de Chine. Les principaux auteurs incluent Shengzhe Yan, Zhaori Cong, Zi Wang, et d’autres. Cet article a été publié en ligne en février 2025 dans Science China Information Sciences sous le titre : A monolithic 3D IGZO-RRAM-SRAM-integrated architecture for robust and efficient compute-in-memory enabling equivalent-ideal device metrics.

Processus et détails techniques de la recherche

1. Introduction d’une architecture CIM « équivalente idéale »

Les chercheurs ont proposé une architecture « Equivalent-Ideal CIM » (EQ-CIM), tirant parti de la technologie d’intégration monolithique pour réaliser une division fonctionnelle tridimensionnelle entre la SRAM, la RRAM et l’IGZO. L’objectif est de combiner les forces de chaque technologie : - IGZO pour le stockage des activations, grâce à sa capacité de très faible courant de fuite pour une densité élevée et une faible consommation. - RRAM pour le stockage des poids avec une densité maximale. - SRAM pour effectuer les calculs dans le CIM avec une haute précision et une efficacité.

Cette stratégie de division fonctionnelle exploite les caractéristiques uniques de chaque dispositif tout en évitant leurs limitations intrinsèques grâce à une conception architecturale.

2. Empilement 3D et modélisation des dispositifs

Les chercheurs ont utilisé une technologie d’empilement 3D monolithique, intégrant la RRAM entre les couches métalliques (Metal 56), l’IGZO au sommet (Metal 9), et la SRAM dans la couche de silicium. Les principales expériences incluent : - Modélisation et analyse des variations des dispositifs RRAM et IGZO : En testant une matrice RRAM de 2 KB et 52 dispositifs IGZO, ils ont étudié les impacts des variations de température, des paramètres géométriques (par exemple, profondeur de contact) sur les performances. - Extraction des caractéristiques des dispositifs : Les variations de tension seuil (Vth) et de courants de conduction des dispositifs IGZO, ainsi que les distributions des états de résistance haute/basse (HRS/LRS) de la RRAM ont été collectées.

En outre, face aux disparités de fréquence entre dispositifs (par exemple, SRAM fonctionnant à 400 MHz contre 50 MHz pour IGZO), les chercheurs ont proposé une solution basée sur la multiplication de la bande passante, en permettant à plusieurs blocs de stockage IGZO de fonctionner en parallèle.

3. Cadre de simulation des dispositifs au système

Un cadre de simulation a été conçu pour modéliser l’impact des variations des dispositifs sur les performances système : - Au niveau des dispositifs, les caractéristiques telles que les variations de résistance RRAM ou les déplacements du Vth de l’IGZO induits par la température, sont extraites. - Au niveau système, ces variations sont traduites en impacts sur la précision des algorithmes. Ils ont utilisé une chaîne d’outils basée sur Python et PyTorch pour mener ces analyses.

Les charges de travail des réseaux neuronaux sont compilées et assignées aux différentes couches de mémoire (IGZO, RRAM, SRAM). Les opérations de lecture/écriture pour les poids et activations sont ensuite utilisées pour calculer l’efficacité énergétique et spatiale du système.

4. Flux opérationnel et résultats expérimentaux

Des tests ont été réalisés sur des modèles de réseaux neuronaux standards tels que VGG16 et ResNet50 avec les ensembles de données CIFAR-10 et ImageNet : - Densité de stockage : EQ-CIM atteint une densité de 19,8 MB/mm², soit une amélioration de 5 à 11 fois par rapport aux solutions CIM existantes (par exemple celles basées sur RRAM ou PCM). - Efficacité énergétique : Lors des tests sur ResNet50, l’efficacité énergétique du système EQ-CIM atteint 95,2 TOPS/W, soit une augmentation de 2,45× par rapport aux meilleures solutions monocibles. - Précision des réseaux neuronaux : Même dans des plages de température fluctuantes (entre -40°C et 120°C), EQ-CIM maintient une haute précision avec une perte inférieure à 0,27 % pour ImageNet. - Efficacité de l’aire : Comparée aux solutions purement SRAM ou RRAM, EQ-CIM présente une amélioration de l’efficacité de l’espace système de 3,99×.

Conclusion et pertinence académique

1. Conclusions de la recherche

EQ-CIM combine de manière innovante IGZO, RRAM et SRAM pour réaliser des avancées significatives en termes de densité, d’efficacité énergétique et de précision. De plus, l’architecture offre une grande robustesse face aux variations des dispositifs et aux températures, ce qui la rend adaptée aux grands modèles de réseaux neuronaux.

2. Importance scientifique et technique

Cette recherche atteint une optimisation exceptionnelle entre les dispositifs, l’architecture et les performances système. L’importance scientifique réside dans : 1. La proposition d’une méthode pour surmonter les limitations des dispositifs unitaires. 2. L’enrichissement des applications des technologies d’empilement 3D monolithiques dans les domaines du stockage et du calcul. 3. L’introduction d’un cadre de simulation qui fournit un puissant outil d’analyse pour des recherches futures sur le CIM.

L’importance technique se reflète dans : - La promotion de puces CIM à haute efficacité énergétique pour le calcul en périphérie. - L’apport d’une nouvelle approche de conception pour les accélérateurs matériels d’inférence et d’apprentissage des réseaux neuronaux.

3. Points forts de l’étude

  • L’architecture intégrée multidévice atteint des performances CIM « équivalentes idéales ».
  • Les technologies avancées d’empilement 3D, associées à un cadre de tests robustes en température, renforcent l’innovation.
  • Les validations expérimentales basées sur des réseaux neuronaux standards montrent un fort potentiel d’application dans des tâches du monde réel.

Les chercheurs notent que des défis d’ingénierie restent à relever, notamment la mise en œuvre détaillée des procédés 3D, la sélection des matériaux, la gestion thermique et la fiabilité au niveau des puces.