Représentation sécante hyperbolique de la fonction logistique : Application à l'apprentissage probabiliste d'instances multiples pour la détection d'hémorragie intracranienne CT
Le domaine de l’intelligence artificielle a toujours été confronté au problème de “l’apprentissage faiblement supervisé”, où seule une partie des annotations sont observables dans les données d’entraînement, le reste des annotations étant inconnu. L’apprentissage multi-instances (Multiple Instance Learning, MIL) est un paradigme visant à résoudre ce problème. Dans le MIL, les données d’entraînement sont regroupées en “sacs” (bags), chaque sac contenant plusieurs instances. Nous pouvons seulement observer les annotations des sacs, mais pas celles des instances individuelles. L’objectif du MIL est de prédire les annotations des nouveaux sacs et de leurs instances, en se basant sur les annotations des sacs.
Le paradigme MIL a trouvé de larges applications dans de nombreux domaines scientifiques, particulièrement en imagerie médicale où il a démontré des performances exceptionnelles. Ce document se concentre sur un problème médical réel - la détection d’hémorragie intracrânienne (ICH). Dans ce problème, un scan CT est considéré comme un sac, et chaque tranche du scan comme une instance. Si au moins une tranche montre des preuves de saignement, le scan entier est étiqueté comme positif (pathologique) ; sinon, il est négatif (normal). Nous ne pouvons observer que les annotations des scans, pas celles des tranches individuelles. Le MIL peut grandement réduire la charge de travail des radiologues, car ils n’ont besoin d’annoter que chaque scan, sans avoir à annoter individuellement toutes les tranches.
Les méthodes MIL probabilistes ont récemment reçu beaucoup d’attention, les méthodes basées sur les processus gaussiens (Gaussian Processes, GP) étant particulièrement performantes, car elles peuvent non seulement représenter des modèles complexes, mais aussi quantifier l’incertitude. Une des méthodes GP-MIL les plus réussies est VGPMIL, qui utilise l’inférence variationnelle (Variational Inference) pour traiter les problèmes mathématiques posés par la fonction logistique. Des recherches récentes ont montré que cette méthode souffre de dégradations de performances en pratique.
Dans ce document, les auteurs utilisent un outil appelé “variables Pólya-Gamma” (Pólya-Gamma variables) pour obtenir une forme équivalente et soluble du modèle d’observation logistique, et reformulent le modèle VGPMIL en conséquence, obtenant le modèle PG-VGPMIL. Curieusement, les auteurs ont découvert que les équations de mise à jour pour l’inférence variationnelle de PG-VGPMIL sont exactement les mêmes que celles de VGPMIL d’origine. Ce phénomène trouve son origine dans les deux formes équivalentes de la densité sécante hyperbolique : une forme “super-gaussienne” et une forme de “mélange d’échelle gaussienne” (Gaussian Scale Mixture, GSM). VGPMIL utilise la première forme, tandis que PG-VGPMIL utilise la seconde.
Une analyse plus approfondie a révélé que VGPMIL/PG-VGPMIL est en fait un cas particulier d’un cadre plus général ψ-VGPMIL, obtenu en remplaçant la densité sécante hyperbolique par une densité GSM arbitraire différentiable ψ. Sur cette base, les auteurs proposent d’utiliser une densité Gamma au lieu de la densité PG, obtenant ainsi le nouveau modèle G-VGPMIL.
Des expériences sur plusieurs jeux de données (un jeu de contrôle MNIST, deux jeux de données MIL standard MUSK, et un jeu de données réel de détection d’ICH RSNA et CQ500) ont montré que G-VGPMIL surpasse VGPMIL d’origine en termes de performance prédictive et d’efficacité d’entraînement, et dépasse la plupart des autres méthodes sur la tâche de détection d’ICH. Ce résultat valide l’efficacité de la méthode proposée et fournit des perspectives intéressantes pour les recherches futures dans ce domaine.
Les principales contributions de cet article sont les suivantes : 1) l’introduction des variables Pólya-Gamma dans le domaine du MIL ; 2) la découverte que PG-VGPMIL est en fait une forme équivalente de VGPMIL ; 3) la proposition d’un cadre plus général ψ-VGPMIL ; 4) la proposition d’un nouveau modèle G-VGPMIL utilisant une densité Gamma ; 5) la validation des performances supérieures de G-VGPMIL sur plusieurs jeux de données. Ce travail non seulement étend les bases théoriques du MIL, mais fournit également une solution efficace pour des applications pratiques telles que la détection d’ICH.