Plus petit mais meilleur : Unifier la génération de mise en page avec des modèles de langage plus petits

Une nouvelle avancée dans la génération unifiée de mises en page : des grands modèles linguistiques plus petits mais plus puissants

Contexte de recherche et problématique

La génération de mise en page (Layout Generation) est une direction importante dans les domaines de la vision par ordinateur et de l’interaction homme-machine, visant à générer automatiquement via des algorithmes des conceptions graphiques ou des mises en page répondant à des besoins spécifiques. Par exemple, la conception d’articles scientifiques, d’interfaces utilisateur d’applications (App UI), de pages de magazines et de diapositives nécessite des méthodes efficaces et flexibles de génération de mise en page. Cependant, les méthodes traditionnelles sont souvent optimisées pour une seule tâche ou un seul domaine, manquant de généralité à travers différentes tâches et domaines. Avec le développement des techniques d’apprentissage profond, les approches basées sur l’architecture Transformer sont progressivement devenues la norme, mais elles font encore face à des problèmes comme la complexité du modèle et le coût de calcul élevé.

Ces dernières années, les grands modèles linguistiques (Large Language Models, LLMs) ont obtenu des progrès significatifs dans le domaine du traitement du langage naturel (NLP). Leurs capacités de raisonnement puissantes offrent de nouvelles possibilités pour résoudre des tâches complexes. Cependant, l’application des LLMs à la génération unifiée de mise en page reste à ses débuts. Les méthodes existantes présentent les limitations suivantes : 1) La taille massive des modèles (par exemple, 175 milliards de paramètres) entraîne des coûts élevés pour l’entraînement et le déploiement ; 2) Elles reposent sur des formats longs comme HTML comme modèles d’entrée, ajoutant du bruit symbolique inutile ; 3) Elles sont limitées à des tâches ou domaines spécifiques et ne peuvent pas réaliser une véritable généralité.

Pour résoudre ces problèmes, une équipe de recherche de l’Université de Technologie de Chine du Sud a proposé le modèle LGGPT, un cadre de génération unifiée de mise en page basé sur des LLMs plus petits, visant à réduire considérablement les coûts de calcul tout en garantissant la performance grâce à des innovations dans les modèles d’entrée-sortie et les stratégies de codage quantifié.

Source de l’article

Cet article a été rédigé conjointement par Peirong Zhang, Jiaxin Zhang, Jiahuan Cao, Hongliang Li et Lianwen Jin de l’École d’Ingénierie Électronique et d’Information de l’Université de Technologie de Chine du Sud. Il a été publié en janvier 2025 dans le International Journal of Computer Vision. Le titre de l’article est « Smaller but Better: Unifying Layout Generation with Smaller Large Language Models ».


Contenu et méthodologie de la recherche

a) Processus de recherche

1. Prétraitement des données

L’équipe de recherche a intégré cinq ensembles de données publics provenant de quatre domaines, y compris des articles scientifiques (PubLayNet), des interfaces utilisateur d’applications (RICO), des magazines (Magazine) et des diapositives (Slide). Ces ensembles de données ont été normalisés, tous les libellés des éléments de mise en page ont été convertis en minuscules, et redimensionnés à une taille fixe (le côté long limité à 1024 pixels). De plus, l’équipe a filtré et divisé les données pour assurer un ratio cohérent entre les ensembles d’entraînement et de test afin de permettre des comparaisons équitables.

2. Conception du modèle

Le cœur de LGGPT est un petit LLM (GPT2-XL) de 1,5 milliard de paramètres, avec deux innovations technologiques clés : - Instruction de Mise en Page Arbitraire (Arbitrary Layout Instruction, ALI) : ALI est un modèle d’entrée unifié capable de supporter n’importe quelle combinaison de conditions de mise en page. Il comprend une invite préfixe (Prefix Prompt) et une invite principale (Body Prompt), décrivant respectivement le type de mise en page, le nombre d’objets, le nombre de colonnes et les conditions spécifiques des attributs. - Encodage Quantifié par Intervalle (Interval Quantization Encoding, IQE) : IQE évite l’utilisation de marqueurs de position traditionnels (Placeholders) en ajoutant des valeurs d’intervalle indépendantes à chaque attribut géométrique, compressant ainsi la longueur de la séquence d’entrée et augmentant la densité d’information.

3. Entraînement du modèle

LGGPT utilise une stratégie de forçage enseignant (Teacher Forcing) pour l’entraînement, en attachant la sortie réelle (Ground Truth) à l’invite d’entrée pour former une entrée complète. L’objectif d’optimisation est de minimiser la log-vraisemblance négative des marques de mise en page prédites. Pendant l’entraînement, l’équipe a adopté une stratégie d’échantillonnage mixte, traitant simultanément plusieurs types de tâches de génération (comme le complètement, la génération sous contrainte relationnelle, etc.) et des tâches de génération mono-type (comme la génération inconditionnelle).

4. Stratégie de décodage

Pendant l’inférence, LGGPT utilise par défaut une recherche gloutonne (Greedy Search) comme stratégie de décodage de base, assistée par un échantillonnage Top-K (K=50). Pour les tâches nécessitant un débruitage, un échantillonnage multinomial (Multinomial Sampling) est utilisé séparément.


b) Résultats principaux

1. Évaluation des tâches individuelles

L’équipe a évalué LGGPT sur six tâches distinctes, y compris le complètement de mise en page (Completion), la génération basée sur des catégories (Gen-T), la génération basée sur des catégories et des tailles (Gen-TS), la génération sous contrainte relationnelle (Relation), la génération de débruitage (Refinement), et la génération inconditionnelle (Gen-U/Gen-UP). Les résultats montrent que LGGPT atteint des performances de premier plan dans la plupart des tâches, se distinguant particulièrement dans les métriques FID (Fréchet Inception Distance) et Max IoU (Maximum Intersection over Union). Par exemple, dans la tâche de complètement sur l’ensemble de données PubLayNet, le FID de LGGPT est seulement de 2,08, bien inférieur à celui de la méthode de référence (27,87).

2. Évaluation des tâches mixtes

L’équipe a également conçu quatre tâches mixtes (telles que le complètement-débruitage, la génération sous conditions arbitraires, etc.) pour simuler des scénarios d’application plus complexes. Les résultats montrent que LGGPT excelle également dans ces tâches, surpassant le modèle LDGM existant. Par exemple, dans la tâche de génération sous conditions arbitraires (Gen-Arb-Refine), le FID de LGGPT est seulement de 5,83, alors que celui de LDGM atteint 29,21.

3. Analyse comparative

Pour valider l’efficacité de ALI et IQE, l’équipe a mené des expériences d’ablation. Les résultats montrent qu’en comparaison avec le format HTML traditionnel, ALI réduit significativement la longueur d’entrée (de 76 jetons à 54 jetons) et réduit le temps d’inférence de 3,08 secondes à 1,83 secondes. De plus, la stratégie IQE réduit en moyenne le FID d’environ 60 %, améliorant encore les performances du modèle.


c) Conclusion et signification

Le succès de LGGPT prouve le potentiel des petits LLM dans la génération unifiée de mise en page. Les principales contributions de cette recherche incluent : 1. Proposition d’ALI et ULR (Universal Layout Response) comme modèles d’entrée-sortie unifiés, réalisant la généralité à travers différentes tâches et domaines ; 2. Développement de la stratégie IQE, qui compresse efficacement les séquences d’entrée et augmente la densité d’information ; 3. Validation que la taille de 1,5 milliard de paramètres offre un équilibre optimal entre performance et efficacité.

Cette recherche non seulement fait avancer la technologie de génération de mise en page, mais fournit également une référence importante pour d’autres tâches de génération multimodale. À l’avenir, l’équipe prévoit d’explorer davantage comment améliorer la généralité inter-domaines et d’appliquer LGGPT à davantage de scénarios pratiques.


d) Points forts de la recherche

  1. Unification transversale des tâches et des domaines : LGGPT réalise pour la première fois une génération de mise en page générique à travers tâches et domaines, couvrant 11 tâches courantes et 4 domaines différents.
  2. Efficacité et compacité : Grâce à ALI et IQE, LGGPT maintient des performances élevées tout en réduisant considérablement les coûts de calcul.
  3. Potentiel des petits LLM : L’étude montre qu’un LLM de 1,5 milliard de paramètres suffit pour gérer des tâches complexes de génération unifiée, offrant de nouvelles perspectives pour des environnements à ressources limitées.

e) Autres informations précieuses

L’équipe de recherche a rendu open source le code et les ensembles de données (lien GitHub), facilitant les recherches ultérieures. De plus, l’article discute en détail des directions futures possibles, telles que l’intégration de données provenant de domaines similaires pour l’entraînement conjoint afin d’améliorer davantage la performance inter-domaines.