Approche de décision à trois voies basée sur l'utilité et les procédures de transformation de localisation dynamique dans un ensemble flou orthopair circulaire de rang Q pour le classement et le classement des grands modèles de langage
Contexte académique
Avec le développement rapide de l’intelligence artificielle (IA) et du traitement du langage naturel (Natural Language Processing, NLP), les modèles de langage de grande taille (Large Language Models, LLMs) ont réalisé des progrès significatifs dans les milieux académiques et industriels. Cependant, bien que les LLMs excellent dans de multiples tâches de NLP, aucun modèle unique n’a encore été capable de répondre à toutes les exigences simultanément. Cette diversité des besoins en tâches et la complexité des critères d’évaluation font de l’évaluation des LLMs un problème de décision multicritère (Multi-Criteria Decision-Making, MCDM). Les méthodes traditionnelles de MCDM, bien qu’elles puissent effectuer des classements, présentent des limitations dans la gestion de l’incertitude, la priorisation des tâches et la variabilité des données, en particulier lorsqu’il s’agit de traiter des données binaires, ce qui rend difficile une classification efficace.
Pour résoudre ce problème, cet article propose une méthode de décision à trois voies (Three-Way Decision, 3WD) basée sur l’utilité et des procédures de transformation dynamique de localisation, combinée à des ensembles flous orthopairs circulaires de q-rang (Circular q-Rung Orthopair Fuzzy Sets, C-Q-ROFS) pour classer et évaluer les LLMs. Cette méthode permet non seulement de gérer l’incertitude, mais aussi de traiter efficacement les données binaires grâce à des procédures de transformation dynamique, offrant ainsi un mécanisme plus robuste pour l’évaluation des LLMs.
Source de l’article
Cet article a été co-écrit par Sarah Qahtan, Nahia Mourad, H. A. Alsattar, A. A. Zaidan, B. B. Zaidan, Dragan Pamucar, Vladimir Simic, Weiping Ding et Khaironi Yatim, provenant de plusieurs institutions de recherche, notamment l’Université de Bagdad et l’Université de Belgrade. L’article a été publié en 2025 dans la revue Cognitive Computation, volume 17, page 77.
Processus de recherche
1. Objectifs et aperçu de la méthode
L’objectif principal de cet article est de développer une nouvelle méthode de décision à trois voies, combinée aux C-Q-ROFS, pour classer et évaluer les LLMs. La méthode spécifique comprend : 1. La reformulation de la méthode FWZICBIP (Fuzzy Weighted Zero Inconsistency Interrelationship Process) en utilisant les C-Q-ROFS pour prioriser les tâches et résoudre l’incertitude des poids. 2. La construction d’une matrice de décision par l’intersection des LLMs et des tâches de NLP, en appliquant des procédures de transformation d’utilité et de localisation dynamique pour traiter les données binaires. 3. La reformulation de la méthode CPOS (Conditional Probabilities by Opinion Scores) dans le cadre des C-Q-ROFS pour déterminer les seuils de décision pour chaque LLM.
2. Détails du processus de recherche
2.1 Détermination des poids des tâches de NLP
Tout d’abord, les auteurs utilisent la méthode C-Q-ROFS-FWZICBIP pour déterminer les poids des tâches de NLP. Cette méthode est mise en œuvre par les étapes suivantes : 1. Fuzzification q-rung orthopair : Conversion des valeurs d’évaluation en valeurs numériques basées sur une échelle de Likert à cinq points, représentées par des ensembles flous q-rung orthopair. 2. Construction d’éléments flous circulaires : Transformation des éléments flous q-rung orthopair de chaque tâche en éléments flous circulaires. 3. Calcul des scores : Utilisation d’une fonction de score pour calculer le score de chaque tâche et le mapper sur l’intervalle [0,1]. 4. Calcul des poids : Détermination des poids finaux de chaque tâche en comparant la moyenne significative et les poids initiaux.
2.2 Construction de la matrice de décision des LLMs
Ensuite, les auteurs construisent la matrice de décision des LLMs à l’aide des procédures de transformation d’utilité et de localisation dynamique. Les étapes spécifiques comprennent : 1. Procédure d’utilité : Les décideurs convertissent les 0 et 1 de la matrice de décision en valeurs de pourcentage basées sur leur expérience personnelle. 2. Localisation dynamique : Transformation de la matrice de décision en pourcentage en une matrice de décision sur une échelle de Likert à cinq points.
2.3 Classement et évaluation des LLMs
Enfin, les auteurs utilisent la méthode C-Q-ROFS-CPOS et la théorie de la décision bayésienne pour classer et évaluer les LLMs. Les étapes spécifiques comprennent : 1. Fuzzification : Remplacement des valeurs de la matrice de décision par des éléments flous q-rung orthopair. 2. Construction d’éléments flous circulaires q-rung orthopair : Agrégation des éléments flous de plusieurs décideurs en éléments flous circulaires q-rung orthopair. 3. Calcul des scores : Calcul du score pondéré pour chaque LLM. 4. Calcul des probabilités conditionnelles : Calcul de la probabilité conditionnelle pour chaque LLM et classement en fonction de ces probabilités. 5. Génération des seuils : Génération des seuils basés sur les règles de décision bayésiennes, classant les LLMs en régions positives (POS), limites (BND) et négatives (NEG).
3. Résultats de la recherche
3.1 Résultats des poids des tâches de NLP
En utilisant la méthode C-Q-ROFS-FWZICBIP, les auteurs ont déterminé les poids des tâches de NLP. Les résultats montrent que l’analyse des sentiments (Sentiment Analysis, SA) est la sous-tâche la plus importante, avec un poids de 0,2324, suivie des tâches de raisonnement (Reasoning, REAS) avec un poids de 0,1611. La tâche de résumé (Summarization, SUMM) dans la génération de langage naturel (Natural Language Generation, NLG) est la plus importante, avec un poids de 0,1178.
3.2 Résultats de la matrice de décision des LLMs
Grâce aux procédures de transformation d’utilité et de localisation dynamique, les auteurs ont construit la matrice de décision des LLMs. Les résultats montrent que LLM14 a obtenu les meilleures performances dans plusieurs tâches de NLP, tandis que LLM22 a obtenu les pires performances.
3.3 Résultats du classement et de l’évaluation des LLMs
En utilisant la méthode C-Q-ROFS-CPOS, les auteurs ont classé et évalué 40 LLMs. Les résultats montrent que LLM14 a la probabilité conditionnelle la plus élevée (0,6528), se classant en première position, tandis que LLM22 a la probabilité conditionnelle la plus faible (0,0000), se classant en dernière position. En utilisant les règles de décision bayésiennes, les auteurs ont classé les LLMs en régions POS, BND et NEG. Les résultats montrent que LLM14 se situe dans la région POS pour la plupart des valeurs de σ, démontrant une performance exceptionnelle.
4. Analyse de sensibilité et analyse comparative
4.1 Analyse de sensibilité
Les auteurs ont analysé l’impact des variations du coefficient d’aversion au risque (σ), de la valeur q des ensembles flous q-rung orthopair et des coefficients de pondération des tâches de NLP sur les résultats de classement et d’évaluation des LLMs. Les résultats montrent que les variations de σ affectent principalement les résultats de l’évaluation, tandis que les variations de q affectent à la fois le classement et l’évaluation. Les ajustements des coefficients de pondération ont un impact significatif sur les résultats de classement et d’évaluation.
4.2 Analyse comparative
Les auteurs ont comparé la méthode proposée à deux études de référence. Les résultats montrent que la méthode proposée présente un avantage significatif dans le traitement des données binaires et de l’incertitude, permettant un classement et une évaluation plus précis des LLMs.
Conclusion et valeur
Cet article propose une méthode de décision à trois voies basée sur les C-Q-ROFS, résolvant avec succès le problème de décision multicritère dans l’évaluation des LLMs. Cette méthode permet non seulement de gérer efficacement l’incertitude, mais aussi de traiter les données binaires grâce à des procédures de transformation dynamique, offrant ainsi un mécanisme robuste pour le classement et l’évaluation des LLMs. Les résultats de la recherche montrent que LLM14 a obtenu les meilleures performances dans plusieurs tâches de NLP, tandis que LLM22 a obtenu les pires performances. L’analyse de sensibilité a en outre validé la robustesse et la stabilité de la méthode.
Points forts de la recherche
- Méthode innovante : Cet article combine pour la première fois les C-Q-ROFS avec une méthode de décision à trois voies, proposant un nouveau cadre pour l’évaluation des LLMs.
- Traitement des données binaires : Grâce aux procédures de transformation d’utilité et de localisation dynamique, les données binaires sont traitées avec succès, améliorant la précision de l’évaluation.
- Analyse de sensibilité : En modifiant plusieurs paramètres, la robustesse et la stabilité de la méthode ont été validées.
- Valeur pratique : Cette méthode fournit une base scientifique pour l’évaluation et la sélection des LLMs, offrant une valeur pratique significative.
Résumé
Cet article propose une méthode de décision à trois voies basée sur les C-Q-ROFS, résolvant avec succès le problème de décision multicritère dans l’évaluation des LLMs. Cette méthode permet non seulement de gérer efficacement l’incertitude, mais aussi de traiter les données binaires grâce à des procédures de transformation dynamique, offrant ainsi un mécanisme robuste pour le classement et l’évaluation des LLMs. Les résultats de la recherche montrent que LLM14 a obtenu les meilleures performances dans plusieurs tâches de NLP, tandis que LLM22 a obtenu les pires performances. L’analyse de sensibilité a en outre validé la robustesse et la stabilité de la méthode. Les recherches présentées dans cet article fournissent une base scientifique pour l’évaluation et la sélection des LLMs, offrant une valeur pratique significative.