Mêmes données, différents analystes : variation des tailles d'effet dues aux décisions analytiques en écologie et en biologie évolutive

Les mêmes données, différentes analyses : l’impact des décisions d’analyse sur les tailles d’effet en écologie et biologie évolutive

Contexte de l’étude et problématique

Dans la recherche scientifique, en particulier dans les domaines de l’écologie et de la biologie évolutive, la reproductibilité et la fiabilité des résultats sont cruciales. Cependant, même en utilisant le même ensemble de données et des questions de recherche similaires, les décisions statistiques prises par différents chercheurs peuvent entraîner des variations importantes des résultats. Ce phénomène a été observé non seulement en écologie et biologie évolutive, mais aussi en psychologie et en sciences sociales. Pour explorer cette question, Gould et al. (2025) ont publié une étude intitulée “Same Data, Different Analysts: Variation in Effect Sizes Due to Analytical Decisions in Ecology and Evolutionary Biology” dans la revue BMC Biology.

Cette étude vise à évaluer les variations des tailles d’effet et des valeurs prédites des modèles dues aux décisions d’analyse différentes lors du traitement d’un même jeu de données. En comparant les résultats d’analyses multiples réalisées par différents analystes sur un même ensemble de données, les chercheurs espèrent révéler les causes de ces variations et explorer comment améliorer la fiabilité et la cohérence des recherches en écologie et biologie évolutive.

Sources de l’étude et informations sur les auteurs

Cet article a été co-rédigé par Elliot Gould, Hannah S. Fraser, Timothy H. Parker et de nombreux autres scientifiques provenant d’institutions de recherche du monde entier. Les principaux auteurs incluent Timothy H. Parker et Fiona Fidler de Whitman College, ainsi que Peter A. Vesk de Monash University. L’article a été publié en 2025 dans la revue BMC Biology.

Méthodologie et processus de recherche

Objets d’étude et jeux de données

Les chercheurs ont choisi deux jeux de données non publiés pour leur analyse :

  1. Jeu de données des mésanges bleues : Ce jeu de données provient d’une étude sur le comportement de reproduction des mésanges bleues (Cyanistes caeruleus) dans la région de Wytham Wood au Royaume-Uni, couvrant 332 nids entre 2001 et 2003. L’objectif était d’examiner la relation entre la croissance des poussins et le nombre de frères et sœurs.

  2. Jeu de données des eucalyptus : Ce jeu de données provient d’un projet de restauration de la végétation dans la région de Goulburn Broken Catchment en Australie, impliquant 351 parcelles étudiées entre 2006 et 2007. L’objectif était d’examiner l’effet de la couverture herbacée sur le recrutement des jeunes eucalyptus.

Processus d’analyse

Recrutement des analystes

Les chercheurs ont recruté 174 équipes d’analystes, totalisant 246 analystes, via divers canaux tels que des conférences académiques, les réseaux sociaux et des listes de diffusion. Chaque équipe pouvait choisir d’analyser l’un des deux jeux de données et répondre à une question de recherche prédéfinie. Pour garantir la qualité des analyses, des bénévoles ont également été recrutés pour évaluer les méthodes d’analyse des autres analystes par une évaluation par les pairs.

Traitement des données et analyse

Chaque équipe d’analystes a effectué une analyse indépendante du jeu de données choisi selon ses propres méthodes et a soumis un rapport d’analyse détaillé. Pour garantir la comparabilité des résultats, les chercheurs ont demandé aux analystes de fournir des tailles d’effet standardisées (zr) et des valeurs prédites (yi) basées sur trois valeurs indépendantes spécifiques. Les étapes spécifiques étaient les suivantes :

  1. Calcul des tailles d’effet standardisées zr : Pour les modèles linéaires ou généralisés, conversion des valeurs t et des degrés de liberté (df) en coefficient de corrélation r, puis en Fisher’s zr.
  2. Génération des valeurs prédites yi : Production de prédictions ponctuelles pour la 25e percentile, la médiane et la 75e percentile de la variable indépendante principale.

Analyse des résultats

Les chercheurs ont utilisé des techniques de méta-analyse à effets aléatoires pour synthétiser tous les effets et valeurs prédits soumis. Les principales analyses comprenaient :

  1. Statistiques descriptives : Calcul du nombre moyen, de l’écart-type et de la plage des effets fixes, des termes d’interaction et des effets aléatoires dans chaque modèle, ainsi que de la taille de l’échantillon.
  2. Évaluation de l’hétérogénéité : Utilisation des indicateurs τ² et I² pour quantifier l’hétérogénéité absolue et relative entre les tailles d’effet.
  3. Explication des écarts : Évaluation de l’impact des scores d’évaluation par les pairs, de l’unicité de la sélection des variables prédictives et de l’inclusion d’effets aléatoires sur les écarts entre les tailles d’effet.

Résultats de l’étude

Distribution des tailles d’effet

Pour le jeu de données des mésanges bleues, bien que la majorité (118131) des effets disponibles montrent que le nombre de frères et sœurs dans le nid diminue la croissance des poussins, il existe des différences significatives en termes d’intensité et de direction des effets. La plage de zr va de -1.55 à 0.38, et environ 93 effets ont des intervalles de confiance qui ne contiennent pas 0. Pour le jeu de données des eucalyptus, la distribution des effets est plus dispersée, avec une plage de zr allant de -4.47 à 0.39, et la plupart des effets sont proches de zéro, indiquant qu’il n’y a pas de relation claire entre la couverture herbacée et le succès des jeunes eucalyptus.

Distribution des valeurs prédites

Les valeurs prédites pour le jeu de données des mésanges bleues, après normalisation z-score, varient largement au-delà d’un écart-type. Par exemple, dans le scénario y25, les valeurs prédites varient de -1.84 à 0.42 ; dans le scénario y75, elles varient de -0.03 à 1.59. Pour le jeu de données des eucalyptus, les valeurs prédites sont directement exprimées en termes de comptage original, avec des plages respectives de 0.04 à 26.99, 0.04 à 44.34 et 0.03 à 61.34.

Quantification de l’hétérogénéité

En utilisant les indicateurs τ² et I², les chercheurs ont constaté une hétérogénéité très importante entre les tailles d’effet. Le τ² pour le jeu de données des mésanges bleues est de 0.08, et celui des eucalyptus est de 0.27, tous deux supérieurs à la médiane (0.105) trouvée dans des études de méta-analyses précédentes. Cela suggère que les décisions d’analyse peuvent avoir un impact important sur les tailles d’effet.

Conclusions de l’étude

Cette étude montre que des décisions d’analyse différentes peuvent effectivement entraîner des variations significatives des tailles d’effet. Même en utilisant le même ensemble de données, les résultats des analyses de différents analystes peuvent présenter des différences notables. Les chercheurs recommandent donc une attention accrue à la sélection des méthodes d’analyse pour améliorer la fiabilité et la cohérence des résultats de recherche.

De plus, l’étude souligne la nécessité de transparence et d’ouverture. Le partage de données et de codes d’analyse peut favoriser la participation de plus de chercheurs, réduisant ainsi l’incertitude due aux décisions d’analyse. Les chercheurs suggèrent également que des recherches futures pourraient explorer comment optimiser les processus d’analyse pour réduire l’hétérogénéité et améliorer la reproductibilité des résultats.

Points forts de l’étude

  1. Première exploration à grande échelle : Il s’agit de la première étude à grande échelle explorant l’impact des décisions d’analyse sur les tailles d’effet en écologie et biologie évolutive.
  2. Participants diversifiés : L’étude a attiré la participation de nombreux scientifiques du monde entier, garantissant une diversité et une représentativité des méthodes d’analyse.
  3. Méthodologie innovante : L’étude a utilisé plusieurs méthodes novatrices, telles que la méta-analyse et la génération de valeurs prédites, pour garantir l’exactitude et la fiabilité des résultats.
  4. Implications importantes : Les résultats de l’étude offrent des pistes précieuses pour les recherches futures, soulignant l’importance de la transparence et de l’ouverture pour améliorer la fiabilité et la cohérence des résultats.

Cette étude non seulement révèle l’impact des décisions d’analyse sur les tailles d’effet, mais fournit également des expériences et des directives précieuses pour les futures recherches, possédant une valeur scientifique et des perspectives d’application importantes.