Enseignement de la gestion des données de recherche avec DataLad : un effort pluriannuel et pluridisciplinaire
Les efforts multidisciplinaires sur plusieurs années pour l’éducation à la gestion des données de la recherche scientifique
Contexte de la recherche
Avec le développement des neurosciences modernes, la gestion des données de la recherche (Research Data Management, RDM) est devenue une compétence incontournable pour les scientifiques. Toutefois, malgré son importance dans la recherche scientifique, cette compétence technique est souvent négligée dans la formation spécialisée des étudiants de troisième cycle. Par conséquent, de plus en plus de communautés s’efforcent de fournir des opportunités de formation organisées et des matériaux d’auto-apprentissage pour aider les premiers chercheurs à acquérir ces connaissances et compétences.
Le Massachusetts Institute of Technology (MIT) et son programme “The Missing Semester of Your CS Education” illustrent cette lacune éducative. De plus, la haute disponibilité des ordinateurs modernes et des applications a considérablement réduit la familiarité des utilisateurs avec ces outils, si bien que de nombreux scientifiques manquent des compétences techniques de base nécessaires pour gérer efficacement les données et les résultats de la recherche.
Pour répondre à cette situation, les auteurs de cet article ont adopté une méthode d’enseignement multimodale, en proposant une série de formations en gestion des données de recherche via l’écosystème DataLad, comprenant des manuels en ligne et imprimés, des cours modulaires et une base de connaissances flexible en gestion des données de recherche.
Origine de l’article
Cet article a été rédigé conjointement par Michał Szczepanik, Adina S. Wagner, Stephan Heunis, Laura K. Waite, Simon B. Eickhoff et Michael Hanke, tous affiliés à l’Institut des neurosciences et de la médecine du cerveau et du comportement (INM-7) de Jülich, en Allemagne, et à l’Institut des neurosciences des systèmes de l’Université Heinrich Heine de Düsseldorf, à Dresde. L’article a été publié le 22 avril 2024 dans la revue « Neuroinformatics ».
Présentation de DataLad
DataLad est un outil logiciel basé sur Python sous licence MIT, conçu pour gérer conjointement le code, les données et leurs relations. Il repose sur Git-annex (un système polyvalent pour la gestion des données) et Git (la norme industrielle pour le contrôle de version distribué). Suivant les principes du développement et de la distribution de logiciels open source, DataLad s’adapte aux workflows scientifiques. Par conséquent, fournir une documentation utilisateur de qualité et interagir avec les utilisateurs peut grandement aider les développeurs à améliorer la qualité du logiciel.
Objectifs et méthodes de la recherche
Le principal objectif de cet article est de créer et d’évaluer une méthode d’enseignement multimodale, aidant les chercheurs à maîtriser les compétences en gestion des données de recherche offertes par l’écosystème DataLad. L’étude vise à rendre DataLad rapidement et efficacement utilisable pour les débutants techniques, ce qui répond aux besoins réels des utilisateurs, notamment des chercheurs débutants. En outre, les auteurs souhaitent que les matériaux de formation soient entièrement open source, facilement accessibles, flexibles et directement applicables dans divers environnements de recherche, tout en étant maintenables.
Manuel de gestion des données de recherche DataLad
Depuis son premier lancement en 2015 (version 0.0.1), DataLad propose une documentation technique incluant des résumés de conception et des documents de référence. Bien que toute forme de documentation soit meilleure que l’absence de documentation, une documentation inadéquate aux besoins des utilisateurs cibles peut néanmoins être insuffisante. Pour répondre à ce problème, les auteurs ont créé le projet de manuel DataLad pour compléter la documentation technique existante.
Considérations de conception
Les objectifs du manuel incluent du contenu adapté à un large public, des expériences pratiques, un langage facile à comprendre pour les débutants techniques, une faible barrière d’entrée, et une intégration des workflows. La structure du manuel se divise en quatre parties : 1. Introduction : Description générale du logiciel et de ses fonctionnalités, ainsi que des instructions d’installation détaillées pour tous les systèmes d’exploitation. 2. Bases : Tutoriels guidés par du code, couvrant toutes les fonctionnalités stables du logiciel. 3. Avancé : Fonctions au-delà des bases, avec des chapitres indépendants. 4. Études de cas : Descriptions succinctes des cas d’utilisation réels et explications pas à pas.
Infrastructure technique
Le manuel est développé avec Sphinx (un générateur de documentation), en utilisant le langage de balisage restructuredText, produisant divers formats de sortie (HTML, PDF, LaTeX, ePub, etc.). Grâce à des mécanismes d’extension, les auteurs ont ajouté des avertissements et des conceptions personnalisées, tels que des encadrés de détails optionnels, inclus dans le package Python. De plus, ils ont développé un package Python indépendant, autorunrecord, pour exécuter séquentiellement du code dans des environnements spécifiés et enregistrer sa sortie.
Impact et portée
Le manuel en ligne connaît un développement continu depuis plus de quatre ans, avec une moyenne de deux publications par an, en coordination avec les versions principales du package DataLad, pour assurer aux utilisateurs l’accès aux manuels correspondant à la version de leur logiciel. La documentation utilisateur a contribué à l’amélioration de la qualité du logiciel, validé l’efficacité des efforts de développement, et augmenté de manière significative le nombre d’utilisateurs et des téléchargements du package. Par exemple, de décembre 2022 à juillet 2023, le manuel en ligne a enregistré une moyenne de 22 000 visites par période de 30 jours, bien au-delà des visites de la documentation technique (6 600 visites). En résumé, le développement du manuel DataLad a eu un impact positif mesurable sur le nombre d’utilisateurs, la popularité du package et la qualité du logiciel.
Cours et ateliers
En plus du manuel, les auteurs ont conçu un cours RDM à court terme basé sur DataLad, couvrant des sujets allant de la création de jeux de données et du contrôle local des versions à la publication des données, la collaboration et la réutilisation des jeux de données. Le site du cours utilise le modèle de cours Carpentries, avec du contenu rédigé en Markdown, et le site est construit à l’aide du générateur de site statique Jekyll.
Les modules de cours incluent des commandes DataLad de base, l’optimisation des structures de données, la collaboration à distance et la gestion des jeux de données. Pour garantir l’ouverture des matériaux pédagogiques, tout le contenu est hébergé dans un dépôt public et publié en open source sous licence Creative Commons Attribution.
Heures de bureau en ligne et base de connaissances
En plus du manuel et des cours, les auteurs ont aussi mis en place une base de connaissances et des heures de bureau en ligne, offrant un support flexible et créant une archive documentée pour résoudre les problèmes techniques. La structure de la base de connaissances est une version simplifiée de l’infrastructure technique du manuel, avec tous les projets marqués en restructuredText, hébergés dans un dépôt Git, et générés au format HTML par l’outil Sphinx.
Conclusion et perspectives
Cette recherche montre l’efficacité d’une méthode d’enseignement multimodale pour améliorer les compétences en gestion des données de recherche des scientifiques. Elle décrit en détail la conception et les exigences techniques des manuels, des cours et des bases de connaissances, et partage les expériences et les leçons tirées pendant le développement et l’enseignement. Ces initiatives ont non seulement amélioré l’expérience utilisateur et la qualité du logiciel DataLad, mais elles fournissent également des références utiles pour les projets de développement de logiciels de recherche et d’éducation à la gestion des données.