DataLadを用いた研究データ管理の教育:数年にわたる複数分野の取り組み

科学研究データ管理教育の多年にわたる多分野の取り組み

研究背景

現代神経科学の発展に伴い、研究データ管理(Research Data Management, RDM)は科学者にとって不可欠なスキルとなっています。しかし、研究データ管理の重要性にもかかわらず、これらの技術スキルは分野特化の大学院教育においてしばしば無視されがちです。そのため、ますます多くのコミュニティは、組織されたトレーニングの機会や自己学習材料を提供し、初期の研究者がこの知識とスキルを習得するのを支援しています。

マサチューセッツ工科大学(MIT)の「the missing semester of your cs education」は、この教育不足の一例です。さらに、現代のコンピュータとアプリケーションの高可用性は、ユーザーのコンピュータに対する親しみを大幅に低下させ、その結果、データと結論を効果的に管理するための基本的な技術スキルに欠けている研究者が多いです。

これに対して、この記事の著者は、DataLadエコシステムを通じてオンラインおよび印刷されたマニュアル、モジュール化されたコース、および柔軟な研究データ管理の知識ベースを提供することにより、多モーダルな教育方法を採用し、研究データ管理のトレーニングを行っています。

論文の出典

この記事は、Michał Szczepanik、Adina S. Wagner、Stephan Heunis、Laura K. Waite、Simon B. Eickhoff、およびMichael Hankeによって共同執筆されており、彼らはドイツのジュリッヒにある神経科学および医療研究所(INM-7)とデュッセルドルフのハインリッヒ・ハイネ大学のシステム神経科学研究所に所属しています。論文は2024年4月22日に発表され、『Neuroinformatics』誌に掲載されました。

DataLadの紹介

DataLadはPythonベースでMITライセンスのソフトウェアツールで、コード、データおよびその関係を共同管理することを目的としています。DataLadはGit-annex(データ物流のための多機能システム)とGit(分散型バージョン管理の業界標準)に基づいており、オープンソースソフトウェアの開発および配布の原則により、科学的なワークフローに適応しています。そのため、良好なユーザー文書とユーザーとの対話を提供することは、開発者がソフトウェアの質を向上させるために大いに役立ちます。

研究の目的と方法

この記事の主な目的は、多モーダルな教育方法を作成および評価することで、研究者がDataLadエコシステムの研究データ管理スキルを習得できるように支援し、このトレーニング方法の長所と短所を分析することです。研究は、技術初心者でもDataLadソフトウェアを迅速かつ効率的に使用できるようにすることを目指しており、これは研究連合の初期キャリア研究者などの実際のユーザーのニーズに基づいています。さらに、著者は、トレーニング材料が完全にオープンソースで、入手が容易で、柔軟であり、さまざまな研究環境に直接適用でき、維持可能であることを望んでいます。

DataLad研究データ管理マニュアル

DataLadは2015年に最初にリリースされて以来(バージョン0.0.1)、技術文書を提供してきましたが、それには設計概要とリファレンス文書が含まれています。どんな形式の文書もないよりは良いのですが、既存の文書が目標ユーザーのニーズを満たしていない場合、それらは不十分である可能性があります。この記事の著者は、この問題を解決するために、DataLadマニュアルプロジェクトを作成し、既存の技術文書を補完しました。

デザインの考慮

マニュアルプロジェクトの目標には、幅広い聴衆に適した内容、実用的な経験、技術初心者にとって理解しやすい言語、低い参入障壁、統合ワークフローなどがあります。マニュアルの構成は、以下の4つの部分に分かれています: 1. イントロダクション:ソフトウェアとその機能に関する高レベルの説明およびすべての操作システムの詳細なインストールガイド。 2. 基礎:コード主導のチュートリアル形式で提案され、安定したソフトウェア機能のすべてをカバー。 3. 応用:基礎以外の機能を含み、独立した章を含む。 4. 使用事例:実際の使用事例の簡潔な説明とステップバイステップの操作手順。

技術的なバックボーン

マニュアルの開発環境には、ドキュメント生成ツールであるSphinxと再構築されたTextマークアップ言語を使用し、HTML、PDF、LaTeX、ePubなどのさまざまな形式の出力ファイルを生成します。さらに、拡張メカニズムを通じて、カスタム警告やデザインを追加しました。例えば、Pythonパッケージの一部としてオプションの詳細ボックスなども含まれます。さらに、著者は、指定された環境でコードを順番に実行し、その出力を記録するための独立したPythonパッケージautorunrecordを開発しました。

影響と範囲

オンラインマニュアルはこれまでに4年以上の継続的な開発が行われ、毎年2回のリリースが行われており、DataLadのコアパッケージの発行と連携しています。これにより、ユーザーは対応するバージョンのマニュアルにアクセスできます。ユーザードキュメンテーションは、ソフトウェアの質を向上させるだけでなく、開発努力の有効性を検証し、ユーザー数とパッケージのダウンロード数を著しく増加させました。例えば、2022年12月から2023年7月までの間、30日ごとのオンラインマニュアルの平均アクセス数は22,000回であり、これは技術文書のアクセス数(6,600回)を大幅に上回っています。総じて、DataLadマニュアルの開発は、ユーザー数、パッケージの人気度、ソフトウェアの質に対して測定可能なプラスの影響を与えました。

コースとワークショップ

マニュアルに加えて、著者はDataLadに基づいた短期RDMコースも設計しました。コースの内容は、データセットの作成とローカルバージョン管理から、データの発表、共同作業、データセットの再利用までカバーしています。コースのウェブサイトはCarpentriesコーステンプレートを使用しており、内容はMarkdownで記述され、静的サイト生成ツールJekyllで構築されています。

コースモジュールには、基本的なDataLadコマンド、データ構造の最適化、リモートコラボレーション、およびデータセット管理などの内容が含まれます。教育資料のオープン性を確保するため、すべての内容は公開リポジトリにホストされ、Creative Commons Attributionライセンスでオープンソースとして公開されています。

オンラインオフィスアワーと知識ベース

マニュアルとコース以外にも、著者は知識ベースとオンラインオフィスアワーを設定し、柔軟なサポートを提供し、技術的な問題を文書化し解決するための記録を築きました。知識ベースプロジェクトの枠組みは、マニュアルの技術システムを簡略化したもので、すべての知識ベースプロジェクトは再構築されたTextでマークアップされ、Gitリポジトリにホストされ、Sphinxツールを使用してHTML形式の知識ベースが生成されます。

結論と展望

本研究は、多モーダルな教育方法による研究者の研究データ管理スキルの向上の有効性を示しました。この記事は、マニュアル、コース、知識ベースのデザインと技術的要件を詳述し、開発と教育過程での経験と教訓を共有しています。これらの取り組みにより、DataLadソフトウェアのユーザー体験とソフトウェアの質を向上させただけでなく、他の研究ソフトウェア開発とデータ管理教育プロジェクトにも有益な参考資料を提供しました。