数据管理教学:基于DataLad的多年多领域努力

科学研究数据管理教育的多年的多领域努力

研究背景

随着现代神经科学的发展,研究数据管理(Research Data Management, RDM)已经成为科学家们不可或缺的技能。然而,尽管研究数据管理对于科学研究具有重要性,这类技术技能往往在领域特化的研究生教育中被忽视。因此,越来越多的社区努力提供有组织的培训机会和自学材料,以帮助早期科研人员获得这方面的知识和技能。

Massachusetts Institute of Technology(MIT)的“the missing semester of your cs education”正是这种教育缺失的一个例证。此外,现代计算机和应用程序的高可用性极大地降低了用户对计算机的熟悉程度,这使得许多科学家缺乏有效管理研究数据和结果所需的基本技术技能。

针对此,本文作者采用一种多模态教学方法,通过DataLad生态系统提供的在线和印刷手册、模块化课程以及灵活的研究数据管理知识库,进行了一系列研究数据管理的培训工作。

论文来源

本文由Michał Szczepanik、Adina S. Wagner、Stephan Heunis、Laura K. Waite、Simon B. Eickhoff及Michael Hanke共同撰写,他们分别来自位于德国Jülich的Institute of Neuroscience and Medicine, Brain and Behaviour (INM-7)及德累斯顿Heinrich Heine University Düsseldorf的Institute of Systems Neuroscience。论文发表于2024年4月22日,并被刊登在《Neuroinformatics》杂志上。

DataLad简介

DataLad是一款基于Python、具有MIT许可的软件工具,旨在共管代码、数据及其关系。它建立在Git-annex(一个用于数据物流的多功能系统)和Git(分布式版本控制的行业标准)基础上,通过开放源码软件开发及分发原则,适应了科学工作流。因此,提供良好的用户文档及与用户的互动可以极大地帮助开发者提高软件质量。

研究目标与方法

本文的主要目标是通过创建和评估一种多模态教学方法,帮助科研人员掌握DataLad生态系统中的研究数据管理技能,并分析该培训方法的优缺点。研究旨在使技术新手也能快速且高效地使用DataLad软件,这部分是基于实际用户需求的,如研究联盟中的早期职业研究人员。此外,作者希望培训资料能完全开源、易于获取、灵活多样、直接应用于不同研究环境,并可维护。

DataLad研究数据管理手册

DataLad自2015年首次发布(0.0.1版)以来,一直有技术文档,包含设计概述和参考文档。虽然任何形式的文档总比没有文档要好,但如果现有的文档不能满足目标用户的需求,它们仍然可能是不足的。为了解决这一问题,本文作者创建了DataLad手册项目,以补充现有的技术文档。

设计考虑

手册项目目标包括适用于广泛受众的内容、实用经验、适合技术新手的易理解语言、低进入门槛、及集成工作流等。手册结构分为四部分: 1. 引言:包含软件及其功能的高级描述及所有操作系统的详细安装说明。 2. 基础:以代码引导教程形式呈现,覆盖所有稳定的软件功能。 3. 进阶:涵盖基础之外的功能,包含独立的章节。 4. 使用案例:包含实际使用案例的简短描述和逐步操作说明。

技术骨干

手册的开发环境选用Sphinx(一个文档生成器),配合restructuredText标记语言,用于生成多种格式的输出文件(例如HTML, PDF, LaTeX, ePub等)。此外,通过扩展机制,作者增加了自定义警告和设计,例如可选择的详情框,这些都是作为Python包的一部分。此外,作者还开发了一个独立的Python包autorunrecord,用于在指定环境中按顺序执行代码并记录其输出。

影响与范围

在线手册至今已有超过四年的持续开发,平均每年发布两次,与DataLad核心包的发行协调一致,从而确保用户可以访问相应版本的手册。用户文档促进了软件质量的提升,验证了开发努力的有效性,并显著增加了用户数量和包的下载量。例如,从2022年12月至2023年7月,每30天内在线手册访问量平均为22,000次,比技术文档的访问量(6,600次)高出很多。总的来说,DataLad手册的开发对用户数量、包的受欢迎程度和软件质量产生了可衡量的积极影响。

课程和研讨会

除了手册外,作者还设计了一门基于DataLad的短期RDM课程,其内容涵盖从数据集创建和本地版本控制到数据发表、协作和数据集重用。课程网站使用了Carpentries课程模板,内容以Markdown编写,而网站由静态站点生成器Jekyll构建。

课程模块包括基本的DataLad命令、数据结构优化、远程协作和数据集管理等内容。为确保教学材料的开放性,所有内容都托管在公开的回购库中,并使用Creative Commons Attribution许可进行开源发布。

在线办公时间与知识库

除了手册和课程,作者还设置了知识库和在线办公时间,提供灵活的支持,并建立了记录和解决技术问题的文档库。知识库项目整个框架是简化版本的手册技术体系,所有知识库项目都以restructuredText标记,托管在Git回购库中,通过Sphinx工具生成HTML格式的知识库。

总结与展望

本次研究展示了通过多模态教学方法提升科研人员研究数据管理技能的有效性。本文详述了手册、课程和知识库的设计和技术要求,并分享了在开发和教学过程中的经验和教训。通过这些举措,不仅提高了DataLad软件的用户体验和软件质量,而且为其他研究软件开发和数据管理教育项目提供了有益的参考。