基于人类和小鼠共享电生理信息的神经元细胞类型分类
神经元分类的创新融合:基于人类和小鼠电生理数据的共同信息
科学界长期以来对神经元分类面临巨大挑战。准确分类神经元对于理解大脑在健康和疾病状态下的功能至关重要。这篇由Bar-Ilan University的Ofek Ophir、Orit Shefi与Ofir Lindenbaum引领的研究在《Neuroinformatics》期刊上发表,提出了一种全新的机器学习框架,通过联合使用来自人类和小鼠的电生理数据来对神经元进行分类。
研究背景
神经元是神经系统的基本单元,其分类自Ramon y Cajal在1995年发表《人和脊椎动物神经系统的组织学》以来,一直是神经科学的核心问题。分类神经元有助于在不同实验室和实验条件下的一致识别,这对于理解大脑功能及其在健康和病态状态下的变化至关重要。
研究来源
这篇文章的研究由Bar-Ilan University的工程学院和Leslie & Susan Gonda多学科脑研究中心(以色列Ramat-Gan)进行。文章于2024年6月10日被接受,并在《Neuroinformatics》期刊上发布,DOI链接为:https://doi.org/10.1007/s12021-024-09675-5。
研究流程
数据来源
研究数据主要来自Allen Cell Types Database(ACTD),该数据库包含来自成人小鼠和人类的单细胞记录的生物特征数据。其中,小鼠数据包含1920个细胞的记录,而人类数据包括413个细胞的记录。
数据预处理
通过电生理特征的提取,研究团队利用41个电生理表格特征进行分析。数据记录包括四种刺激条件:噪声刺激、斜坡刺激、长方形刺激和短方形刺激,这些刺激条件分别设计用于激发不同类型的动作电位(AP)反应。
研究任务
研究分为两个主要任务:
- 分类人类和小鼠的广泛神经元类型(兴奋性与抑制性)
- 利用小鼠的电生理数据分类其神经元子类型
分类模型
研究采用了两种神经网络模型: - 基于域自适应的深度神经网络(Domain-Adaptive Neural Network, DANN) - 本地稀疏可解释神经网络(Locally Sparse Interpretable Network, LSPIN)
DANN模型的域自适应分类
为了弥补人类数据样本的稀缺性,研究团队使用了DANN模型,将小鼠数据的共同信息嵌入到人类数据中。通过对两种域的数据分布进行对齐,实现跨域分类。
LSPIN模型的多标签分类
鉴于小鼠样本的丰富性,研究团队使用LSPIN模型来处理五个子类型的分类问题。这种方法克服了低样本量数据的过拟合问题,并通过预测每个样本最具信息性的特征实现解释性分类。
研究结果
任务一:人类和小鼠神经元的广泛类型分类
通过DANN模型,研究证明小鼠脑中的全细胞电流钳记录与人类脑中的记录相似。该模型在分类人类和小鼠神经元类型方面表现出高度准确性,人类样本的准确率达95.0%,小鼠样本的准确率则达到了97.4%。
任务二:小鼠神经元子类型分类
利用LSPIN模型,研究在对五个子类型的分类中取得了罕见的高准确度,达到了91.6%的准确度,高于传统的机器学习模型如随机森林(RF)、支持向量分类器(SVC)和XGBoost。此外,模型也提供了每个子类别中特征选择的可解释性。
研究意义
科学价值
该研究使用了跨物种的数据融合方法,提高了神经元分类的准确性,有助于深入理解神经元的电生理特征。这种方法可以用于实时临床应用,为疾病早期诊断和治疗方案的制定提供依据。
实用价值
DANN模型有效解决了神经元分类中的域转换问题,使得模型能够泛化到不同的生物体之间,同时保持高准确性。LSPIN模型则通过特征选择减少了过拟合,提升了分类的可解释性,这对于在临床环境中的应用尤为重要。
研究亮点
- 跨域分类:通过融合人类和小鼠的数据,解决了数据稀缺和域转换问题。
- 模型的解释性:LSPIN模型不仅提供了高准确度的分类结果,还揭示了特征的重要性,为生物特征的研究提供了新的思路。
未来研究展望
未来的研究可以考虑: 1. 扩大分类的物种范围,探讨不同类型神经元在进化上的保守性。 2. 在无监督的模式下应用DANN方法,进一步提高对人类神经元数据的分类准确性。 3. 评估模型的泛化能力,验证其在不同实验室和实验条件下的适用性。 4. 深入解析每种神经元类型的生物学特性,增加模型预测的可解释性。
结语
这项研究在神经元分类方法上提供了新的见解,通过DANN和LSPIN模型,展示了跨物种数据融合和特征选择的重要性。研究结果不仅有助于提升科学理解,也为实际应用提供了可靠的工具。