跨九种模态的生物医学对象联合分割、检测和识别的基础模型

解码生物医学图像分析的未来:多模态联合分割、检测和识别的基础模型

背景介绍

在生物医学研究中,图像分析已成为推动生物医学发现的重要工具,能够跨越从亚细胞器到器官层面的多尺度研究。然而,传统的生物医学图像分析方法大多将分割(segmentation)、检测(detection)和识别(recognition)作为独立的任务分别处理,这种割裂式的方法不仅限制了任务间交互的信息共享,也增加了处理复杂多样的生物医学图像数据的难度。

例如,传统的分割方法通常依赖人工指定的边界框(bounding box)来标注感兴趣目标的区域,这对形状不规则或数量庞大的目标(如病理全片图像中的所有细胞)来说是具有挑战性的。此外,忽略目标检测和语义识别(metadata-like semantic information)之间的互通性,导致分割效果的优化空间有限。

针对以上挑战,来自Microsoft Research、Providence Genomics和University of Washington的研究团队提出了一种名为“BiomedParse”的生物医学基础模型(biomedical foundation model)。该模型旨在通过统一框架解决上述三大任务,并横跨九种主要图像模态进行分析。这篇文章发表在2025年1月的《Nature Methods》上,并提出了一种全新的工作流,用于生物医学图像的高效解析。


研究概述与工作流程

本文提出的“BiomedParse”是一种创新性的图像解析(image parsing)框架,能够联合完成分割、检测和识别任务,有效解决传统方法存在的局限。为训练这一模型,研究团队构建了一个名为“BiomedParseData”的大规模生物医学数据集,该数据集涵盖九种图像模态,包括CT(Computed Tomography,计算机断层扫描)、MRI(Magnetic Resonance Imaging,磁共振成像)、病理图像(pathology)、超声(ultrasound)等。以下是研究的详细流程描述:

数据构建与预处理

研究团队整合了45个公开可用的生物医学分割数据集,生成约340万个图像–分割掩码(segmentation mask)–语义标签(三元组)。通过结合GPT-4语言模型,将每个数据集中提供的杂乱无章的自然语言描述(如自由形式的标注)与规范的生物医学目标本体(ontology)对齐,该本体包括:

  1. 三大类别:器官(organ)、异常(abnormality)和组织学(histology)。
  2. 15个“元对象类型”(Meta-object types):如“右肾”、“肿瘤”等。
  3. 82个具体的对象类型

此外,研究团队还利用GPT-4生成了同义描述文本(synonymous text descriptions),增加语言描述的多样性与鲁棒性,这使得模型在面对不同文字表述时依然能准确识别目标。

为了进一步应对三维图像模态(如CT与MRI)的解析需求,研究团队将这些影像预处理为二维切片(2D slices),以便与其他模态保持一致的输入结构。

BiomedParse模型架构设计

BiomedParse采用模块化设计,包含以下核心组件:

  1. 图像编码器(Image Encoder):对输入的高分辨率图像进行特征提取。模型基于先进的Focal Modulation Network(Focal)或Segment Anything Model Vision Transformer(SAM-ViT)。

  2. 文本编码器(Text Encoder):处理用户提供的文本提示(text prompt),生成文字嵌入(text embedding)。文本编码器可基于PubMedBERT进行初始化。

  3. 掩码解码器(Mask Decoder):从图像与文本嵌入中生成分割掩码,预测每个像素属于感兴趣目标的概率分布(0–1之间)。

  4. 元对象分类器(Meta-object Classifier):对目标语义进行分类。

BiomedParse在训练时引入了联合学习(joint learning),通过交互方式在分割与语义分类之间共享信息,提高了对复杂目标的预测能力。

模型训练与优化

为训练BiomedParse,研究团队使用BiomedParseData数据集,随机划分训练集和测试集(训练集占80%,测试集占20%)。训练过程中优化了以下损失函数:

  • 面向分割任务的二元交叉熵损失(Binary Cross-Entropy Loss)和Dice损失。
  • 面向语义分类任务的交叉熵损失(Categorical Cross-Entropy Loss)。

整个训练流程需要高性能设备支持,在16个NVIDIA A100 GPU上耗时58小时完成。


研究结果与主要发现

多模态图像分割的精确性与可扩展性

在102,855个测试样本上的大规模测试表明,BiomedParse在分割任务中达到了新的性能巅峰,平均Dice得分为0.857,与最佳竞争算法Medsam相比提高了39.6%。尤其是在形状复杂的目标(如异常细胞与肿瘤区域)上,BiomedParse显著优于传统方法。

此外,BiomedParse仅需文本提示即可进行分割,而Medsam和SAM需要提供每个目标的精确边界框。在一个包含42张结肠病理图像的测试中,用户只需提供“结肠组织中的腺体结构”(glandular structure in colon pathology)这一文本提示,即可实现高达0.942的中值Dice分数,而Medsam需手动标注430个边界框,依然难以达到这一精度。

对不规则形状目标的检测能力

为了验证BiomedParse对不规则形状目标的处理能力,研究团队提出了三个定量指标:凸性比率(Convex Ratio)、边界框比率(Box Ratio)和旋转惯性比率(Rotational Inertia)。实验发现,BiomedParse的性能改进显著与这些指标高度相关,特别是在检测小型或复杂形状目标时展示了更大的性能优势。

全目标识别任务的表现

对于识别任务,BiomedParse可以通过内置的分割本体(segmentation ontology)逐一检测图像中的每个对象类型,实现对所有目标的同时分割与标注。在测试中,其加权平均Dice得分高达0.94,远超仅能生成边界框的Grounding DINO,后者在识别多个对象时精度表现下降明显。

不仅如此,BiomedParse还能通过统计方法排除无效文本提示(如“在皮肤镜图像中识别左心室”),避免因误解而造成的分割错误。


研究意义与亮点

  1. 统一框架的创新:BiomedParse首次通过联合学习实现了分割、检测与识别任务的整合,解决了传统方法因割裂处理导致的局限性。

  2. 无需边界框输入:通过文本提示即可实现高精度分割,极大减少了用户的操作负担,尤其是在包含大量对象的图像中。

  3. 形状复杂目标的优越表现:对不规则岛状分布的细胞、异常肿瘤等目标具有极强的泛化能力。

  4. 可扩展性与实用性:BiomedParse在Providence Health System的真实世界数据测试中准确标注了免疫细胞与癌细胞,表明其在临床落地中的巨大潜力。

BiomedParse不仅为生物医学图像解析提供了一种高效、准确且通用的解决方案,也铺平了大规模图像驱动的生物医学发现的道路。未来,随着其在三维成像和交互式对话系统上的扩展,该模型有望应用于更多的临床与科研场景。