本文是一篇关于多模态深度学习(Multimodal Deep Learning, MDL)在生物医学图像和文本中的应用的综述性研究。该研究由Zhaoyi Sun、Mingquan Lin、Qingqing Zhu、Qianqian Xie、Fei Wang、Zhiyong Lu和Yifan Peng等作者共同完成,分别来自Weill Cornell Medicine和美国国家生物技术信息中心(NCBI)。该研究于2023年10月20日提交至《Journal of Biomedical Informatics》期刊。
多模态深度学习(MDL)是一种整合多种数据源(如图像、文本、电子健康记录等)的技术,近年来在生物医学领域引起了广泛关注。MDL通过结合不同模态的数据,能够显著提高临床决策的准确性和效率。然而,MDL在医学图像和非结构化文本(如临床报告)中的应用仍处于起步阶段。随着自然语言处理(NLP)领域预训练模型(如BERT、GPT-3等)的快速发展,MDL在医学领域的应用潜力逐渐显现。因此,本文旨在系统回顾过去五年中MDL在生物医学图像和文本中的研究进展,识别当前研究的局限性,并探讨未来的研究方向。
本文采用范围综述(Scoping Review)的方法,遵循PRISMA(Preferred Reporting Items for Systematic Reviews and Meta-Analyses)指南,对2018年至2022年间发表的英文文献进行了系统性回顾。研究主要关注医学图像和文本的联合学习,因为这两种数据类型在MDL研究中最为常见。文献检索涵盖了PubMed、ACM Digital Library、IEEE Xplore、Google Scholar和Semantic Scholar等数据库,最终筛选出77篇相关文献。
本文回顾了MDL在五个主要任务中的应用:报告生成(Report Generation)、视觉问答(Visual Question Answering, VQA)、跨模态检索(Cross-modal Retrieval)、计算机辅助诊断(Computer-aided Diagnosis, CAD)和语义分割(Semantic Segmentation)。
报告生成:报告生成任务旨在通过医学图像和电子健康记录(EHR)自动生成描述性报告,减轻临床医生的工作负担。常用的数据集包括IU X-ray和MIMIC-CXR,模型通常采用卷积神经网络(CNN)和长短期记忆网络(LSTM)进行图像和文本处理。近年来,基于Transformer的模型(如AlignTransformer)在报告生成任务中表现出色,尤其是在处理长序列报告时。
视觉问答:视觉问答任务通过结合图像和文本信息,为临床决策提供支持。常用的数据集包括VQA-Med和PathVQA,模型通常由图像特征提取器、问题特征提取器、多模态融合组件和分类器组成。近年来,基于BERT和注意力机制的模型在VQA任务中表现优异。
跨模态检索:跨模态检索任务包括图像到文本检索和文本到图像检索。常用的数据集包括MIMIC-CXR和ROCO,模型通常通过对比学习(Contrastive Learning)进行图像和文本特征的匹配。近年来,基于Transformer的模型(如Self-supervised Multimodal Masked Autoencoders)在跨模态检索任务中取得了显著进展。
计算机辅助诊断:MDL在计算机辅助诊断中的应用主要集中在胸部X光图像和放射学报告的结合。常用的数据集包括CheXpert和MIMIC-CXR,模型通常采用图像-文本嵌入(Image-text Embedding)和对比学习策略。近年来,基于自监督学习的模型(如CheXzero)在零样本分类任务中表现出色。
语义分割:语义分割任务通过图像-文本对比学习提取视觉特征,并将其与文本特征进行对比,以理解图像与其描述之间的关系。常用的数据集包括SIIM和RSNA,模型通常采用图像-文本对齐和局部表示学习策略。
本文系统回顾了MDL在生物医学图像和文本中的应用,强调了其在提高诊断准确性和临床决策支持方面的潜力。然而,当前研究仍面临数据不平衡、临床知识整合、模型公平性和可解释性等挑战。未来的研究应关注开发更鲁棒的评估标准、加强跨学科合作,并探索新的数据源和模态。
本文为临床医生、研究人员和计算机科学家提供了关于MDL在生物医学图像和文本中应用的最新进展和未来方向的全面综述,有助于推动下一代决策支持和计算机辅助诊断系统的发展。