FedRVR :基于关系引导的多功能正则化的联邦半监督学习

学术背景与问题提出 随着数据隐私问题的日益突出,联邦学习(Federated Learning, FL)作为一种去中心化的机器学习范式,逐渐成为研究热点。联邦学习允许多个客户端在不共享数据的情况下协作训练一个全局模型,从而保护数据隐私。然而,现有的联邦学习方法通常假设每个客户端的数据都是完全标注的,这在实际应用中往往是不现实的,尤其是在标注能力有限的情况下。为了解决这一问题,联邦半监督学习(Federated Semi-Supervised Learning, FSSL)应运而生。FSSL 旨在利用大量未标注的数据进行知识挖掘,从而在保护隐私的同时提升模型性能。 然而,现有的 FSSL 方法主要依赖于数据增强来保持局部模型与全局模型之间的一致性,这导致了分类器的偏差,并且在未标注客户端数据分...

基于类平衡多中心动态原型伪标记的无源域自适应方法

学术背景与问题提出 近年来,深度学习模型(Deep Neural Networks, DNNs)在计算机视觉任务中取得了显著的成功,但这些模型的训练依赖于大量的标注数据。然而,当模型应用于新的、未标注的目标领域时,由于领域差异(domain shift),模型的泛化能力往往较差。为了解决这一问题,领域自适应(Domain Adaptation, DA)技术应运而生。领域自适应的目标是通过利用源领域的知识来提升模型在目标领域的表现,尤其是在目标领域没有标注数据的情况下。 然而,传统的领域自适应方法通常需要访问源领域的原始数据,这在许多实际应用中是不现实的,原因包括数据隐私、数据安全和数据传输效率等问题。为了解决这一问题,源数据不可访问的领域自适应(Source-Free Domain Adap...

PICK:基于预测与掩码的半监督医学图像分割方法

PICK模型在半监督医学图像分割中的应用 学术背景 医学图像分割在临床实践中具有重要意义,能够为医生提供关于器官或肿瘤的体积、位置和形状等关键信息。近年来,基于深度学习的模型在医学图像分割任务中表现出色,但这些模型通常需要大量的标注数据。然而,医学图像的标注需要专业的临床医生,获取这些标注数据既耗时又昂贵。因此,如何在有限的标注数据下提高模型性能成为了一个重要的研究问题。 半监督学习(Semi-Supervised Learning, SSL)通过同时利用有限的标注数据和大量的未标注数据,成为解决这一问题的有效方法。现有的SSL方法主要分为两类:伪标签(Pseudo-labeling)和基于一致性的协同训练(Consistency-based Co-training)。然而,这些方法在处理未...

鲁棒的序列深度伪造检测

鲁棒的序列深度伪造检测 学术背景 随着深度生成模型(如GANs)的快速发展,生成逼真的人脸图像已经变得非常容易。然而,这种技术的滥用也引发了严重的安全问题,尤其是深度伪造(Deepfake)技术的滥用。深度伪造技术可以生成与真实图像几乎无法区分的伪造图像,这些图像可能被用于传播虚假信息、制造假新闻等恶意用途。为了应对这一问题,研究者们提出了多种深度伪造检测方法。然而,现有的方法主要集中在检测单步的人脸篡改操作,而随着易于使用的面部编辑应用程序的普及,人们可以通过多步操作对人脸进行序列化的篡改。这种新的威胁要求我们能够检测出一系列的面部篡改操作,这对于检测深度伪造媒体以及后续恢复原始人脸图像至关重要。 基于这一观察,本文提出了一个新的研究问题——序列深度伪造检测(Sequential Deep...

基于启发式可逆网络的水下感知增强方法

学术背景与问题提出 水下图像在海洋探测、水下机器人、海洋生物识别等领域具有重要应用价值。然而,由于水对光的折射和吸收作用,水下图像通常存在对比度低、颜色失真等问题,严重影响了后续的感知任务(如目标检测、语义分割等)的准确性。现有的水下图像增强方法主要关注视觉质量的提升,而忽略了增强图像在后续任务中的实际应用效果。因此,如何在视觉质量提升和实际应用之间找到平衡,成为了当前研究的一个重要挑战。 为了解决这一问题,本文提出了一种基于启发式可逆网络的水下感知增强方法(HUPE)。该方法不仅能够提升水下图像的视觉质量,还能通过语义协作学习模块提取任务导向的语义特征,从而更好地服务于后续的感知任务。 论文来源与作者信息 本文由Zengxi Zhang、Zhiying Jiang、Long Ma、Jiny...

基于质量对抗学习的盲图像质量评估:探索内容保真度感知

基于质量对抗学习的无参考图像质量评估方法研究 学术背景 图像质量评估(Image Quality Assessment, IQA)是计算机视觉领域中的一个基础问题,旨在评估图像在视觉内容上的保真度。IQA在图像压缩、恢复等领域具有重要的应用价值。传统的IQA方法主要分为全参考(Full-Reference, FR-IQA)和无参考(No-Reference, NR-IQA)两类。FR-IQA通过比较失真图像与参考图像之间的差异来评估图像质量,而NR-IQA则在没有参考图像的情况下,仅通过失真图像本身来评估其质量。由于NR-IQA缺乏参考图像,其在评估图像内容保真度(Content Fidelity)方面存在较大挑战,难以区分原始内容与失真之间的差异。 近年来,基于深度学习的NR-IQA方法取...

基于边界回归和结构重参数化的细胞核实例分割模型RepsNet

基于边界回归和结构重参数化的细胞核实例分割模型RepsNet

基于边界回归与结构重参数化的细胞核实例分割模型RepsNet 学术背景 病理诊断是肿瘤诊断的金标准,而细胞核实例分割是数字病理分析和病理诊断中的关键步骤。然而,模型的计算效率和处理重叠目标的能力是当前研究中的主要挑战。为了解决这些问题,本文提出了一种基于细胞核边界回归和结构重参数化的神经网络模型RepsNet,用于在H&E染色的组织病理学图像中进行细胞核的分割和分类。 细胞核的分布和形态特征(如密度、核质比、平均大小和多形性)不仅对评估癌症分级有用,还能预测治疗效果。然而,病理图像通常具有细胞核广泛粘连、种类多样、形状多变以及细胞质背景与细胞核前景对比度低等特点,这些特征使得细胞核实例分割变得极为困难。 论文来源 本文由Shengchun Xiong、Xiangru Li、Yunpeng Z...

基于服装状态感知的长期行人重识别特征正则化网络

在计算机视觉领域,行人重识别(Person Re-Identification, Re-ID)是一项重要的任务,旨在通过不同时间和地点的非重叠摄像头捕捉的图像或视频,匹配同一个人的身份。随着监控系统在公共安全中的广泛应用,Re-ID技术成为了视觉监控中的关键环节。然而,Re-ID任务面临着诸多挑战,尤其是在长期行人重识别(Long-Term Person Re-Identification, LT-ReID)中,由于时间跨度较长,行人的服装可能会发生完全、部分或不变的变化,这给传统的Re-ID方法带来了极大的困难。 传统的LT-ReID方法主要分为两类:基于生物特征的方法和基于数据适应的方法。前者依赖于生物特征(如步态、体型、面部特征等)来应对服装变化,但在复杂背景或数据不完整的情况下表现不...

PPlaneSDF:基于伪平面正则化符号距离场的神经室内场景重建

基于伪平面正则化符号距离场的神经室内场景重建 学术背景 室内场景的三维重建是计算机视觉领域中的一个重要任务,具有广泛的应用前景,如计算机图形学、虚拟现实等。传统的三维重建方法通常依赖于昂贵的三维地面真值数据,而近年来,基于神经辐射场(NeRF)的隐式神经表示方法在仅使用多张图像的情况下,展示了强大的三维表面重建能力。然而,由于NeRF主要基于颜色的体渲染进行优化,其在低纹理区域(如地板、墙壁等)的重建效果通常较差。这些低纹理区域在室内场景中普遍存在,且通常对应于平面结构。因此,如何在不引入额外监督信号或对房间布局做出额外假设的情况下,提升低纹理区域的重建质量,成为了一个亟待解决的问题。 本文提出了一种基于伪平面正则化符号距离场(PPlaneSDF)的室内场景重建方法。该方法通过将颜色相似的相...

AutoStory:以最少人力生成多样化故事图像

AutoStory:以最少人力生成多样化故事图像

学术背景与问题提出 故事可视化(Story Visualization)是一项旨在从文本描述的故事中生成一系列视觉上一致的图像的任务。这项任务要求生成的图像不仅要高质量,还要与文本描述保持一致,并且在不同图像中角色的身份和场景也要保持一致。尽管故事可视化在艺术创作、儿童教育和文化传承等领域具有广泛的应用前景,但由于其复杂性,现有的方法往往通过简化问题来处理,例如仅考虑特定的角色和场景,或要求用户提供每张图像的控制条件(如草图)。这些简化使得现有方法在实际应用中表现不佳。 为了解决这些问题,本文提出了一种自动化故事可视化系统,能够以最少的人工交互生成多样化、高质量且一致的故事图像。具体来说,作者利用大语言模型(LLM)的理解和规划能力进行布局规划,然后基于布局利用大规模文本到图像模型生成复杂的...