基于三维生成对抗网络的一次性生成域适应

One-shot Generative Domain Adaptation in 3D GANs 近年来,生成式对抗网络(Generative Adversarial Networks, GANs)在图像生成领域取得了显著进展。传统的二维生成模型已经能够在多种任务中展现出极高的能力。然而,将这一技术扩展到三维领域(3D-aware image generation),以同时生成二维图像并学习三维结构,仍然面临诸多挑战。本文报道了发表在 International Journal of Computer Vision 上的一篇题为《One-shot Generative Domain Adaptation in 3D GANs》的文章。该研究由 Ziqiang Li、Yi Wu、Chaoyue...

卷积神经网络中归因图可靠性的扰动评估方法

深度学习解释性研究:基于扰动的归因图评估方法 背景和研究动机 随着深度学习模型在各种任务中取得显著成功,人们越来越关注这些模型的解释性和透明性。然而,尽管模型在准确性上表现卓越,其决策过程的可解释性仍然存在很大不足。这种不足限制了模型在实际应用中的推广,因为许多场景需要模型不仅能提供准确的预测,还需具备鲁棒性、不确定性估计以及对决策过程的直观解释能力。 在计算机视觉领域,归因方法(Attribution Methods)被广泛应用于神经网络的解释性研究。这些方法通过生成归因图(Attribution Maps,AMs),显示输入图像中哪些区域对模型的决策贡献最大。然而,由于归因图的定性特性,如何定量评估这些图的有效性仍是一个未解决的问题。本研究旨在解决归因图评估中面临的可靠性和一致性问题,为...

NAF和SynthStab:基于RAFT的网络和合成数据集的数字视频稳定方法

基于深度学习的视频稳定方法改进与合成数据集SynthStab的研究 背景介绍 数字视频稳定技术通过软件去除不必要的振动和相机运动痕迹,是现代视频处理中的关键技术,尤其在业余视频拍摄中应用广泛。然而,现有基于深度学习的直接变形(Direct Warping Stabilization,简称DWS)方法虽然在低质量视频中表现良好,但在应对剧烈不稳定性时效果有限,且难以达到传统方法的稳定水平。这主要源于以下原因:现有数据集的稳定视频定义不够明确、模型结构简单、对未来帧的预测信息利用不足等。 为此,本文提出一种新型的基于RAFT(Recurrent All-Pairs Field Transforms)的半在线直接变形方法——NAFT,以及一个新的合成数据集SynthStab,用以解决上述问题。这些...

多视角变换网络(MVTN):3D理解的最新方法

多视角变换网络(MVTN):3D理解的最新方法

多视角变换网络(MVTN)推动3D理解研究的新进展 背景与研究动机 在计算机视觉领域,三维(3D)数据的深度学习研究近年来取得了显著进展,尤其是在分类、分割和检索任务中。然而,如何有效利用三维形状信息仍然是一个重要的挑战。常用的三维数据表示方法包括点云(Point Clouds)、网格(Meshes)和体素(Voxels)。此外,另一种流行的策略是通过多视角投影技术,将3D对象或场景渲染成多个二维(2D)视图。这种方法与人类视觉系统接收的图像流更为相似,并且可以充分利用2D深度学习的先进成果。 多视角方法如MVCNN(Su et al., 2015)通过渲染固定视点的2D图像,显著提升了3D形状分类的性能。然而,这些方法普遍依赖固定的视角配置(如随机采样或预定义视点),难以根据具体任务动态调...

跨尺度共生局部二值模式用于图像分类

基于跨尺度共现局部二值模式的图像分类方法研究 图像分类技术在计算机视觉领域中占据重要地位,而图像特征提取是该领域的核心研究方向。近年来,局部二值模式(Local Binary Pattern, LBP)由于其高效性和描述能力被广泛应用于纹理分类、人脸识别等视觉任务中。然而,传统的LBP方法在处理几何变换(如旋转、缩放)和图像噪声时表现出明显的局限性。针对这些问题,重庆邮电大学的肖斌等研究团队在《International Journal of Computer Vision》期刊上发表了题为“CS-COLBP: Cross-Scale Co-Occurrence Local Binary Pattern for Image Classification”的研究论文,提出了一种新的图像特征提取...

通过StyleGAN实现图像编辑

GAN反演与图像编辑新方法:Warping the Residuals for Image Editing with StyleGAN 背景与研究问题 生成对抗网络(Generative Adversarial Networks, GANs)在图像生成领域取得了显著的进展,为高质量图像的合成和编辑提供了可能性。StyleGAN模型以其语义可解释的潜在空间组织,展现了超越传统图像翻译方法的编辑能力。然而,GAN的实际应用面临一个核心挑战:在真实图像编辑中,需要将图像逆向投影到GAN的潜在空间(即GAN反演),实现对原始图像的高保真重建以及高质量的编辑。 现有方法中,低比特率潜在空间(如StyleGAN的$W^+$空间)在编辑上表现较佳,但由于信息瓶颈问题,往往丢失图像细节;而高比特率潜在空间虽...

基于Transformer的对象再识别综述

Transformer for Object Re-Identification: A Survey 背景与研究意义 对象重新识别(Object Re-Identification,简称Re-ID)是一项重要的计算机视觉任务,旨在跨时间和场景识别特定对象。这一领域在深度学习技术的推动下取得了显著进展,尤其是基于卷积神经网络(Convolutional Neural Networks,简称CNNs)的研究。然而,随着视觉Transformer的出现,Re-ID研究开启了新的篇章。本文综述了基于Transformer的Re-ID技术,分析其在图像/视频、少数据/少标注、多模态及特殊应用场景中的优势与挑战。 研究团队与发表信息 本文由来自武汉大学、Sun Yat-Sen University和In...

经颅振荡刺激改善虚拟现实中网络眩晕的频率依赖性研究

利用经颅振荡刺激减少虚拟现实中的网络眩晕 背景与研究动机 虚拟现实(Virtual Reality, VR)技术正日益渗透到工作、医疗和娱乐等领域。然而,约95%的VR用户会经历一种被称为网络眩晕(Cybersickness, CS)的症状,表现为恶心、头晕和不适等。这一现象的根源在于视觉、体感和前庭信息整合的持续不匹配,尤其是在虚拟环境中诱发“自我运动”的错觉(vection)。尽管VR技术的应用广泛,但CS问题却限制了其在医疗康复、军事训练和教育等场景中的广泛采用。为解决这一挑战,研究者开发了通过跨颅交变电流刺激(transcranial alternating current stimulation, tACS)靶向前庭皮层的技术,以尝试缓解CS症状。 研究来源 这项研究由Siena ...

利用条件性蛋白扩散模型生成具有增强活性的人工可编程核酸酶序列

利用条件性蛋白扩散模型生成具有增强活性的人工可编程核酸酶序列

深度学习助力蛋白质设计:基于条件扩散模型的功能蛋白序列生成 蛋白质是生命科学研究和应用的核心,其多样性和功能复杂性为科学家提供了无数可能性。随着深度学习技术的发展,蛋白质设计正迈向一个全新高度。由上海交通大学、剑桥大学等多个机构的科学家联合发表的研究《A conditional protein diffusion model generates artificial programmable endonuclease sequences with enhanced activity》展示了一种名为“条件蛋白扩散模型”(Conditional Protein Diffusion Model, 简称 CPDiffusion)的创新方法,用于设计具有增强功能的人工蛋白质序列。这一研究已发表在《Ce...

基于新型Pix2Pix生成对抗网络增强框架的MRI脑肿瘤分类

增强型基于MRI的脑肿瘤分类研究:一种新颖的Pix2Pix生成对抗网络增强框架 脑肿瘤是全球范围内一种具有高发病率和致死性的重大健康问题。在全球每年新增数以万计的脑肿瘤病例中,患者生存率低,尤其是恶性脑肿瘤更是面临严峻的治疗挑战。如何通过早期诊断与精准分类脑肿瘤以优化治疗策略成为医学研究的重点。然而,传统基于人工分析的影像诊断耗时且易出错,而近年来快速发展的人工智能(AI)和深度学习(DL)技术为脑肿瘤的自动化诊断带来了曙光。 本研究由Near East University的Efe Precious Onakpojeruo等学者完成,研究成果发表于《Brain Communications》(2024, DOI:10.1093/braincomms/fcae372)。该研究提出了一种基于P...