基于特征擦除和对比学习的双关系Transformer网络在多标签图像分类中的应用

多标签图像分类的新突破——双关系Transformer网络 学术背景 多标签图像分类(Multi-Label Image Classification, MLIC)是计算机视觉领域中的一个基础但极具挑战性的问题。与单标签图像分类不同,MLIC的目标是为一张图像中的多个对象同时分配标签。由于图像中可能包含多个对象,且这些对象之间存在复杂的空间和语义关系,MLIC任务面临着场景复杂、对象尺度多样以及对象间隐含关联等挑战。近年来,随着深度学习技术的快速发展,尤其是卷积神经网络(CNN)和Transformer的引入,MLIC任务取得了显著进展。然而,现有的Transformer方法在处理2D特征图时,通常会将特征图展平为1D序列,这导致空间信息的丢失。此外,现有的注意力机制模型往往只关注显著的特征...

基于自适应分布式多任务学习的高效移动自组网图像识别

自适应分布式多任务学习框架ADAMT:移动自组网中的高效图像识别 学术背景 在移动自组网(Mobile Ad-hoc Networks, MANETs)中,分布式机器学习面临着巨大的挑战。这些挑战主要来自于设备的有限计算资源、非独立同分布(Non-IID)的数据分布以及动态变化的网络拓扑结构。现有的方法通常依赖于集中式协调和稳定的网络条件,但在实际应用中,这些条件往往难以满足。为了解决这些问题,研究人员提出了一种名为ADAMT(Adaptive Distributed Multi-Task Learning)的自适应分布式多任务学习框架,旨在在资源受限的移动自组网中实现高效的图像识别。 移动自组网是一种去中心化、无基础设施的网络,能够在没有固定基础设施的情况下实现设备之间的自主连接和信息共享...

基于情景记忆的双Actor-Critic框架在深度强化学习中的应用

学术背景 深度强化学习(Deep Reinforcement Learning, DRL)在游戏、机器人、导航、计算机视觉和金融等多个领域取得了显著成就。然而,现有的DRL算法普遍存在样本效率低下的问题,即需要大量的数据和训练步骤才能达到理想的性能。尤其是在连续动作任务中,由于状态-动作空间的高维性,传统的DRL算法难以有效利用情景记忆(Episodic Memory)来指导动作选择,导致样本效率进一步降低。 情景记忆是一种非参数控制方法,通过记忆高回报的历史经验来提升样本效率。在离散动作任务中,情景记忆可以直接用于评估每个可能的动作,并选择估计值最高的动作。然而,在连续动作任务中,动作空间是无限的,传统的情景记忆方法难以直接应用于动作选择。因此,如何在连续动作任务中有效利用情景记忆来提升样...

基于概率记忆自编码网络的监控视频异常行为检测

基于概率记忆自编码网络的监控视频异常行为检测

基于概率记忆自编码网络的监控视频异常行为检测研究 学术背景 在智能监控系统中,异常行为检测是一项至关重要的功能,广泛应用于反恐、社会稳定维护和公共安全保障等领域。然而,异常行为检测面临着一个核心挑战:正常行为数据和异常行为数据之间的极端不平衡。正常行为数据通常大量且易于获取,而异常行为数据则稀少且难以预测。这种不平衡使得传统的监督学习方法难以有效训练模型。因此,研究如何利用大量正常行为数据来建模正常行为分布,并以此为基础检测异常行为,成为了一个重要的研究方向。 近年来,基于深度学习的方法在异常行为检测中取得了显著进展。特别是,基于视频帧重建和未来帧预测的方法被认为在性能上优于传统的重建方法。然而,现有的方法在处理复杂场景和多模态正常行为时仍存在局限性。为了解决这些问题,本研究提出了一种基于概...

基于受限玻尔兹曼机的无数据集权重初始化方法

基于统计力学分析的受限玻尔兹曼机权重初始化方法研究 学术背景 在深度学习中,神经网络的权重初始化对模型的训练效果有着重要影响。特别是在前馈神经网络(feed-forward neural networks)中,已有多种数据集无关的权重初始化方法被提出,例如LeCun、Xavier(或Glorot)和He初始化。这些方法通过特定的分布(如高斯分布或均匀分布)随机确定权重参数的初始值,而无需使用训练数据集。然而,在受限玻尔兹曼机(Restricted Boltzmann Machine, RBM)中,类似的权重初始化方法尚未被开发。RBM是一种由两层组成的概率神经网络,广泛应用于协同过滤、降维、分类、异常检测和深度学习等领域。由于RBM的权重初始化对学习效率有显著影响,因此开发一种适用于RBM的...

基于视觉语言整合的零样本人-物交互检测研究

基于视觉语言整合的零样本人-物交互检测研究

基于视觉-语言整合的零样本人-物交互检测研究 学术背景 人-物交互(Human-Object Interaction, HOI)检测是计算机视觉领域的一个重要研究方向,旨在识别图像中人与物体之间的交互行为。传统的HOI检测方法主要依赖于监督学习,即需要大量的人工标注数据来训练模型。然而,这种方法在面对未见过的物体类别时,泛化能力有限。此外,现实世界中的人-物交互种类繁多且复杂,手动标注所有可能的交互类别既耗时又费力。 近年来,随着视觉-语言模型(Vision-Language Models, VLM)的快速发展,零样本学习(Zero-Shot Learning)成为了一个热门研究方向。零样本学习的目标是让模型能够识别在训练过程中从未见过的类别。基于这一背景,作者提出了一种名为“知识整合到HO...

PrivCore:用于高效私有推理的乘法-激活协同优化

深度神经网络中的高效隐私推理:PrivCore框架的突破性研究 背景介绍 随着深度学习技术的快速发展,深度神经网络(Deep Neural Networks, DNNs)在图像识别、自然语言处理、医疗诊断等领域的应用日益广泛。然而,随着数据隐私和模型保护的需求日益增长,如何在保护用户隐私的同时进行高效的模型推理成为了一个重要的研究课题。传统的隐私保护推理方法,如基于安全多方计算(Secure Multi-Party Computation, MPC)的隐私推理(Private Inference, PI),虽然在隐私保护方面表现优异,但其计算和通信开销巨大,难以在实际应用中广泛推广。 近年来,研究人员尝试通过优化网络架构来减少隐私推理中的计算和通信开销。然而,现有研究大多集中在减少非线性操作...

FedGPT:低秩张量空间中学习全局提示用于异构联邦学习

学术背景 随着人工智能(AI)模型的日益复杂和数据隐私保护的需求增加,联邦学习(Federated Learning, FL)作为一种分布式机器学习范式,逐渐成为研究热点。联邦学习允许多个客户端在不共享本地数据的情况下协同训练一个全局模型,从而在保护数据隐私的同时提升模型的泛化能力。然而,联邦学习在实际应用中面临三大挑战:1)模型参数过多导致通信负担过重;2)非独立同分布(Non-IID)数据导致全局模型性能下降;3)模型异构性使得传统的联邦聚合方法失效。 为了解决这些问题,本文提出了一种名为FedGPT的创新方法,通过在低秩张量空间中学习全局提示(Global Prompt),有效应对上述挑战。具体来说,FedGPT使用提示(Prompt)而非模型参数作为本地知识的载体,从而大幅减少通信量...

基于双视图图表示学习的图级异常检测方法

基于双视图图-图表示学习的图级异常检测研究 学术背景 在当今数据驱动的世界中,图(Graph)作为一种强大的数据结构,被广泛应用于社交网络分析、金融欺诈检测和生物信息学等领域。图能够有效地表示复杂的关系数据,例如社交网络中的用户关系、金融交易中的资金流动以及化学分子中的原子和化学键关系。然而,随着图数据的广泛应用,如何从大量图数据中检测出异常的图样本(Graph-Level Anomaly Detection, GLAD)成为了一个重要的研究问题。 现有的GLAD方法通常依赖于图神经网络(Graph Neural Networks, GNNs)来提取图级表示,并基于这些表示进行异常检测。然而,GNNs的局限性在于其感受野(receptive field)有限,可能无法捕捉到图中潜在的异常信息...

通过高阶运动流进行共轭视觉表征的持续学习

基于高阶运动流的共轭视觉表征持续学习:CMOSFET模型的研究 学术背景 在人工智能和计算机视觉领域,如何从连续的视觉数据流中进行持续学习(Continual Learning)是一个长期存在的挑战。传统的机器学习方法通常依赖于独立同分布(i.i.d.)的假设,即所有训练数据在训练时是静态且可用的。然而,现实世界中的视觉数据往往是连续的、非独立同分布的,这给模型的训练带来了巨大的困难。此外,现有的无监督学习方法大多依赖于大规模的离线训练数据集,这与人类和动物通过连续体验环境进行学习的方式截然不同。 为了解决这些问题,Simone Marullo、Matteo Tiezzi、Marco Gori和Stefano Melacci等研究人员提出了一种新的无监督持续学习模型,名为CMOSFET(Co...