基于策略共识的分布式确定性多智能体强化学习方法研究

基于策略共识的分布式确定性多智能体强化学习研究报告 强化学习(Reinforcement Learning, RL)近年来在诸多领域取得了显著突破,包括机器人学、智能电网和自动驾驶等。然而,在实际场景中,常常涉及到多智能体(Multi-Agent Reinforcement Learning, MARL)的协作学习问题。这类问题的核心挑战在于设计高效的多智能体协作强化学习算法,尤其是在受制于通信能力限制或隐私保护的情况下。目前,多数的MARL算法依赖一种被广泛采用的集中化训练-分布式执行(Centralized Training with Decentralized Execution, CTDE)范式。该范式虽然可以有效解决环境的非平稳性问题,但由于其重通信和集中化处理的本质,使其在实际部...

尖峰扩散模型

脑启发的低能耗生成模型——Spiking Diffusion Models研究评述 背景概述 近年来,人工智能领域涌现出众多前沿技术,其中深度生成模型(Deep Generative Models, DGMs)通过生成图像、文本等数据表现出了卓越的能力。然而,这些生成模型通常依赖人工神经网络(Artificial Neural Networks, ANNs)作为骨干网络,其高度依赖算力和内存资源的特性使其在大规模应用中面临显著的能耗问题。同时,与人类大脑相比,ANNs的能耗效率远不及人类大脑的20瓦功率水平,这导致研究人员对更高能效的神经网络架构产生了兴趣。 与ANNs不同,脉冲神经网络(Spiking Neural Networks, SNNs)以大脑神经元的工作方式为启发,以事件驱动的方...

基于细粒度线索和噪声不一致性的面部伪造检测

深入探讨基于精细线索和噪声不一致性的面部伪造检测 背景介绍 随着人工智能(AI)技术的快速发展,各种生成模型已实现了惊人的进步。这使得生成高逼真的“深度伪造(Deepfake)”面部图像变得越来越容易。这些高度逼真的面部伪造图像在娱乐、影视制作等领域具有合法用途,但也被滥用于恶意目的,如传播虚假信息、误导公众舆论,甚至威胁社会安全和国家安全。尤其是当主流媒体采用隐式压缩时,这些压缩过程往往会淡化伪造的痕迹,使得检测变得更加困难。因此,开发有效的面部伪造检测方法已成为多媒体信息安全领域的核心需求。 目前,大部分现有的伪造检测方法要么依赖空间域(spatial domain)特征,要么依赖频域(frequency domain)特征,却很少研究二者的相关性和互补性。另外,当图像质量较低或经过强压...

基于SHAP误差补偿方法的改进可解释电价预测模型

基于SHAP的电力价格预测模型改进研究及其可解释性分析 背景与研究动机 电力市场中的价格预测模型近年来成为研究热点,尤其是考虑到电力市场波动对利益相关方的财务影响。特别是,在欧洲能源市场中,受能源危机和地缘政治影响,最近几年燃料价格急剧上升,导致电力市场的价格波动性显著增加。即使是1%的预测误差,也可能对发电公司、负荷服务实体和交易公司产生巨大的财务后果。例如,对于用电量达到1GW的公司而言,仅1%的预测改进便可带来每年约1200万美元的节省。因此,提高电力价格预测(Electricity Price Forecasting,EPF)模型的精准度对市场参与者来说至关重要。 虽然基于机器学习(Machine Learning,ML)和深度学习(Deep Learning)技术的EPF模型在预测...

通过多任务遗传编程实现带目标偏好的多目标动态灵活车间调度

多目标动态灵活作业车间调度的突破性研究:一种通过多任务学习优化目标偏好遗传规划的创新方法 背景介绍 动态灵活作业车间调度(Dynamic Flexible Job Shop Scheduling, DFJSS)是一个重要的组合优化问题,在制造、仓储等领域的生产过程具有广泛的实际应用。例如,它被用于优化制造过程中的任务分配或仓库的订单拣选工作。该问题的核心是如何在动态环境中,为多个机器和多个作业执行灵活的任务分配和操作排序决策,从而最大化某些效率指标或最小化时间成本。然而,这个问题的复杂性极高,尤其是当任务动态到达或机器发生故障时,传统的优化方法往往面临计算复杂度和实时性不足等问题。 近年来,遗传规划(Genetic Programming, GP)作为一种超启发式方法,被广泛用于为动态灵活作...

NPE-DRL: 一种用于无人机在感知受限环境下规避障碍物的非专家策略增强深度强化学习方法

基于非专家策略强化学习改进无人机视觉受限环境下的避障能力研究 近年来,无人机(Unmanned Aerial Vehicle,UAV)凭借其卓越的机动性和多样化的功能,广泛应用于包裹递送、风险评估和紧急救援等民用领域。然而,随着无人机执行任务的复杂性、范围和时长的增加,其自主导航的难度也显著上升,尤其是在拥挤且高度不确定的环境中实现避障。然而,传统的全球导航方法通常依赖全局信息,难以处理视觉受限条件下的障碍场景。本研究的目的是解决这些场景中的避障问题,提升无人机的实时导航能力。 此外,尽管基于深度强化学习(Deep Reinforcement Learning,DRL)的避障算法通过端到端处理方式表现出色,能够减小计算复杂度并提升适应性和可扩展性,但它们的采样效率偏低,需要大量的样本迭代以实...

通过自适应超球邻近点分布方法优化的神经网络分类器

通过自适应超球邻近点分布方法优化的神经网络分类器

自适应超球神经网络分类器:ASNN研究综述 引言与研究背景 近年来,随着人工智能和深度学习的发展,神经网络(Neural Networks, NNs)被广泛应用于分类任务中。这类任务的本质是通过神经网络建立决策边界,将样本分类到其所属类别。然而,在传统的神经网络分类方法中,嵌入空间(Embedding Space)的扩展性以及样本之间正负对配对(Positive/Negative Pairing)效率不足,一直是妨碍神经网络性能进一步提升的重要问题。具体来说,现有基于对比约束(Pair-wise Constraint-Based, PWCB)的方法主要通过设计对比损失函数(三重损失Triplet Loss、对比损失Contrastive Loss等)和固定的嵌入空间来引导神经网络学习样本的判...

知识概率化在集合蒸馏中的应用:提升目标检测器的准确性和不确定性量化

知识概率化在集成蒸馏中的应用研究 学术背景:研究的意义与问题的提出 近年来,深度神经网络(Deep Neural Networks, DNN)因其卓越的预测能力,在自动驾驶、医疗诊断、气候预测等安全关键领域得到了广泛应用。然而,这些领域对模型的需求不止于高预测精度,更要求模型能够提供可靠的不确定性量化(Uncertainty Quantification)。尤其是在诸如自动驾驶车辆面对雪天等复杂环境时,模型的过高自信可能导致不安全的决策;因此,增强不确定性量化已成为深度学习应用的重要课题之一。 深度集成学习(Deep Ensemble)因其在提升预测精度和不确定性量化能力方面的显著效果,成为近年来的重要研究方向。然而,集成模型由于需要大规模的计算与存储资源,在实际应用中,尤其是资源有限的环境...

基于CORDIC的高效激活函数实现方法,用于FPGA上的RNN加速

RNN高效激活函数实现:CORDIC算法与FPGA硬件加速的突破 背景与研究意义 近年来,随着深度学习技术的迅猛发展,循环神经网络(Recurrent Neural Networks, RNNs)尤其是长短时记忆网络(Long Short-Term Memory, LSTM),在时间序列任务中展现出了强大的能力,例如在自然语言处理(Natural Language Processing, NLP)、语音识别和医学诊断等领域取得了广泛应用。然而,与卷积神经网络(Convolutional Neural Networks, CNNs)相比,RNN模型因其复杂性和大量非线性激活函数需求,导致计算代价显著增加。特别是在资源有限的边缘设备(Edge Devices)中部署RNN模型时,激活函数的实现成...

基于先验驱动的边缘特征增强网络提升小样本语义分割性能

基于先验驱动的边缘特征增强网络提升小样本语义分割性能

提升小样本语义分割的新方法——基于先验的边缘特征增强网络 在人工智能领域,语义分割(semantic segmentation)是计算机视觉中的一项核心技术,其目的是为图像中的每个像素赋予语义类别标签。然而,传统的语义分割方法依赖大量的标注数据进行训练,这在实际应用中局限于标注样本数据不足的场景。例如,医学影像分析和自动驾驶中,需要对少数数据类别进行分割,获取精确的分割结果。在此背景下,小样本语义分割(Few-Shot Semantic Segmentation, 简称FSS)作为一种新兴技术得到了研究者的广泛关注,旨在在少量标注样本的条件下实现高质量的语义分割。 然而,与普通语义分割模型相比,小样本语义分割在目标边界预测的准确性上仍然表现不足。原因在于,当样本极其有限时,模型从查询(que...