在非凸模型和异质数据环境下解决去中心化SGD问题的一种通用的动量范式

在非凸模型和异质数据环境下解决去中心化SGD问题的一种通用的动量范式 研究背景介绍 近年来,随着物联网和边缘计算的兴起,分布式机器学习得到了迅猛发展,尤其是去中心化训练范式。然而,在实际场景中,非凸目标函数和数据异质性成为制约分布式训练效率与性能的两大瓶颈问题。 非凸优化目标函数广泛存在于深度学习模型中,它们可能存在多个局部最优解,从而导致模型精度下降、训练过程不稳定等问题。同时,在分布式环境下,参与计算的各节点持有的数据分布存在差异(即异质性),此种数据偏差会给收敛性和泛化性能带来不利影响,成为另一个亟待解决的挑战。 文章来源 本文发表于著名期刊《人工智能》(Artificial Intelligence)2024年第332期,作者来自上海电力大学计算机科学与技术学院。 研究工作 3.1 ...

通过概念化的方法来获取和建模抽象常识知识

引言 人工智能系统对常识知识的缺乏一直是制约该领域发展的主要瓶颈之一。尽管在近年来通过神经语言模型和常识知识图谱获得了长足进展,但”概念化”这一人类智慧的关键组成部分却未能很好地在人工智能系统中体现。人类通过将具体事物或情境概念化为抽象概念并基于此进行推理,来获取和理解世界上无穷无尽的实体和情景。然而,有限的知识图谱无法涵盖现实世界中种类繁多的实体和情景,更不用说对它们之间的关系和推论了。 本项研究深入探讨了概念化在常识推理中的作用,并构建了一个框架来模拟人类的概念归纳过程:从现有的情景常识知识图谱中汲取有关抽象概念的事件知识,以及更高层次的关于这些抽象概念的三元组或推理。该框架首先对常识知识图谱ATOMIC中的事件实例进行概念识别和概念化,利用语言模型和启发式规则生成表示抽象概念的抽象事件...

基于多重图表示的事件抽取新方法

背景介绍: 事件抽取是自然语言处理领域的一个热门任务,旨在从给定文本中识别出事件触发词及其相关论元。该任务通常分为事件检测(提取事件触发词)和论元抽取两个子任务。传统的pipeline方法是分开执行这两个子任务,但存在错误传递的问题。近年来,joint模型兴起,能够将两个子任务统一起来学习,避免错误传递,但仍然忽视了论元多路复用(argument multiplexing)问题。 论文简介: 本文提出了一种基于多重图(multigraph)表示的事件抽取框架。多重图允许两个节点之间存在多条并行边,能够很好地表示事件的语义结构,并解决论元多路复用问题。基于该框架,作者设计了一种端到端的多重图事件提取模型(MGREE),可以同时提取事件触发词、相关论元及其语义角色。 研究机构及作者: 本项研究由...

一种处理开放世界新奇事物的神经符号认知架构框架

一种处理开放世界新奇事物的神经符号认知架构框架

一种处理开放世界新奇事物的神经符号认知架构框架 论文背景 传统的人工智能研究假设智能体工作在”封闭世界”中,即环境中所有与任务相关的概念都是已知的,而不会出现新的未知情况。然而,在开放的真实世界中,总会出现违背智能体先验知识的新奇事物。本文提出一种新颖的混合神经符号推理架构,赋予智能体检测和适应新奇事物的能力,从而能在开放世界中完成任务。 新奇事物的定义 本文将新奇事物视为一种智能体相关的概念。如果智能体无法从其知识库中推导出某一事物的表征,那么该事物对于该智能体而言就是新奇的。根据新奇事物对智能体完成任务的影响程度,文中将新奇事物分为以下几种类型: 禁止性新奇事物:智能体必须表征并推理这种新奇事物,才能够生成能完成任务的计划。 阻塞性新奇事物:会导致智能体执行器执行失败。 有益新奇事物:掌...

基于移动网络学习时空动态以适应开放世界事件

基于移动网络学习时空动态以适应开放世界事件 研究背景 现代社会的出行服务(Mobility-as-a-Service,MaaS)体系由多种交通方式(如公共交通、网约车、共享单车等)无缝集成而成。为实现MaaS平稚运营,对多模态移动网络的时空动态建模是必不可少的。然而,现有方法要么隐式地处理不同交通方式之间的相互作用,要么假设这种交互作用是不变的。更有甚者,当发生开放世界事件(如节假日、恶劣天气、疫情等)时,人群的集体移动行为将发生显著偏离常态的情况,这使得该建模任务更加具有挑战性。 论文来源 本文由伊利诺伊大学厄巴纳 - 香槟分校地理与地理信息科学系的Zhaonan Wang、东京大学空间信息科学中心的Renhe Jiang、Xuan Song、Ryosuke Shibasaki,以及新南威...

强化学习中神经网络表示的性质探究

强化学习中神经网络表示的性质探究

传统的表征学习方法通常是设计固定的基函数架构,以达到正交性、稀疏性等期望的性质。而深度强化学习的理念则是,设计者不应编码表征的性质,而是让数据流决定表征的性质,使良好的表征在适当的训练方案下自发涌现。 这项研究探讨了通过深度强化学习系统学习的表征(representation)的性质。此研究将这两种观点结合,通过实证分析,探讨了在强化学习中能够促进迁移的表征所具有的性质。作者提出并测量了六种表征性质,在25000多个代理任务设置中进行了研究。他们使用了带有不同辅助损失的深度Q学习代理,在基于像素的导航环境中进行实验,其中源任务和迁移任务对应于不同的目标位置。 研究人员开发了一种方法,通过系统地变化任务相似性并测量与迁移性能相关的表征性质,从而更好地理解为什么某些表征更适合迁移。他们还证明了该...

在基于模型诊断中的关键观测

在模型驱动的故障诊断中,能够识别出导致系统异常的关键观测数据是十分有价值的。本文介绍了一种识别关键观测数据的框架和算法。该框架通过将原始观测数据抽象为”子观测”,来确定哪些观测对诊断结果至关重要。一个”关键子观测”被定义为在最大程度上抽象化后,仍能导出与原始观测相同的最小诊断集。 该研究由澳大利亚的Cody James Christopher和法国的Alban Grastien两位作者合作完成,分别来自澳大利亚科学与工业研究组织数据61中心和法国原子能与替代能源委员会。他们的工作发表于2024年的人工智能期刊上。 研究人员首先阐述了模型驱动诊断的基本框架和概念。该框架包括系统模型、观测数据和诊断假设空间三个主要部分。系统模型描述了系统的所有可能行为;观测是对实际系统行为的感知,可能来源于传感...