基于频谱-时间调制特征的双流鲁棒语音情感识别

基于频谱-时间调制特征的双流鲁棒语音情感识别研究 学术背景 语音情感识别(Speech Emotion Recognition, SER)是通过分析人类语音中的情感内容来识别情绪的技术。它在人机交互、客户服务管理系统以及医疗等领域具有广泛的应用潜力。然而,尽管基于深度学习的SER模型在受控环境中表现出色,但在真实环境中的噪声条件下,其性能显著下降。噪声(如交通噪声、风扇噪声等)会严重干扰语音信号,导致情感识别系统的准确性大幅降低。因此,开发一种在噪声环境下依然鲁棒的SER系统成为了一个重要的研究方向。 传统的SER系统通常依赖于梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients, MFCC)和梅尔频谱图等声学特征。然而,这些特征在噪声环境下容易受到干扰,...

神经网络中关系学习与快速知识重组的神经机制

神经机制与关系学习:神经网络中的快速知识重组 背景介绍 人类和动物具备一种惊人的能力,能够从有限的经验中学习项目之间的关系(如刺激、物体和事件),从而实现结构化泛化和快速信息整合。这种关系学习的一个基本类型是顺序学习,它使得个体能够进行传递性推理(例如,若a > b且b > c,则a > c)以及列表链接(例如,a > b > c和d > e > f在得知c > d后迅速重组为a > b > c > d > e > f)。尽管这一领域已有长期研究,但传递性推理和快速知识重组的神经生物学机制仍然不明确。本文通过赋予神经网络以神经调制的突触可塑性(允许自我导向学习)并通过人工元学习(学习如何学习)来识别这些机制,展示了神经网络如何执行传递性推理和列表链接,并进一步表达了在人类和动物中广泛观察到的...

基于丰富归纳偏见的视觉语言模型学习

Learning with Enriched Inductive Biases for Vision-Language Models 研究背景与问题提出 近年来,视觉-语言模型(Vision-Language Models, VLMs)在计算机视觉和自然语言处理领域取得了显著进展。这些模型通过大规模图像-文本对进行预训练,能够构建统一的多模态表示空间,从而在多种下游任务中表现出色。然而,在少样本学习(few-shot learning)场景下,如何有效地调整这些模型以适应特定任务,同时保持良好的泛化能力,仍然是一个亟待解决的问题。 现有方法通常依赖于提示工程(prompt engineering)或参数高效微调(Parameter-Efficient Fine-Tuning, PEFT)策略...

基于关键点交互Transformer的结构依赖学习用于通用哺乳动物姿态估计

通用哺乳动物姿态估计的研究进展 研究背景与问题提出 在计算机视觉领域,姿态估计是一项基础且重要的任务,其目标是定位图像中目标对象的关键点位置。近年来,人类姿态估计取得了显著进展,但动物姿态估计(Animal Pose Estimation)的研究仍处于初步阶段。相比于人类姿态估计,动物姿态估计面临更大的挑战,主要体现在以下几个方面: 物种多样性:不同物种之间的外观和姿态差异巨大,例如猫科动物中的豹和家猫在外形、大小和颜色上存在显著区别。 数据稀缺性:现有的动物姿态数据集规模远小于人类姿态数据集。例如,最大的哺乳动物姿态数据集AP-10k包含约10,000张图像,而COCO数据集则包含超过200,000张标注图像。 姿态变化复杂性:动物的姿态变化范围更大,例如羚羊站立时的鼻子与眼睛距离较近,而...

Seaformer++:用于移动视觉识别的增强型轴向Transformer架构

SEAFormer++——为移动视觉识别设计的高效Transformer架构 研究背景与问题提出 近年来,计算机视觉领域经历了从卷积神经网络(CNN)到基于Transformer的方法的重大转变。然而,尽管Vision Transformer在许多任务中表现出卓越的全局上下文建模能力,其高昂的计算成本和内存需求使其难以部署在移动设备上,尤其是处理高分辨率图像时。为了满足移动设备对低延迟和高效性能的需求,研究者们提出了多种轻量化方法,例如局部注意力机制、轴向注意力(Axial Attention)和动态图消息传递等。但这些方法仍无法充分解决高分辨率输入下的高延迟问题。 针对这一挑战,Qiang Wan等人提出了Squeeze-Enhanced Axial Transformer(SEAForm...

更小但更好:用更小的大型语言模型统一布局生成

统一布局生成研究新突破:更小但更强的大语言模型 研究背景与问题提出 布局生成(Layout Generation)是计算机视觉和人机交互领域的重要研究方向,旨在通过算法自动生成符合特定需求的图形界面或排版设计。例如,科学文章、应用程序界面(App UI)、杂志页面以及幻灯片的设计都需要高效且灵活的布局生成方法。然而,传统方法通常针对单一任务或单一领域进行优化,缺乏跨任务和跨领域的通用性。随着深度学习技术的发展,基于Transformer架构的方法逐渐成为主流,但仍面临模型复杂度高、计算成本大等问题。 近年来,大语言模型(Large Language Models, LLMs)在自然语言处理(NLP)领域取得了显著进展,其强大的推理能力为解决复杂任务提供了新的可能性。然而,将LLMs应用于统一...

Moonshot:通过运动感知多模态条件实现可控视频生成和编辑

MoonShot——迈向基于运动感知多模态条件的可控视频生成与编辑 研究背景与问题提出 近年来,文本到视频扩散模型(Video Diffusion Models, VDMs)取得了显著进展,使得生成高质量、视觉吸引人的视频成为可能。然而,现有VDM大多依赖于文本条件进行生成控制,这在精确描述视觉内容方面存在局限性。具体而言,这些方法通常难以对生成视频的外观和几何结构进行精细控制,导致生成结果高度依赖随机性或偶然性。 为了解决这一问题,研究者尝试通过微调扩散模型实现个性化生成(如DreamBooth),但这种方法需要针对每个输入图像重复训练,效率低下且难以扩展到更广泛的应用场景。此外,尽管图像域中的IP-Adapter通过双交叉注意力层实现了图像与文本的联合条件控制,但直接将其应用于视频生成会...

深度伪造检测:双级适配器用于深度伪造检测

Deepfake-Adapter——一种双层适配器用于深度伪造检测 研究背景与问题 随着深度生成模型(deep generative models)的快速发展,超逼真的面部图像和视频可以轻松生成,这些内容甚至能够欺骗人类的眼睛。这种技术被滥用时,可能导致政治、娱乐和社会领域的严重虚假信息传播问题,这种威胁被称为“深度伪造”(Deepfake)。为了应对这一安全问题,许多深度伪造检测方法被提出,并在训练和测试数据来自相同操纵类型且质量良好的情况下表现出色。然而,当面对未见过或低质量的伪造样本时,这些方法的性能显著下降。这主要是因为现有的深度伪造检测方法大多仅关注局部纹理、融合边界或频率信息等低层次伪造特征,而忽略了高层次语义信息的作用。 高层次语义信息(high-level semantics...

有限数据下的图像合成:综述与分类法

图像合成在有限数据下的研究综述 研究背景与问题提出 近年来,深度生成模型(Deep Generative Models)在智能创作任务中取得了前所未有的进展,特别是在图像和视频生成、音频合成等领域。然而,这些模型的成功依赖于大量的训练数据和计算资源。当训练数据有限时,生成模型容易出现过拟合(Overfitting)和记忆化(Memorization)问题,导致生成样本的质量和多样性显著下降。这种限制对许多实际应用场景构成了挑战,例如医学影像生成、工业缺陷检测以及艺术品创作等。 为了应对这些问题,研究人员致力于开发能够在有限数据条件下生成高质量、多样化图像的新模型。尽管已有许多研究尝试解决这一问题,但目前尚缺乏系统性的综述来明确以下几点: 1. 有限数据下图像合成的定义、挑战及分类; 2. 对...

基于事件相机的自监督快门复原方法

基于事件相机的自监督快门展开方法 研究背景与问题提出 在计算机视觉领域,从滚动快门(Rolling Shutter, RS)图像中恢复无失真的全局快门(Global Shutter, GS)视频一直是一个极具挑战性的问题。RS 相机由于逐行曝光机制,在动态场景中容易产生空间扭曲(如抖动和倾斜),这在高速运动场景中尤为明显。尽管现有的方法可以通过人工假设或特定数据集的特性来纠正 RS 效应,但这些方法往往在复杂非线性运动的真实场景中表现不佳。此外,许多方法依赖于合成数据集进行训练,导致在真实场景中性能下降,即所谓的“合成到真实”差距。 为了解决这些问题,本文作者提出了一种基于事件相机的自监督学习框架——SelfUnroll,旨在通过利用事件相机的高时间分辨率信息,实现从 RS 图像到连续时间 ...