人工智能-学科-FmRead学术前沿

基于频谱-时间调制特征的双流鲁棒语音情感识别研究学术背景语音情感识别（Speech Emotion Recognition, SER）是通过分析人类语音中的情感内容来识别情绪的技术。它在人机交互、客户服务管理系统以及医疗等领域具有广泛的应用潜力。然而，尽管基于深度学习的SER模型在受控环境中表现出色，但在真实环境中的噪声条件下，其性能显著下降。噪声（如交通噪声、风扇噪声等）会严重干扰语音信号，导致情感识别系统的准确性大幅降低。因此，开发一种在噪声环境下依然鲁棒的SER系统成为了一个重要的研究方向。传统的SER系统通常依赖于梅尔频率倒谱系数（Mel-Frequency Cepstral Coefficients, MFCC）和梅尔频谱图等声学特征。然而，这些特征在噪声环境下容易受到干扰，...

从认知任务中的异质神经响应推断潜在神经环路学术背景在认知任务中，大脑的高级皮层区域（如前额叶皮层，prefrontal cortex, PFC）负责整合多种感觉、认知和运动信号。然而，单个神经元的响应通常表现出复杂的异质性（heterogeneity），即它们同时对多个任务变量做出响应。这种异质性使得研究者难以从神经活动中直接推断出驱动行为的神经环路机制。传统的维度降维方法（dimensionality reduction methods）依赖于神经活动与任务变量之间的相关性，但无法揭示这些异质响应背后的神经环路连接。为了解决这一问题，Christopher Langdon和Tatiana A. Engel开发了一种新的维度降维方法——潜在环路模型（Latent Circuit Mod...

神经群体活动的时间动力学约束：脑机接口揭示的神经计算机制学术背景大脑的神经活动如何随时间演化，是理解感知、运动和认知功能的核心问题之一。长期以来，神经网络模型认为，大脑的计算过程涉及由网络连接塑造的神经活动时间进程。这一观点提出了一个关键预测：神经活动的时间进程应该是难以违反的。然而，这一预测在实际的生物学神经网络中是否成立，尚未得到直接验证。为了回答这一问题，研究人员利用脑机接口（Brain-Computer Interface, BCI）技术，挑战猴子违反其运动皮层中自然出现的神经群体活动时间进程，包括尝试以时间反转的方式遍历这些活动进程。通过这一实验，研究团队试图验证神经活动的时间进程是否反映了底层网络的计算机制，并探讨这些进程是否可以被人为改变。论文来源这篇论文由 Emily...

神经机制与关系学习：神经网络中的快速知识重组背景介绍人类和动物具备一种惊人的能力，能够从有限的经验中学习项目之间的关系（如刺激、物体和事件），从而实现结构化泛化和快速信息整合。这种关系学习的一个基本类型是顺序学习，它使得个体能够进行传递性推理（例如，若a > b且b > c，则a > c）以及列表链接（例如，a > b > c和d > e > f在得知c > d后迅速重组为a > b > c > d > e > f）。尽管这一领域已有长期研究，但传递性推理和快速知识重组的神经生物学机制仍然不明确。本文通过赋予神经网络以神经调制的突触可塑性（允许自我导向学习）并通过人工元学习（学习如何学习）来识别这些机制，展示了神经网络如何执行传递性推理和列表链接，并进一步表达了在人类和动物中广泛观察到的...

Learning with Enriched Inductive Biases for Vision-Language Models 研究背景与问题提出近年来，视觉-语言模型（Vision-Language Models, VLMs）在计算机视觉和自然语言处理领域取得了显著进展。这些模型通过大规模图像-文本对进行预训练，能够构建统一的多模态表示空间，从而在多种下游任务中表现出色。然而，在少样本学习（few-shot learning）场景下，如何有效地调整这些模型以适应特定任务，同时保持良好的泛化能力，仍然是一个亟待解决的问题。现有方法通常依赖于提示工程（prompt engineering）或参数高效微调（Parameter-Efficient Fine-Tuning, PEFT）策略...

通用哺乳动物姿态估计的研究进展研究背景与问题提出在计算机视觉领域，姿态估计是一项基础且重要的任务，其目标是定位图像中目标对象的关键点位置。近年来，人类姿态估计取得了显著进展，但动物姿态估计（Animal Pose Estimation）的研究仍处于初步阶段。相比于人类姿态估计，动物姿态估计面临更大的挑战，主要体现在以下几个方面：物种多样性：不同物种之间的外观和姿态差异巨大，例如猫科动物中的豹和家猫在外形、大小和颜色上存在显著区别。数据稀缺性：现有的动物姿态数据集规模远小于人类姿态数据集。例如，最大的哺乳动物姿态数据集AP-10k包含约10,000张图像，而COCO数据集则包含超过200,000张标注图像。姿态变化复杂性：动物的姿态变化范围更大，例如羚羊站立时的鼻子与眼睛距离较近，而...

SEAFormer++——为移动视觉识别设计的高效Transformer架构研究背景与问题提出近年来，计算机视觉领域经历了从卷积神经网络（CNN）到基于Transformer的方法的重大转变。然而，尽管Vision Transformer在许多任务中表现出卓越的全局上下文建模能力，其高昂的计算成本和内存需求使其难以部署在移动设备上，尤其是处理高分辨率图像时。为了满足移动设备对低延迟和高效性能的需求，研究者们提出了多种轻量化方法，例如局部注意力机制、轴向注意力（Axial Attention）和动态图消息传递等。但这些方法仍无法充分解决高分辨率输入下的高延迟问题。针对这一挑战，Qiang Wan等人提出了Squeeze-Enhanced Axial Transformer（SEAForm...

统一布局生成研究新突破：更小但更强的大语言模型研究背景与问题提出布局生成（Layout Generation）是计算机视觉和人机交互领域的重要研究方向，旨在通过算法自动生成符合特定需求的图形界面或排版设计。例如，科学文章、应用程序界面（App UI）、杂志页面以及幻灯片的设计都需要高效且灵活的布局生成方法。然而，传统方法通常针对单一任务或单一领域进行优化，缺乏跨任务和跨领域的通用性。随着深度学习技术的发展，基于Transformer架构的方法逐渐成为主流，但仍面临模型复杂度高、计算成本大等问题。近年来，大语言模型（Large Language Models, LLMs）在自然语言处理（NLP）领域取得了显著进展，其强大的推理能力为解决复杂任务提供了新的可能性。然而，将LLMs应用于统一...

从空间特征重要性视角提升分布外检测性能的研究研究背景与问题提出在深度学习模型的实际应用中，确保模型在面对未知类别的输入时能够可靠地拒绝预测，是保障系统安全性和鲁棒性的关键。这一需求催生了分布外检测（Out-of-Distribution Detection, OOD Detection）的研究领域。OOD检测旨在区分模型训练数据分布范围内的样本（即分布内样本，In-Distribution, ID）和超出该范围的样本（即分布外样本，Out-of-Distribution）。近年来，研究者提出了多种检测准则，如MSP（Maximum Softmax Probability）、Energy Score、GradNorm等，以构建模型的拒绝区域，并将落入该区域的样本识别为分布外样本。然而，现...

MoonShot——迈向基于运动感知多模态条件的可控视频生成与编辑研究背景与问题提出近年来，文本到视频扩散模型（Video Diffusion Models, VDMs）取得了显著进展，使得生成高质量、视觉吸引人的视频成为可能。然而，现有VDM大多依赖于文本条件进行生成控制，这在精确描述视觉内容方面存在局限性。具体而言，这些方法通常难以对生成视频的外观和几何结构进行精细控制，导致生成结果高度依赖随机性或偶然性。为了解决这一问题，研究者尝试通过微调扩散模型实现个性化生成（如DreamBooth），但这种方法需要针对每个输入图像重复训练，效率低下且难以扩展到更广泛的应用场景。此外，尽管图像域中的IP-Adapter通过双交叉注意力层实现了图像与文本的联合条件控制，但直接将其应用于视频生成会...

基于频谱-时间调制特征的双流鲁棒语音情感识别

从认知任务中的异质神经响应推断潜在神经环路

神经群体活动的时间动态约束

神经网络中关系学习与快速知识重组的神经机制

基于丰富归纳偏见的视觉语言模型学习

基于关键点交互Transformer的结构依赖学习用于通用哺乳动物姿态估计

Seaformer++：用于移动视觉识别的增强型轴向Transformer架构

更小但更好：用更小的大型语言模型统一布局生成

从空间特征重要性角度提升分布外检测

Moonshot：通过运动感知多模态条件实现可控视频生成和编辑