Moonshot:通过运动感知多模态条件实现可控视频生成和编辑

MoonShot——迈向基于运动感知多模态条件的可控视频生成与编辑 研究背景与问题提出 近年来,文本到视频扩散模型(Video Diffusion Models, VDMs)取得了显著进展,使得生成高质量、视觉吸引人的视频成为可能。然而,现有VDM大多依赖于文本条件进行生成控制,这在精确描述视觉内容方面存在局限性。具体而言,这些方法通常难以对生成视频的外观和几何结构进行精细控制,导致生成结果高度依赖随机性或偶然性。 为了解决这一问题,研究者尝试通过微调扩散模型实现个性化生成(如DreamBooth),但这种方法需要针对每个输入图像重复训练,效率低下且难以扩展到更广泛的应用场景。此外,尽管图像域中的IP-Adapter通过双交叉注意力层实现了图像与文本的联合条件控制,但直接将其应用于视频生成会...

虚拟身体增强的被动诱导运动感知对脊髓反射的认知影响

视觉诱导的动觉错觉对脊髓反射的调节作用:一项神经科学研究 学术背景 在神经科学和康复医学领域,动觉错觉(kinesthetic illusion)是一种通过视觉刺激诱导的虚拟运动感知现象。这种现象在临床上已被证明能够有效抑制痉挛(spasticity),尤其是在中风患者的康复治疗中具有潜在的应用价值。然而,尽管动觉错觉的临床效果已被初步验证,其背后的神经机制尚不明确。特别是,动觉错觉是否能够通过中枢神经网络的激活影响脊髓水平的神经回路,仍然是一个未解之谜。 本研究旨在探讨视觉诱导的动觉错觉(kinesthetic illusion induced by visual stimulation, KinVIS)是否能够通过中枢神经网络的激活影响脊髓反射回路,特别是通过调节脊髓中的交互抑制(rec...

一种仿生视觉检测模型:基于分数脉冲神经元电路的事件驱动LGMDs实现

一种仿生视觉检测模型:基于分数脉冲神经元电路的事件驱动LGMDs实现

学术报道:基于分数脉冲神经元电路的仿生视觉检测模型研究 在智能自动驾驶和无人驾驶飞行器等领域中,迅速有效地预测碰撞并触发避让行为具有非常重要的应用价值。蚱蜢的巨型运动探测器 (LGMDs) 能够在碰撞发生前有效地预测碰撞,并触发避让。这种能力使得LGMD成为设计碰撞避让人工视觉系统的理想模型。不同于传统CMOS摄像机,事件相机(DVS)能够模拟生物视觉系统中的光感受器,从底层仿真LGMD系统的分野,提供高时间分辨率、高动态范围和最小运动模糊等优势。 背景及意义 本次研究的作者为Yabin Deng、Haojie Ruan、Shan He、Tao Yang和Donghui Guo,分别来自厦门大学和福州大学,并在IEEE Transactions on Biomedical Engineeri...