基于频谱-时间调制特征的双流鲁棒语音情感识别

基于频谱-时间调制特征的双流鲁棒语音情感识别研究 学术背景 语音情感识别(Speech Emotion Recognition, SER)是通过分析人类语音中的情感内容来识别情绪的技术。它在人机交互、客户服务管理系统以及医疗等领域具有广泛的应用潜力。然而,尽管基于深度学习的SER模型在受控环境中表现出色,但在真实环境中的噪声条件下,其性能显著下降。噪声(如交通噪声、风扇噪声等)会严重干扰语音信号,导致情感识别系统的准确性大幅降低。因此,开发一种在噪声环境下依然鲁棒的SER系统成为了一个重要的研究方向。 传统的SER系统通常依赖于梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients, MFCC)和梅尔频谱图等声学特征。然而,这些特征在噪声环境下容易受到干扰,...

螃蟹幽门节律在高温和高钾环境下的适应性与鲁棒性研究

螃蟹幽门节律对温度和细胞外高钾的双重扰动的适应性与鲁棒性研究 学术背景 在自然界中,动物常常同时面临多种环境扰动,这些扰动可能包括温度变化、pH值波动、盐度变化以及细胞外钾离子浓度的变化等。对于海洋生物如螃蟹(Cancer borealis)而言,这些扰动尤为常见。螃蟹的幽门节律(pyloric rhythm)是由其胃神经节(stomatogastric ganglion, STG)控制的一种节律性运动模式,用于驱动胃部肌肉的收缩。这种节律性运动对螃蟹的生存至关重要,因此研究其在多种扰动下的适应性具有重要的科学意义。 此前的研究已经表明,幽门节律对单一的环境扰动(如温度或细胞外高钾)具有一定的适应能力。然而,鲜有研究探讨这些扰动同时发生时,幽门节律的适应机制如何相互作用。为此,Margare...

低资源领域适应的神经机器翻译中的情景课程学习

Epi-Curriculum:用于低资源领域自适应的情景课程学习 研究背景与问题陈述 近年来,神经机器翻译 (Neural Machine Translation, NMT) 成为自然语言处理技术领域的标杆。然而,尽管神经机器翻译在处理大规模并行语料库任务上的表现已接近人类翻译水平,但其在低资源和新领域的表现仍然不尽如人意。这种不足主要体现在两个方面:模型对领域切换的鲁棒性差以及在目标领域小数据集条件下的适应能力较低。现有研究往往仅解决其中一个问题,比如增强领域切换的鲁棒性或提升对于新领域的适应能力,却缺乏一种能够同时解决这两个关键问题的统一解决方案。 在分析这些问题的背景下,来自University of South Florida的Keyu Chen等学者与Snap Inc.的Di Zh...

一种用于DNN生成内容的隐形且鲁棒的保护方法

深度神经网络生成内容的隐形、稳健保护方法 学术背景 近年来,随着深度学习模型在工程应用中的革命性发展和广泛应用,涌现出诸如ChatGPT和DALL⋅E 2等现象级应用,这些应用对人们的日常生活产生了深远的影响。同时,人们可以利用开源的深度学习技术创建各种内容,例如图像风格迁移和图像卡通化,这些技术被称为AI生成内容(AIGC)。在这样的背景下,基于AIGC的商业应用,如美图、Prisma和Adobe Lightroom等,其版权保护变得急迫且不可避免。然而,由于许多AIGC相关技术是开源的,使得技术娴熟的个人也能够创建类似的应用。因此,当版权纠纷出现时,对于商业公司及其产品来说,是一个巨大的挑战。 当前,一些常见的版权保护方法包括但不限于注册版权、声明版权、加密版权保护等。这些方法对于实体产...

DVMark:基于多尺度深度学习的视频水印框架

DVMark:基于多尺度深度学习的视频水印框架

DVMark:基于多尺度深度学习的视频水印框架 视频水印技术通过在覆盖视频中嵌入信息来实现数据隐藏。本文提出的DVMark模型是一种基于深度学习的多尺度视频水印解决方案,具有较高的鲁棒性和实用性,能够在保证视频质量的前提下,抵抗各种可能的失真和攻击。 背景与动机 视频水印技术涉及在覆盖视频中嵌入消息,可以是可见的也可以是不可见的。不可见水印因其不会干扰原始内容且难以被攻击者检测到而具有优势。水印可以应用于多种场景,如包含视频创建元数据、时间戳以及创作者信息等。此外,水印也广泛用于信息监控和追踪,这是因为水印即便在视频传播过程中遭受一定程度的失真和修改后仍然可以恢复。 目前,评估视频水印系统的主要因素包括不可见性(质量)、鲁棒性和有效载荷(消息比特数量)。传统的水印方法多依赖于手工设计特征,通...