分享自:

EmoPIA:一个用于情感识别和基于情感的音乐生成的多模态流行钢琴数据集

期刊:Proc. of the 22nd Int. Society for Music Information Retrieval Conf.

Emopia:针对情感识别与基于情感的音乐生成的多模态流行钢琴数据集

在2021年第22届国际音乐信息检索学会会议(ISMIR)上,一项由Hsiao-Tzu Hung、Joann Ching、Seungheon Doh、Nabin Kim和Yi-Hsuan Yang等研究人员联合完成的工作吸引了学术界的关注。这项研究由台湾中央研究院、台湾大学计算机科学与信息工程系、韩国KAIST文化科技研究生院,以及美国佐治亚理工学院的研究团队共同完成,标题为“Emopia: A Multi-modal Pop Piano Dataset for Emotion Recognition and Emotion-Based Music Generation”,并发表于此次会议的论文集中。

研究背景

音乐在表现与传递情感方面的独特作用使它成为音乐信息检索(Music Information Retrieval, MIR)领域的重要研究方向。近年来,研究者们通过分析音乐的情感成分展开了情感分类、标注和生成等多项任务。然而,大多数现有的公共情感音乐数据集只包含音频数据,缺乏符号化音乐(如MIDI格式)数据。这使得研究者无法在这些数据上进行符号领域(Symbolic Domain)音乐分析和生成。

符号化音乐数据集的需求在过去几年中急速上升,尤其是在ISMIR的相关研究中愈发突出。符号化音乐能够分解音乐创作层面的具体内容,例如音符排列、节奏、和弦和结构,从复杂的音质和多乐器演奏中剥离出来,更易于进行机器学习分析。然而,现有提供符号化音乐的情感数据集不仅数量稀少,其数据规模也相对较小。另一方面,大多音频数据集包括多乐器的音乐,这使得自动的钢琴转录算法难以生成高质量的MIDI数据。

综上所述,本研究提出了一个新的情感标注流行钢琴音乐数据集Emopia,专注于符号音乐领域和音乐情感的多样化研究,旨在弥补这一领域的研究空白。


数据集构建过程

1. 数据来源与选曲标准:
Emopia的曲目来源包括YouTube上高音质的钢琴作品,这些作品质量过硬且涵盖多种情感表现。选曲范围包括日本动漫、韩国及西方流行歌曲翻弹、电影原声以及个人钢琴创作作品。为了确保在情感一致的前提下选取有效的音乐片段,研究者使用了Sonic Visualizer工具,通过手动分析将每首曲目划分为具有情感一致性的短片段。

2. 情感标注:
Emopia采用了Russell情感圆模型的四象限(Russell’s Model of Affect)作为情感标注维度,以“高愉悦—高激动”(HVHA)到“低愉悦—低激动”(LVLA)为四大情感类别。情感的标注由论文的四位作者完成,他们来自相同的文化背景,并共同讨论与统一标注标准。总共标注了387首歌曲包含的1,087个短片段。

3. 自动化转录:
研究团队使用了由Kong等人提出的先进钢琴转录模型,生成音频片段对应的高分辨率MIDI谱。这种方式减少了人工转录的冗杂工作,同时也对某些带有异常声音效果的音频进行了过滤。

4. 数据预处理与符号化编码:
为便于机器学习模型的建模,该数据集提供三种基于事件的MIDI编码方式:MIDI-like表示、REMI(用于节拍控制)表示,以及Compound Word Transformer表示(添加了情感标签作为输入条件)。这些编码方法各自具有特定优势,适用于不同的研究需求。


数据集特性分析

Emopia包含四类情感标注信息,并通过中值密度、音符长度和音符力度特性进行了全面分析。分析表明,音乐的激动维度(Arousal)与音符密度和力度成正相关,而低激动音乐往往包含更长的音符。此外,音乐的愉悦维度(Valence)与调式分布密切相关,表现在高愉悦音乐更多使用大调,而低愉悦音乐倾向于小调调式。

同时,通过统计Emopia四象限情感区域的音符密度与多调性分布情况,数据集的平衡性和多样性也得到了验证。


数据集的应用案例与研究验证

研究者使用Emopia数据集在情感分类和基于情感的符号音乐生成任务中进行了尝试性研究。

1. 音乐情感分类任务: - 符号数据分类: 使用MIDI-like和REMI数据表示分别训练了一种基于嵌入学习的LSTM-ATTN深度学习模型,分类准确率最高为68.4%。 - 音频分类: 使用音频特征与深度残差网络分别进行分析,分类准确率略低于符号数据分类的结果,但同样表明数据特性支持可靠的情感分类研究。

2. 基于情感的符号音乐生成:
基于Compound Word Transformer和LSTM+GA(遗传算法)模型,研究人员探索了如何通过条件生成方式控制输出音乐的情感属性。生成结果在多项主观评价指标中表明,预训练和输入情感标签的Transformer生成模型在生成听感丰富且符合目标情感的音乐片段上表现更优。


研究结论与未来展望

此研究通过Emopia数据集的构建,为音乐情感的研究提供了一个独特的符号化、多模态的资源,使其在情感标注、符号音乐生成的多个方向上展现潜力。Emopia的研究意义不仅在于填补了音乐情感数据集的符号化空白,更使得音乐生成研究迈向了精准情感控制的新维度。

研究团队将数据集与相关代码在Zenodo和GitHub平台上公开(需注意版权问题),期望未来能进一步验证数据和模型在MIR领域的推广性。同时,未来的研究方向可能包括更深层次的情感特征挖掘,以及结合其他先进生成技术(如GAN)的尝试。

通过Emopia的发布与研究者们的持续努力,我们有理由相信,这一资源将极大推动音乐信息检索与生成领域的情感研究进程。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com