k-emophone: 包含情绪、压力和注意力标签的移动和可穿戴数据集
科学数据报道 | K-emophone: 一种带有原地情绪、应激和注意力标签的移动和可穿戴数据集
背景介绍
随着低成本移动和可穿戴传感器的普及,许多研究已经利用这些设备来跟踪和分析人类的心理健康、生产力以及行为模式。然而,迄今为止,尽管在实验室环境下采集的数据集已有所发展,仍存在缺少在真实世界情境中采集到情绪、应激和注意力等标签的数据集,这限制了情感计算 (Affective Computing) 和人机交互 (Human-computer Interaction) 领域的研究进展。
研究来源
本文的研究由Soowon Kang、Woohyeok Choi、Cheul Young Park、Narae Cha、Auk Kim、Ahsan Habib Khandoker、Leontios Hadjileontiadis、Heepyung Kim、Yong Jeong和Uichin Lee等人完成。他们分别来自韩国科学技术院、Upstage AI研究所、Libl、江原国立大学、哈利法大学和亚里士多德大学。该研究发表于2023年的《Scientific Data》期刊。
研究流程
数据集收集方法
K-emophone数据集在77名学生参与者中进行了为期七天的真实世界多模态数据采集。整个研究包括前调查、实际数据收集和后调查三个主要阶段。
前调查
研究在数据收集前通过一系列事前问卷获取了参与者的基础人口信息和长期不变的个性特征。例如,使用大五人格量表 (Big Five Inventory, BFI) 测量参与者的开放性、尽责性、神经质、外向性和随和性。为了适应韩国环境,研究使用了经过韩文翻译并缩短版的BFI,即K-BFI 15问卷。
实际数据收集
实际数据收集以经验采样法 (Experience Sampling Method, ESM) 为基础,采用智能手机应用Paco设计问卷并向参与者发出通知。参与者在10:00到22:00内接收到16次随机间隔弹出的提醒,要求其报告实时情绪、应激、注意力等情况。
除了ESM数据收集,研究还通过Android智能手机和微软(MS) Band 2智能手表采集了多种传感器数据。其中包括环境亮度、紫外线暴露、心率、皮肤温度等生理信号,以及加速度计数据、步数和行走距离等行为信号。
该数据集不仅收集了传感器数据,还采集了参与者每天的自我报告数据,在对情绪和应激的监控中引入了更全面的维度。
后调查
数据采集结束后,研究团队进行了后调查,使用了感知应激量表 (Perceived Stress Scale, PSS)、患者健康问卷 (Patient Health Questionnaire, PHQ)、一般健康问卷 (General Health Questionnaire, GHQ) 等工具评估参与者在数据采集期间的心理健康状况。
数据处理与隐私保护
研究团队对采集到的数据进行了全面清理,总共收到了5,753份问卷响应和12.7GB的多模态传感器数据。由于个别参与者的数据存在显著问题,最终的数据集经过筛选和隐私措施处理,例如加密和添加噪声,最终保留了5,582份有效问卷响应和11.7GB的传感器数据。
主要结果
这里通过机器学习方法验证了数据集的技术性。研究开发了模型来预测情绪、应激和任务中断等状态,进一步分析了模型中最重要的特征。使用随机森林和XGBoost等算法建立的模型,其预测性能在一些维度上超过了基准模型,虽然仍然具有挑战,但整体上显示出良好的预测能力。
数据特征与技术验证
对多模态传感器数据进行了特征提取,例如,当前的传感器读数、最近一次传感器读数变化的时间、特定时间窗口内读数的分布等。另一个重要特征是参与者可能的高情绪状态,这在模型预测情绪、应激等状态时起到了关键作用。
在交互检测中,采用多种机器学习算法进行训练和验证,通过交叉验证评价模型表现。结果表明,使用XGBoost算法的模型在valence、arousal、stress和task disturbance上的表现均衡,显示出数据集用于情感识别和注意力管理的潜力。
结论及价值
K-emophone数据集展示了其扩大情感计算研究领域的巨大潜力。通过在真实世界环境中采集的多模态数据,该研究提供了从心理健康到生产力的一系列有价值的数据源。可以预见,这种数据集将在未来的心理健康、情感计算、注意力管理等研究中发挥重要作用,为将情绪探测与日常生活行为分析结合起来提供了新途径。
研究亮点
- 多模态数据:该研究充分利用多种传感器数据和ESM自我报告数据,提供更全面的情绪、应激和行为信息。
- 真实世界数据:数据采集在参与者的日常生活中进行,更接近真实世界的应用情境,增加了数据的外部效度。
- 跨领域应用:该数据集可以广泛应用于从情感计算到注意力管理的多个领域,推动了这些领域的研究进展和应用开发。
使用说明与局限性
代码可用性
研究开发了Android应用用于数据采集,同时发布了数据探索与机器学习代码,提供了全面的研究资源。
潜在应用
研究团队希望K-emophone数据集能帮助其他研究者理解情感和认知状态,开发新的数据驱动应用,如情绪检测、应激识别等,推动心理健康和生产力的进一步研究。
局限性
由于微软Band 2智能手表不再可用,未来研究可能需要结合其他传感设备来继续类似的数据采集。此外,参与者可能在数据采集时无法完全遵循指引,数据质量可能对部分结果产生影响。
尽管存在一定局限,该数据集的实际使用和进一步验证表明其在理解和管理情感及注意力方面具有良好的应用前景。