k-emophone: 実験中の感情、ストレス、および注意ラベルを含むモバイルおよびウェアラブルデータセット

科学データレポート | K-emophone: 場所特定の感情、ストレス、注意力ラベルを含むモバイルおよびウェアラブルデータセット

背景紹介

低コストのモバイルおよびウェアラブルセンサーの普及に伴い、多くの研究がこれらのデバイスを利用して人間の精神的健康、生産性、行動パターンを追跡および分析しています。しかし、これまでのところ、実験室環境で収集されたデータセットは発展してきた一方で、実世界のシナリオで収集された感情、ストレス、注意力などのラベルを含むデータセットが不足しており、感情計算(Affective Computing)および人間とコンピュータのインタラクション(Human-computer Interaction)分野の研究進展を制限しています。

研究の出所

本研究は、Soowon Kang、Woohyeok Choi、Cheul Young Park、Narae Cha、Auk Kim、Ahsan Habib Khandoker、Leontios Hadjileontiadis、Heepyung Kim、Yong Jeong、Uichin Leeらによって行われました。彼らはそれぞれ韓国科学技術院、Upstage AI研究所、Libl、江原国立大学、カリファ大学、アリストテレス大学に所属しています。この研究は2023年の《Scientific Data》誌に掲載されました。

研究プロセス

データセットの収集方法

K-emophoneデータセットは、77名の学生参加者を対象に7日間にわたって実世界の多モーダルデータを収集しました。研究全体は、事前調査、実際のデータ収集、事後調査の三つの主要な段階で構成されます。

事前調査

データ収集の前に、一連の事前質問票を通じて参加者の基本的な人口情報と長期間変わらない性格特性を取得しました。たとえば、Big Five Inventory(BFI)を使用して、参加者の開放性、誠実性、神経症傾向、外向性および親和性を測定しました。韓国の文脈に適応するために、韓国語に翻訳され短縮されたBFI、すなわちK-BFI 15質問票を使用しました。

実際のデータ収集

実際のデータ収集はExperience Sampling Method(ESM)に基づいており、スマートフォンアプリPacoを使用して質問票をデザインし、参加者に通知を送信しました。参加者は10:00から22:00までの間に16回のランダムな間隔でポップアップ通知を受け取り、リアルタイムの感情、ストレス、注意力などを報告しました。

ESMデータの収集に加えて、 AndroidスマートフォンとMicrosoft(MS)Band 2スマートウォッチを使用してさまざまなセンサーデータを収集しました。これには、環境光、紫外線暴露、心拍数、皮膚温度などの生理信号、加速度計データ、歩数、歩行距離などの行動信号が含まれます。

このデータセットはセンサーデータだけでなく、参加者の日々の自己報告データも収集し、感情とストレスの監視においてより包括的な次元を導入しました。

事後調査

データ収集終了後、研究チームは事後調査を実施し、 感知されたストレス尺度 (Perceived Stress Scale, PSS)、患者健康質問票(Patient Health Questionnaire, PHQ)、一般健康質問票(General Health Questionnaire, GHQ)などのツールを使用して、データ収集期間中の参加者の精神的健康状態を評価しました。

データ処理とプライバシー保護

研究チームは収集されたデータを徹底的にクリーンアップし、合計で5,753件のアンケート回答および12.7GBの多モーダルセンサーデータを受け取りました。特定の参加者のデータに顕著な問題があったため、最終的なデータセットはスクリーニングおよびプライバシー保護措置(例:暗号化およびノイズ追加)を経て、最終的に有効な5,582件のアンケート回答および11.7GBのセンサーデータが保持されました。

主要な結果

ここでは、機械学習の方法を用いてデータセットの技術的妥当性を検証しました。研究は感情、ストレス、タスクの中断などの状態を予測するモデルを開発し、モデル内で最も重要な特徴をさらに分析しました。ランダムフォレストやXGBoostなどのアルゴリズムを使用して構築したモデルは、一部の次元でベースラインモデルよりも優れた予測性能を示し、全体として良好な予測能力を示しました。

データの特徴と技術的検証

多モーダルセンサーデータから特徴を抽出しました。たとえば、現在のセンサー読み取り値、最近のセンサー読み取り値の変化時間、特定の時間枠内の読み取り値の分布などです。もう一つの重要な特徴は、参加者の可能な高感情状態であり、これはモデルで感情、ストレスなどの状態を予測する際に重要な役割を果たしました。

インタラクション検出においては、多様な機械学習アルゴリズムを使用して訓練と検証を行い、交差検証を通じてモデルのパフォーマンスを評価しました。結果として、XGBoostアルゴリズムを使用したモデルは、valence、arousal、stress、task disturbanceにおいてバランスの取れたパフォーマンスを示し、このデータセットが感情認識および注意管理において有望な可能性を示しました。

結論および価値

K-emophoneデータセットは、感情計算研究分野を拡大する大きな潜在能力を示しています。実世界の環境で収集された多モーダルデータを通じて、精神的健康から生産性に至るまで、一連の価値あるデータソースを提供しています。今後、このデータセットは精神的健康、感情計算、注意力管理などの研究進展において重要な役割を果たし、感情検出と日常生活行動分析を組み合わせる新たな方法を提供すると期待されます。

研究のハイライト

  1. 多モーダルデータ:本研究は多くのセンサーデータとESM自己報告データを効果的に活用し、感情、ストレス、および行動に関するより包括的な情報を提供します。
  2. 実世界データ:データ収集は参加者の日常生活において行われ、実世界のアプリケーションシナリオに近く、データの外部妥当性が向上しました。
  3. 分野横断的な応用:このデータセットは感情計算から注意力管理に至るまで幅広く応用でき、これらの分野の研究進展と応用開発を促進します。

使用上の注意と限界

コードの利用可能性

研究ではデータ収集用のAndroidアプリを開発し、データ探索と機械学習のコードを公開しました。これにより包括的な研究リソースを提供しています。

潜在的な応用

研究チームはK-emophoneデータセットが他の研究者に感情と認知状態を理解する手助けとなり、新たなデータ駆動型アプリケーション(感情検出、ストレス識別など)の開発を促進し、精神的健康と生産性のさらなる研究を推進することを期待しています。

限界

Microsoft Band 2スマートウォッチが利用できなくなったため、将来の研究では他のセンサーデバイスを組み合わせて同様のデータ収集を行う必要が生じる可能性があります。また、参加者がデータ収集時に完全にガイドラインを遵守できない場合があり、データの品質が一部の結果に影響を与える可能性があります。

これらの限界にもかかわらず、このデータセットの実際の使用とさらなる検証は、感情および注意力を理解し管理する上での良好な応用前景を示しています。