ディープニューラルネットワークを使用して人間の知覚と記憶における視覚と意味情報を解きほぐす
深層神経ネットワークを用いた人間の知覚と記憶における視覚および意味情報の区別
序論
認知科学分野では、人間が知覚および記憶の過程で人物や物体の識別をどのように行うかについての研究が続けられています。人や物の識別の成功は、知覚システムによって生成された表象を記憶に保存された表象と照合することに依存しています。しかし、これらの心理表象は外部世界の正確なコピーではなく、脳による再構築です。この再構築の内容とプロセスを理解することは長年の課題となっています。この論文は、深層神経ネットワーク(DNN)を利用して、人間が馴染みのある顔や物体を知覚し記憶する際の心理表象の内容を明らかにしようと試みています。
論文出典
この論文は、Adva Shoham、Sidan Daniel Grossbard、Or Patashnik、Daniel Cohen-Or、Galit Yovel によって執筆され、著者はすべてテルアビブ大学所属です。論文は2024年2月8日に『Nature Human Behaviour』にオンライン掲載されました。
研究背景と目的
人間の心理表象には視覚情報と意味情報が含まれています。しかし、これらの情報の貢献を区別することは困難です。なぜなら、それらは通常心理表象において混在しているからです。近年、画像やテキストをトレーニングデータとして利用する深層神経ネットワークが視覚情報や意味情報のみを生成する能力を持つことが示され、これらの情報を分離する新しい方法が提供されました。本研究は、これらの神経ネットワークを用いて、知覚および記憶における馴染みのある刺激の視覚、視覚-意味、純粋な意味情報の貢献を定量化することを目的としています。
研究方法
実験デザイン
研究では、4種類の神経ネットワークモデル:視覚モデル(VGG-16)、視覚-意味モデル(CLIP)、意味モデル(SGPT)を用いて、人間の知覚と記憶における心理表象を予測しました。実験の具体的な手順は以下の通りです:
研究対象の選定:
- 顔:20人の国際的に有名な人物(政治家やエンターテイナー)を選定。
- 物体:20個のよく知れた物体を選定。
モデルのトレーニングと調整:
- 視覚モデル (VGG-16):VGGFace2データセット上でトレーニングし、20の馴染みのあるアイデンティティに調整。
- 視覚-意味モデル (CLIP):インターネット上の4億枚の画像と説明文を用いて共同トレーニング。
- 意味モデル (SGPT):自然言語処理アルゴリズムに基づき、Wikipediaの最初の段落のテキスト説明を処理。
参加者による類似性スコア:
- 視覚的類似性:人間の参加者が顔や物体の画像に視覚的類似性スコアを付ける。
- 記憶の再構築:名前を基に顔や物体を思い出し、類似性スコアを付ける。
データ分析と幾何構築:
- コサイン距離を用いて異なる表象間の類似性を計算。
- 代表的な非類似度行列(RDMs)を構築し、t-SNEを用いて可視化。
実験プロセスの詳細
顔の表象の知覚と記憶:
- 20人の国際的に有名な政治家とエンターテイナー。
- 視覚神経ネットワークモデルをトレーニングおよび検証し、顔画像の特徴ベクトルを抽出し類似性を計算。
物体の表象の知覚と記憶:
- オブジェクト画像を選び、視覚、視覚-意味、意味神経ネットワーク下で非類似度を計算。
- 人間参加者がこれらの物体に対して視覚的記憶の類似性スコアを付け、データを統計および検証。
研究結果
顔の知覚と記憶の表象
- 知覚と記憶間の高い相関関係:参加者が生成した視覚表象は、記憶中の再構築と知覚中の表象が非常に高い相関を示しました (r = 0.77, p < 0.001)。
- 視覚と意味情報の独立した貢献:
- 視覚情報は知覚中でより大きな貢献を示しました (r = 0.37, t = 11.5, p < 0.001)。
- 意味情報は記憶中の表象に大きな貢献を示しました (r = 0.41, t = 6.42, p < 0.001)。
- 新しいモデル(CLIP)は独特の視覚-意味の貢献を示し、知覚と記憶の両方において有意な貢献をもたらしました。
物体表象の知覚と記憶
- 物体の認識と記憶の高い相関関係:物体は画像表示と再現過程において高い相関を示しました (r = 0.78, p < 0.001)。
- 三種類の情報の独立した貢献:
- 視覚、視覚-意味、および意味モデルは記憶に独立して貢献 (vgg: r = 0.15, t = 3.01, p = 0.007; clip: r = 0.21, t = 10.9, p < 0.001; sgpt: r = 0.43, t = 7.43, p < 0.001)。
結論と価値
結論
研究は、視覚、視覚-意味、および意味情報が人間の知覚と記憶における表象に独特で補完的な貢献を持つことを明らかにしました。視覚情報は知覚において主導的役割を果たし、意味情報は記憶再構築において重要です。さらに、CLIPモデルは独特の視覚-意味統合性能を示し、人間の心理表象をよりよく予測できることが示されました。
研究の意義
- 科学的価値:視覚および意味が記憶と知覚において独立してかつ相互に影響し合うことを明らかにし、現在の顔および物体認識に関する認知モデルを覆します。
- 応用価値:人間の心理表象をシミュレーションするためのアルゴリズムを提供し、インテリジェントシステムや認知トレーニングプログラムの改善に応用可能です。
研究のハイライト
- 革新性:初めてDNNを用いて視覚と意味情報の独立した貢献を全面的に分離・定量化。
- 方法論:多様なモデルを組み合わせ、多モーダル情報の心理表象への統合的貢献を検証。
これらの発見は、人間の心理表象メカニズムに対する理解を深めるだけでなく、人工知能モデルの人間行動予測能力の向上にも寄与します。さらなる研究により、これらのアルゴリズムを用いてさまざまなカテゴリや領域の心理表象を調査し、コンピューターと人間の一般知能の進展と融合を推進することが期待されます。