オンライン注意力デコーディングのためのドメイン逆学習を用いた畳み込みニューラルネットワークに基づく対被験者間脳 - コンピュータインターフェース

オンライン注意力デコーディングのためのドメイン逆学習を用いた畳み込みニューラルネットワークに基づく対被験者間脳 - コンピュータインターフェース

跨主体脑机接口:基于卷积神经网络的领域对抗训练实现实时注意力解码 学术背景 注意解読は私たちの日常生活において極めて重要な役割を果たしており、それを脳波(EEG)に基づいて実現することが広く注目されています。しかし、EEG信号の個体間の顕著な差異により、各個人ごとに汎用モデルを訓練するのは実際には困難です。したがって、本論文では、この課題を解決するためのエンドツーエンドのブレイン・コンピュータ・インタフェース(BCI)フレームワークを提案します。特に、時間と空間の1次元畳み込みニューラルネットワーク(1D CNN)およびドメイン・アドバーサリアル・トレーニング(Domain-Adversarial Training)戦略を利用します。 従来の注意解読方法は、通常、線形判別分析(LDA)やサポ...

移動障害の定量化と診断

背景と研究動機 パーキンソン病(Parkinson’s Disease, PD)は神経変性疾患であり、主に患者の運動能力に影響を与え、震え、運動の遅れ、四肢の硬直、歩行バランスの問題を引き起こす。この運動障害は患者の独立した生活能力と生活の質に重大な影響を与える。統計によると、2030年までに、アメリカだけで約120万人がパーキンソン病にかかると予想され、世界的には患者数が1000万人を超える。したがって、患者の運動障害を正確に評価し診断する方法を見つけることは急務となっている。 現存するPDの重症度評価方法は主に臨床医の主観的な観察と経験に依存しており、患者が実験室や診療所で特定の動作を行うことによって評価される。この方法は人為的な主観的要因の影響を受けるばかりでなく、制御された環境での観...

生体模倣型視覚検出モデル:分数発火ニューロン回路を用いたイベント駆動型LGMDsの実装

生体模倣型視覚検出モデル:分数発火ニューロン回路を用いたイベント駆動型LGMDsの実装

学術報告:分数スパイキングニューロン回路に基づく生体模倣視覚検出モデルの研究 スマート自動運転や無人飛行機の分野で、迅速かつ効果的に衝突を予測し回避行動をトリガーすることは非常に重要な応用価値を持っています。イナゴの巨大運動探知ニューロン(LGMDs)は衝突が発生する前に効果的に衝突を予測し、回避行動をトリガーします。この能力により、LGMDは衝突回避人工視覚システムの設計に理想的なモデルとなります。従来のCMOSカメラとは異なり、イベントカメラ(DVS)は生物の視覚システムの光受容体を模倣し、LGMDシステムの分野を低レベルでシミュレートし、高時間分解能、高動的範囲、および最小の動きぼけなどの利点を提供します。 背景と意義 今回の研究は、厦門大学のYabin Deng、Haojie Rua...

360° 画像における物体検出の視野IoU

FOV IoUを利用した360°画像における物体検出 360°カメラは近年、仮想現実、自動運転、安全監視などの多くの分野で広く利用されています。360°画像データの増加に伴い、特に物体検出のニーズも高まっています。従来の方法では360°画像処理に不十分であるとして、Miao Cao、Satoshi Ikehata、Kiyoharu Aizawaの研究者らは、360°画像における物体検出の効果を改善するために、視野IoU(Field-of-View Intersection over Union、略称FOV-IoU)と360augmentationの二つの基本技術を提案しました。 背景と研究動機 現代のほとんどの物体検出ニューラルネットワークは透視画像用に設計されていますが、等距離長方形投影(...

dvmark:ビデオウォーターマーキングのための深層多尺度フレームワーク

dvmark:ビデオウォーターマーキングのための深層多尺度フレームワーク

DVMark:多尺度深層学習に基づくビデオ透かしフレームワーク ビデオ透かし技術は、ビデオに情報を埋め込むことでデータの隠蔽を実現します。本論文で提案するDVMarkモデルは、多尺度深層学習に基づくビデオ透かしのソリューションであり、高い堅牢性と実用性を備えています。ビデオの品質を維持しながら、さまざまな失真や攻撃に対抗することができます。 背景と動機 ビデオ透かし技術は、メッセージをビデオに埋め込むことで、視覚的に見えるものと見えないものがあります。見えない透かしは、オリジナルの内容を邪魔しないため、攻撃者に検知されにくいという利点があります。透かしは、ビデオのメタデータ、タイムスタンプ、作者情報など、さまざまなシーンで利用されます。また、透かしは情報の監視や追跡にも広く利用されています。...

セマンティックセグメンテーションのためのスタック型デコンボリューションネットワーク

セマンティックセグメンテーションのためのスタック型デコンボリューションネットワーク

セマンティックセグメンテーションのためのスタック反畳み込みネットワーク はじめに セマンティックセグメンテーションはコンピュータビジョン分野における重要なタスクであり、画像の各ピクセルを分類してそのカテゴリを予測することを目指しています。しかし、既存の完全畳み込みネットワーク(Fully Convolutional Networks, FCNs)は、空間解像度の処理において制限があり、物体の境界がぼやけたり小さな物体が見逃されたりする問題があります。これらの問題を解決するために、本論文ではセマンティックセグメンテーションの効果を向上させるために、スタック反畳み込みネットワーク(Stacked Deconvolutional Network, SDN)を提案します。 研究背景 深層畳み込み神経...

FP-AGE:野生環境における顔の年齢推定のための顔解析注意の活用

FP-AGE:野生環境における顔の年齢推定のための顔解析注意の活用

FP-Age:顔解析注意メカニズムを利用した自然環境における顔年齢推定 研究背景 顔画像での年齢推定は、計算機視覚における重要なタスクです。それは法医学、セキュリティ、健康福祉、ソーシャルメディアなど幅広い実際の応用において大きな可能性を秘めています。しかし、頭部の姿勢、顔の表情そして遮蔽など多様な要因の存在により、深層学習モデルの顔年齢推定分野での性能はまだ向上の余地があります。特に、自然環境(”in-the-wild”)の顔画像においてこれらの問題は一層顕著です。異なる条件下でのモデルのロバスト性と精度を向上させるため、著者は顔の意味情報を年齢推定プロセスに組み込む新しい方法を提案しました。これにより、モデルが最も情報量の多い顔領域に効果的に注目できるようになります。 研究者と発表情報 ...

TGFuse:トランスフォーマと生成対向ネットワークに基づく赤外線および可視画像融合アプローチ

TGFuse:トランスフォーマと生成対向ネットワークに基づく赤外線および可視画像融合アプローチ

TGFuse:Transformerと生成対抗ネットワークに基づく赤外線と可視光画像の融合方法 背景紹介 イメージング機器と分析方法の発展に伴い、多環境ビジュアルデータが急速に出現し、多くの実際の応用を持っています。これらの応用の中で、画像融合は多環境データの情報関連を人間の目で理解するのに重要な役割を果たしています。特に赤外線と可視光画像の融合は、軍事、安全、視覚追跡などの分野で重要な応用があります。このため、画像融合任務の重要な一環となっています。自然かつ効果的な画像融合アルゴリズムを設計することができれば、全体的な画像の知覚を向上させ、複雑なシーンの融合要求に適応することができます。しかし、既存の畳み込みニューラルネットワーク(CNN)ベースの融合方法は、遠距離依存性を直接無視してしま...

監督なしの時間的一致性学習を用いた統一的なビデオオブジェクト除去

監督なしの時間的一致性学習を用いた統一的なビデオオブジェクト除去

ビデオオブジェクトの一貫性削除における非監督型時間一致性学習 研究背景と動機 ビデオ編集と修復の分野において、ビデオオブジェクト削除(Video Object Removal)は重要なタスクです。その目標は、ビデオ内の目的のオブジェクトを消去し、合理的な内容で穴を埋めることです。既存のソリューションは主に2つのサブタスクに分かれます:(1) マスク追跡(Mask Tracking)と (2) ビデオ補完(Video Completion)。しかし、これらは通常独立した問題と見なされ、それぞれ別個に処理されます。このような分割はシステムを過度に複雑にし、複数のモデルの協同作業が必要となり、トレーニングとデプロイの難易度を増し、実際の応用に不利です。 論文は、マスク追跡とビデオ補完がピクセルレベ...

CLASH: 歩行認識のためのニューラルアーキテクチャ検索を使った補完学習

CLASH: 歩行認識のためのニューラルアーキテクチャ検索を使った補完学習

CLASH:補完学習とニューラルアーキテクチャ検索に基づく歩容認識フレームワーク 研究背景 歩容認識は、個人の歩行パターンを通じて身元を識別するバイオメトリクス技術である。この技術は、遠距離から個人の協力を必要とせずに行うことができるため、セキュリティチェック、ビデオ検索、身元識別などの分野で広く応用されている。しかし、人影の輪郭に基づく識別方法にはいくつかの問題がある。二値化されたスパースな境界表現は豊富な時空間情報を欠いており、輪郭の大部分のピクセルが歩容パターンに対して敏感ではない。このため、識別のロバスト性を維持しつつ、歩容パターンに対する感度を高めるために、本文ではニューラルアーキテクチャ検索に基づく補完学習(Complementary Learning with Neural A...