複雑なシステムのシミュレーションの精度の高い代替モデルの効率的な学習

この研究では、複雑なシステムを正確にシミュレートできる代理モデルを効率的に構築するためのオンライン学習手法が提案されています。この手法には、以下の3つの主要な構成要素があります。 新しい訓練およびテストデータを生成するためのサンプリング戦略 訓練データから候補の代理モデルを生成するための学習戦略 テストデータ上での候補の代理モデルの有効性を評価するための検証指標 この論文では、著者はRadial Basis Function(RBF)補間を代理モデルの応答面として使用しています。このオンライン手法は、代理モデルが応答面のすべてのローカル極値点(端点を含む)を含むことを保証することを目的としており、代理モデルのパフォーマンスが有効性の閾値を下回る場合に再訓練する連続的な検証と更新のメカニズムを...

大規模言語モデル(LLM)の道徳的および法的推論の心理を探る

現在、大規模言語モデル(LLM)は、さまざまな分野で専門家レベルのパフォーマンスを発揮しており、その内的推論プロセスに強い関心が持たれています。LLMがこれらの驚くべき結果を生み出すメカニズムを理解することは、将来の人工知能エージェントの発展と、それらを人間の価値観と一致させることの両方に重要な意味を持ちます。しかしながら、既存のLLMのアーキテクチャでは、その内的プロセスを説明することが非常に難しくなっています。そのため、研究者は心理学研究で一般的に使用される手法を借用して、LLMの推論パターンを探索し始め、「機械心理学」という新しい研究分野が生まれました。 本論文の著者 本論文の執筆者は以下の機関に所属しています。 - Guilherme F.C.F. Almeida, Insper教育...

対比的自己脱偏と二重データ拡張による事前学習済み言語モデルの社会的バイアスの緩和

導入: 現在、事前学習済み言語モデル(PLM)は自然言語処理分野で広く応用されていますが、学習用データ中の社会的偏りを継承し、増幅する問題があります。社会的偏りがあると、PLMの実際の応用において予期せぬリスクが生じる可能性があります。例えば、自動求職選考システムでは性別による偏りのために、論理力が必要な仕事(医者、プログラマーなど)は男性に割り当てられ、介護力が必要な仕事(看護師、ベビーシッターなど)は女性に割り当てられる可能性があります。医療システムでは人種による偏りがある可能性があり、同じリスク水準でも黒人患者の方が白人患者より「虚弱」と評価される可能性があります。そのため、PLMに組み込まれた社会的偏りを除去することは、意義があり、チャレンジングな研究分野となっています。 論文の出所...

非凸モデルおよび異種データに対する分散SGDの統一的な運動量ベースのパラダイム

非凸モデルと異種データ環境下でdecentralizedSGD問題を解決するための一般的なモメンタム範疇について 研究背景の紹介 近年、IoTやエッジコンピューティングの台頭に伴い、分散機械学習が急速に発展し、特にdecentralized学習パラダイムが注目されています。しかし、実際のシナリオでは、非凸目的関数とデータの異種性が分散学習の効率とパフォーマンスを制限する2つの大きな課題となっています。 非凸最適化目的関数は深層学習モデルに広く存在し、複数の局所最適解が存在する可能性があるため、モデルの精度低下や不安定な学習過程などの問題が生じる可能性があります。同時に、分散環境においては、計算に参加する各ノードが保持するデータ分布に差異(異種性)があり、このデータの偏りが収束性と一般化パフォ...

概念化を通じた抽象的な常識知識の獲得とモデリング

導入 人工知能システムが常識知識を欠いていることは、その分野の発展を制約する主な障害の1つでした。近年、ニューラル言語モデルと常識知識グラフによって長足の進歩が得られたものの、人間の知性の重要な構成要素である「概念化」は人工知能システムにうまく反映されていませんでした。人間は、具体的な事物や状況を抽象概念に概念化し、その上で推論することで、世界中の無限の実体や状況を取得し理解しています。しかし、有限の知識グラフでは現実世界の多種多様な実体や状況をカバーできず、それらの関係や推論はおろか話になりません。 本研究では、常識推論における概念化の役割を深く探求し、人間の概念化過程をシミュレートするフレームワークを構築しました。既存の状況常識知識グラフから抽象概念に関する事象知識や、それらの抽象概念に...

イベント抽出のための多重グラフ表現

背景紹介: イベント抽出は自然言語処理分野の人気のあるタスクであり、与えられたテキストからイベントトリガー語とその関連する論点を特定することを目的としています。このタスクは通常、イベント検出(イベントトリガー語の抽出)と論点抽出の2つのサブタスクに分かれています。従来のパイプラインアプローチではこの2つのサブタスクを別々に実行していましたが、エラーの伝搬が問題となっていました。近年、jointモデルが注目を集め、2つのサブタスクを統一して学習することができ、エラー伝搬を回避できますが、引き続き論点の多重利用(argument multiplexing)の問題を無視していました。 論文概要: 本論文では、マルチグラフ表現に基づくイベント抽出フレームワークを提案しています。マルチグラフでは2つの...

オープンワールドにおける新奇事象を扱うための神経記号認知アーキテクチャフレームワーク

オープンワールドにおける新奇事象を扱うための神経記号認知アーキテクチャフレームワーク

開放世界における新規事象を処理するための神経記号認知アーキテクチャフレームワーク 論文の背景 従来の人工知能研究では、知能体が「閉鎖世界」で動作すると仮定されており、つまり環境内のタスクに関連するすべての概念が既知であり、新しい未知の状況が発生しないと考えられていました。しかし、開かれた現実世界では、知能体の事前知識に反する新規の事象が必ず発生します。本論文では、新規事象を検出し対応する能力を知能体に与える新しいハイブリッド神経記号推論アーキテクチャを提案しており、開かれた世界でタスクを完了することができます。 新規事象の定義 本論文では、新規事象を知能体に関連する概念と見なしています。知能体がその知識ベースから特定の事象の表現を導出できない場合、その事象は知能体にとって新規のものとなります...

オープンワールドイベントへの適応のためのモビリティネットワーク上での時空間ダイナミクスの学習

移動ネットワークの時空動態を学習して開かれた世界のイベントに適応する 研究背景 現代社会のモビリティ・アズ・ア・サービス(MaaS)システムは、公共交通機関、ライドシェアリング、シェアリング自転車などの様々な交通手段が無縫に統合されています。MaaSの効率的な運営を実現するには、マルチモーダル移動ネットワークの時空動態のモデル化が不可欠です。しかし、従来の手法は、異なる交通手段間の相互作用を暗黙的に扱うか、その相互作用が不変であると仮定しています。さらに、休日、悪天候、パンデミックなどの開かれた世界のイベントが発生すると、群集の移動行動がその通常のパターンから大きく逸脱する可能性があり、このモデリングタスクをより難しくしています。 論文の出典 本論文は、イリノイ大学アーバナ・シャンペーン校の...

ロジスティック関数の双曲線正接表現:CTくも膜下出血検出のための確率的マルチインスタンス学習への適用

人工知能分野には長年にわたって「弱教師あり学習」の問題がありました。つまり、訓練データにおいて、一部分のラベルのみが観測可能で、残りのラベルは未知です。多インスタンス学習(Multiple Instance Learning、略してMIL)は、この問題を解決する1つのパラダイムです。MILでは、訓練データがいくつかの「バッグ」(bag)に分けられており、各バッグには複数のインスタンス(instance)が含まれています。私たちはバッグのラベルのみを観測できますが、個々のインスタンスのラベルを知ることはできません。MILの目標は、バッグのラベルに基づいて、新しいバッグとそれに含まれるインスタンスのラベルを予測することです。 MILパラダイムは様々な科学分野で広く応用されており、特に医療画像分野...

強化学習における神経網表現の性質の調査

強化学習における神経網表現の性質の調査

伝統的な表現学習手法は、通常、正規性、疎性などの望ましい性質を達成するために、固定の基底関数アーキテクチャを設計します。一方、深層強化学習の考え方は、設計者が表現の性質をコーディングするのではなく、データの流れが表現の性質を決定し、適切な訓練スキームの下で良い表現が自発的に現れるようにすることです。 この研究では、深層強化学習システムで学習された表現(representation)の性質を探求しています。この研究は、2つの観点を組み合わせ、実証分析を通じて、強化学習におけるスムーズな転移を促進する表現の性質を探索しています。著者らは6種類の表現特性を提案し、25,000以上のエージェント設定タスクで評価を行いました。彼らは、ピクセルベースのナビゲーション環境で、ソースタスクと転移タスクが異な...