大規模言語モデル(LLM)の道徳的および法的推論の心理を探る

現在、大規模言語モデル(LLM)は、さまざまな分野で専門家レベルのパフォーマンスを発揮しており、その内的推論プロセスに強い関心が持たれています。LLMがこれらの驚くべき結果を生み出すメカニズムを理解することは、将来の人工知能エージェントの発展と、それらを人間の価値観と一致させることの両方に重要な意味を持ちます。しかしながら、既存のLLMのアーキテクチャでは、その内的プロセスを説明することが非常に難しくなっています。そのため、研究者は心理学研究で一般的に使用される手法を借用して、LLMの推論パターンを探索し始め、「機械心理学」という新しい研究分野が生まれました。 本論文の著者 本論文の執筆者は以下の機関に所属しています。 - Guilherme F.C.F. Almeida, Insper教育...

対比的自己脱偏と二重データ拡張による事前学習済み言語モデルの社会的バイアスの緩和

導入: 現在、事前学習済み言語モデル(PLM)は自然言語処理分野で広く応用されていますが、学習用データ中の社会的偏りを継承し、増幅する問題があります。社会的偏りがあると、PLMの実際の応用において予期せぬリスクが生じる可能性があります。例えば、自動求職選考システムでは性別による偏りのために、論理力が必要な仕事(医者、プログラマーなど)は男性に割り当てられ、介護力が必要な仕事(看護師、ベビーシッターなど)は女性に割り当てられる可能性があります。医療システムでは人種による偏りがある可能性があり、同じリスク水準でも黒人患者の方が白人患者より「虚弱」と評価される可能性があります。そのため、PLMに組み込まれた社会的偏りを除去することは、意義があり、チャレンジングな研究分野となっています。 論文の出所...

非凸モデルおよび異種データに対する分散SGDの統一的な運動量ベースのパラダイム

非凸モデルと異種データ環境下でdecentralizedSGD問題を解決するための一般的なモメンタム範疇について 研究背景の紹介 近年、IoTやエッジコンピューティングの台頭に伴い、分散機械学習が急速に発展し、特にdecentralized学習パラダイムが注目されています。しかし、実際のシナリオでは、非凸目的関数とデータの異種性が分散学習の効率とパフォーマンスを制限する2つの大きな課題となっています。 非凸最適化目的関数は深層学習モデルに広く存在し、複数の局所最適解が存在する可能性があるため、モデルの精度低下や不安定な学習過程などの問題が生じる可能性があります。同時に、分散環境においては、計算に参加する各ノードが保持するデータ分布に差異(異種性)があり、このデータの偏りが収束性と一般化パフォ...

概念化を通じた抽象的な常識知識の獲得とモデリング

導入 人工知能システムが常識知識を欠いていることは、その分野の発展を制約する主な障害の1つでした。近年、ニューラル言語モデルと常識知識グラフによって長足の進歩が得られたものの、人間の知性の重要な構成要素である「概念化」は人工知能システムにうまく反映されていませんでした。人間は、具体的な事物や状況を抽象概念に概念化し、その上で推論することで、世界中の無限の実体や状況を取得し理解しています。しかし、有限の知識グラフでは現実世界の多種多様な実体や状況をカバーできず、それらの関係や推論はおろか話になりません。 本研究では、常識推論における概念化の役割を深く探求し、人間の概念化過程をシミュレートするフレームワークを構築しました。既存の状況常識知識グラフから抽象概念に関する事象知識や、それらの抽象概念に...

イベント抽出のための多重グラフ表現

背景紹介: イベント抽出は自然言語処理分野の人気のあるタスクであり、与えられたテキストからイベントトリガー語とその関連する論点を特定することを目的としています。このタスクは通常、イベント検出(イベントトリガー語の抽出)と論点抽出の2つのサブタスクに分かれています。従来のパイプラインアプローチではこの2つのサブタスクを別々に実行していましたが、エラーの伝搬が問題となっていました。近年、jointモデルが注目を集め、2つのサブタスクを統一して学習することができ、エラー伝搬を回避できますが、引き続き論点の多重利用(argument multiplexing)の問題を無視していました。 論文概要: 本論文では、マルチグラフ表現に基づくイベント抽出フレームワークを提案しています。マルチグラフでは2つの...

オープンワールドにおける新奇事象を扱うための神経記号認知アーキテクチャフレームワーク

オープンワールドにおける新奇事象を扱うための神経記号認知アーキテクチャフレームワーク

開放世界における新規事象を処理するための神経記号認知アーキテクチャフレームワーク 論文の背景 従来の人工知能研究では、知能体が「閉鎖世界」で動作すると仮定されており、つまり環境内のタスクに関連するすべての概念が既知であり、新しい未知の状況が発生しないと考えられていました。しかし、開かれた現実世界では、知能体の事前知識に反する新規の事象が必ず発生します。本論文では、新規事象を検出し対応する能力を知能体に与える新しいハイブリッド神経記号推論アーキテクチャを提案しており、開かれた世界でタスクを完了することができます。 新規事象の定義 本論文では、新規事象を知能体に関連する概念と見なしています。知能体がその知識ベースから特定の事象の表現を導出できない場合、その事象は知能体にとって新規のものとなります...

オープンワールドイベントへの適応のためのモビリティネットワーク上での時空間ダイナミクスの学習

移動ネットワークの時空動態を学習して開かれた世界のイベントに適応する 研究背景 現代社会のモビリティ・アズ・ア・サービス(MaaS)システムは、公共交通機関、ライドシェアリング、シェアリング自転車などの様々な交通手段が無縫に統合されています。MaaSの効率的な運営を実現するには、マルチモーダル移動ネットワークの時空動態のモデル化が不可欠です。しかし、従来の手法は、異なる交通手段間の相互作用を暗黙的に扱うか、その相互作用が不変であると仮定しています。さらに、休日、悪天候、パンデミックなどの開かれた世界のイベントが発生すると、群集の移動行動がその通常のパターンから大きく逸脱する可能性があり、このモデリングタスクをより難しくしています。 論文の出典 本論文は、イリノイ大学アーバナ・シャンペーン校の...

強化学習における神経網表現の性質の調査

強化学習における神経網表現の性質の調査

伝統的な表現学習手法は、通常、正規性、疎性などの望ましい性質を達成するために、固定の基底関数アーキテクチャを設計します。一方、深層強化学習の考え方は、設計者が表現の性質をコーディングするのではなく、データの流れが表現の性質を決定し、適切な訓練スキームの下で良い表現が自発的に現れるようにすることです。 この研究では、深層強化学習システムで学習された表現(representation)の性質を探求しています。この研究は、2つの観点を組み合わせ、実証分析を通じて、強化学習におけるスムーズな転移を促進する表現の性質を探索しています。著者らは6種類の表現特性を提案し、25,000以上のエージェント設定タスクで評価を行いました。彼らは、ピクセルベースのナビゲーション環境で、ソースタスクと転移タスクが異な...

モデルベース診断における重要な観察

このレポートでは、モデルベースの故障診断において、システムの異常の原因となる重要な観測データを特定する枠組みとアルゴリズムが紹介されています。この枠組みでは、元の観測データを「部分観測」に抽象化することで、診断結果に不可欠な観測を特定します。「重要な部分観測」とは、最大限に抽象化した後でも、元の観測と同じ最小診断集合を導出できる最小のものと定義されています。 この研究は、オーストラリア科学産業研究機構のデータ61センターのCody James Christopherと、フランス原子力・代替エネルギー庁のAlban Grastienの2人の著者によって行われ、2024年の人工知能ジャーナルに掲載されました。 研究者たちは最初に、モデルベース診断の基本的な枠組みと概念を説明しています。この枠組み...