非コードRNAの分類とクラス注釈のための多モーダル解釈可能表現

非コードRNA(ncRNA)は、細胞プロセスや疾患の発症において重要な役割を果たしています。ゲノムシーケンシングプロジェクトによって大量の非コード遺伝子が明らかになりましたが、ncRNAの機能と分類は依然として複雑で挑戦的な問題です。ncRNAの多様性、複雑性、および機能性は、バイオマーカーや治療ターゲットの発見において、特に生物医学研究の重要な対象となっています。しかし、既存のncRNA分類ツールの多くは、単一または2種類のデータタイプ(例えば配列や二次構造)に依存しており、他の重要な情報源を無視しています。さらに、既存の手法は解釈可能性に欠けることが多く、異なるncRNAクラスの特徴を明らかにするのが困難です。 これらの問題を解決するため、Université Paris-Saclayと...

Transformerモデルを用いたDNA配列アラインメントの研究

学術的背景 DNAシーケンスアラインメントは、ゲノム解析における中心的な課題であり、短いDNA断片(リード)を参照ゲノム上の最も可能性の高い位置にマッピングすることを目的としています。従来の方法は通常、2つのステップに分かれています。まずゲノムをインデックス化し、次に効率的な検索を行ってリードの可能性のある位置を特定します。しかし、ゲノムデータの爆発的な増加、特に数十億塩基対の参照ゲノムを扱う場合、従来のアラインメント方法は計算効率と精度の面で大きな課題に直面しています。近年、Transformerモデルが自然言語処理(NLP)分野で成功を収めたことから、研究者はこれをDNAシーケンス解析に応用しようとしています。これまでの研究では、Transformerモデルが短いDNAシーケンスの分類タ...

トランスフォーマーを用いたCryo-EM密度マップの効率的な強化

学術的背景 低温電子顕微鏡(Cryo-EM)は、タンパク質などの巨大分子の構造を解析するための重要な実験技術です。しかし、Cryo-EMの有効性は、低コントラストや構造の異質性などの実験条件によって引き起こされるノイズや密度値の欠損によってしばしば制限されます。既存のグローバルおよびローカルな画像シャープニング技術はCryo-EM密度マップの改善に広く使用されていますが、より正確なタンパク質構造を構築するためにその品質を効率的に向上させることには依然として課題があります。この問題を解決するために、研究者はCryoTenという3D UNETR++スタイルのTransformerモデルを開発し、Cryo-EM密度マップの品質を効果的に向上させることを目指しています。 論文の出典 この論文は、Jo...

共有ペプチドを用いたプロテオミクス実験におけるタンパク質および翻訳後修飾の相対定量:重みベースのアプローチ

プロテオミクス研究において、質量分析(Mass Spectrometry, MS)はタンパク質の豊度や構造変化を分析するために広く使用されています。しかし、タンパク質の定量分析には重要な課題があります。多くのタンパク質が同じペプチド(shared peptides)を共有しているため、これらのペプチドが複数のタンパク質配列に現れることがあります。従来の方法は通常、ユニークペプチド(unique peptides)のみに依存してタンパク質を定量しており、共有ペプチドの情報を無視しているため、定量結果に偏りや不正確さが生じる可能性があります。特に、タンパク質アイソフォーム(protein isoforms)や翻訳後修飾(post-translational modifications, PTMs...

情報エントロピー強化BERTと多方向GRUを統合したS-硫化部位予測のためのアンサンブル深層学習法

背景紹介 タンパク質の翻訳後修飾(Post-Translational Modifications, PTMs)は、遺伝子転写、DNA修復、タンパク質相互作用などの細胞活動を調節する重要なメカニズムです。その中でも、システイン(Cysteine)は希少なアミノ酸であり、そのチオール基(Thiol Group)を介して多様なPTMsに関与し、特に酸化還元平衡やシグナル伝達プロセスにおいて重要な役割を果たしています。S-スルフヒドル化(S-Sulfhydration)は重要なPTMの一つであり、心血管疾患や神経疾患の発症と進行に密接に関連しています。しかし、S-スルフヒドル化の具体的なメカニズムは未解明であり、特にその部位の識別において大きな課題が残されています。 従来のS-スルフヒドル化部位の...

遺伝子発現ダイナミクスの軌道整合

単一細胞トランスクリプトームシーケンシング(single-cell RNA sequencing, scRNA-seq)技術の登場により、細胞の発生と分化過程における遺伝子発現のダイナミクスをこれまでにない解像度で研究することが可能になりました。しかし、生物学的プロセスの複雑さから、異なる条件下での細胞発生軌跡はしばしば非対称であり、データの統合と比較に課題をもたらしています。既存の方法は通常、異なる条件下のサンプルを統合してからクラスタリング分析を行ったり、共有される軌跡を推測したりすることを前提としていますが、これらの方法は非対称な軌跡を扱う際に効果的ではなく、重要な差異発現遺伝子(differentially expressed genes, DEGs)を見逃す可能性があります。 この...

共有ユニットとマルチチャネル注意メカニズムを用いたcircRNAと疾患の関連性の予測

背景紹介 近年、環状RNA(circRNA)は新たな非コードRNA分子として、疾患の発生、進行、治療において重要な役割を果たしています。circRNAは独特の環状構造を持ち、ヌクレアーゼによる分解を受けにくいため、潜在的なバイオマーカーや治療標的として注目されています。しかし、実験的手法を用いてcircRNAと疾患の関連を研究するには時間とコストがかかり、関連研究の進展を妨げています。この問題を解決するため、研究者たちはバイオインフォマティクス手法を用いてcircRNAと疾患の関連を予測する計算モデルの開発に取り組んでおり、実験研究の指針を提供しています。 多視点学習手法はcircRNAと疾患の関連予測に広く用いられていますが、既存の手法は異なる視点間の潜在的な情報を十分に活用できておらず、...

APNet:COVID-19重症の差次的活性ドライバーを発見する説明可能なスパース深層学習モデル

学術的背景 COVID-19のパンデミックは、世界中の公衆衛生システムに大きな影響を与えました。現在では状況が落ち着きつつありますが、その複雑な免疫病理学的メカニズム、長期にわたる後遺症(「長いCOVID」など)、そして将来発生する可能性のある類似の脅威に対する研究が依然として進められています。特に重症のCOVID-19患者は、「サイトカインストーム」、急性呼吸窮迫症候群(ARDS)、多臓器不全などの深刻な症状を伴うことが多く、より正確な予測モデルとバイオマーカーが臨床判断をサポートするために必要とされています。 従来の機械学習(ML)や深層学習(DL)モデルは、ハイスループットオミクスデータの分析において優れた性能を発揮しますが、生物学的に解釈可能な結果を提供することが難しく、翻訳後修飾な...

単細胞解像度での遺伝子信号パターン分析による遺伝子空間のマッピング

単細胞解像度での遺伝子空間マッピング:遺伝子シグナルパターン分析(GSPA)研究 学術的背景 単細胞RNAシークエンシング(single-cell RNA sequencing, scRNA-seq)技術は、近年の生物学研究において大きな進展を遂げており、特に細胞状態空間(cellular state space)の組織構造を明らかにする上で重要な役割を果たしています。しかし、細胞状態空間をマッピングするための多くの計算手法が開発されている一方で、遺伝子空間(gene space)のマッピングや埋め込み(embedding)に関する研究は比較的少ない状況です。遺伝子発現は高度に組織化されており、遺伝子間は複雑な生物学的プロセスや経路を通じて協調して機能しています。しかし、生物学的および技術的...

遺伝子セット機能の発見における大規模言語モデルの評価

大規模言語モデルを用いた遺伝子集合機能発見の探求:GPT-4の優れた性能 学術的背景 機能ゲノミクス(functional genomics)の分野では、遺伝子集合の富化解析(gene set enrichment analysis)が遺伝子の機能と関連する生物学的プロセスを理解するための重要な方法となっています。しかし、現在の富化解析はGene Ontology (GO) などといった文献に基づいて整理された遺伝子機能データベースに依存しており、これらのデータベースには不完全性や更新の遅れといった課題があります。このため、多くの遺伝子集合が従来のツールでは効果的に解析できず、これらの未定義の遺伝子集合が新たな生物学的知識の源泉となる可能性があります。 こうした背景のもと、近年、生成型人工知...