macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

Preprint

ナノポアシーケンスシグナルのためのエンドツーエンドのTransformerベースシミュレーター NanoSimFormer

ナノポアシーケンスは、R10.4.1フローセルと高性能Transformerベースのベースコールモデルの登場により、新たな精度基準を達成した。しかし、既存のシグナルシミュレーターは、静的なポアモデルに依存したり、ベースコールに関連する最適化目標が欠如してい…

バイオインフォマティクスのプロットを出力するLLM搭載プラットフォーム PlotGDP

高品質なバイオインフォマティクスプロットは、生物学研究、特に論文発表の準備において重要である。しかし、論文発表に適したプロットを作成するには、学習曲線が長く、コーディング環境の設定が複雑になるという課題がつきまとう。そこで本稿では、バイオ…

メタゲノムの真核生物配列を識別する階層型分類器 Euktect2

メタゲノミクスにおけるDNA配列の現在の分類は、主に参照データベースとのアライメントに依存しています。しかし、ゲノムデータベースに含まれる真核生物種だけでは不十分であり、メタゲノム内には培養不可能な真核生物が多数存在します。これらの制約により…

マルチコピーTE配列を遺伝子、アイソフォーム、locusレベルで正確に定量する MAJEC

転移因子 (TE) の研究は、がん生物学、免疫学、老化などの分野でますます中心的な役割を担うようになっている。これらの因子における疾患または実験室で誘発される摂動を正確に定量化することは、拡大する研究を支える上で重要だが、現在の RNA-seq パイプラ…

超大規模データに特化した高速多重タンパク質配列アラインメントツール FAMSA2

本稿では、これまでにない高速で高精度な多重タンパク質配列アラインメントを生成するアルゴリズム、FAMSA2を紹介する。構造、系統発生、機能の各ベンチマークにおいて、FAMSA2は最先端のツールと同等以上の精度を実現し、最大400倍高速で動作し、既存の最速…

転写因子とDNAの結合予測を行う TFBindFormer

2026/04/20 結果記載 転写因子(TF)は遺伝子発現の中心的な制御因子であり、ゲノムDNAの選択的認識は様々な生物学的プロセスの根底にある。クロマチン免疫沈降法とそれに続くシーケンス解析(ChIP-seq)を用いたTF-DNA相互作用の実験的プロファイリングは、…

Evo2

2026/04/18,19 追記 生命のあらゆる情報はDNAで符号化されている。ゲノムコードの配列決定、合成、編集ツールは生物学研究に革命をもたらしたが、新たな生物系をインテリジェントに構築するには、ゲノムに符号化された膨大な複雑性への深い理解も不可欠であ…

まだアノテーションされていないゲノムアセンブリからオルソログを探す fDOG-Assembly

全ゲノムショットガンシーケンスとアセンブリは日常的になった。しかし、新規アセンブリゲノムにおけるタンパク質コード遺伝子の同定は依然として複雑で、時間と労力を要する。その結果、公開データベースの多くの真核生物ゲノム配列は包括的な遺伝子アノテ…

ウイルス配列をクラスタリングするNextflowパイプライン ViralClust

ウイルスゲノム配列の急速な蓄積は、アウトブレイクによる過剰表現によって引き起こされる計算上の制約とサンプリングバイアスのために、多重配列アライメント、系統発生、ゲノム/アライメント可視化などの下流解析ツールに大きな課題をもたらしている。クラ…

メタゲノムから細菌群集の好気性を予測する OxyMetaG

酸素は微生物の分布と活動の主要な駆動力である。酸素濃度を現場で測定することはしばしば困難であるため、一つの解決策として、細菌を酸素濃度の生物指標として用いることが考えられる。細菌は偏好気性細菌から偏嫌気性細菌まで多岐にわたるため、細菌群集…

大規模データにおいて形質の進化的関連性を調べる SimPhyNI

2026/01/30 追記 ゲノム特徴と形質の間、またはゲノム形質のペア間の関連性を識別する従来の方法は、細菌ゲノムに適用すると困難をきたす。細菌におけるゲノムワイド連鎖が強い進化誘導関連性を生み出すという事実を説明するために、いくつかの微生物GWAS(m…

ゲノム近傍を解析するwebサービス GNAT

Gene Neighbourhood Analysis Tool(GNAT)は、タンパク質配列を与えられた微生物(細菌、古細菌、真菌)またはウイルスデータベース内の相同遺伝子を同定し、それらのゲノム近傍(GN)を類似性に基づいてアラインメントおよびクラスタリングし、一致したゲ…

RNA:DNA三重鎖の予測と解析のためのインタラクティブなプラットフォーム 3plex Web

Long non-coding RNAs(lncRNA)は、タンパク質やDNAを含む他の分子と協調することでその機能を発揮する。一本鎖RNA(ssRNA)と二本鎖DNA(dsDNA)の相互作用によって形成される三重鎖構造(トリプレックス)は、lncRNAが生体内で特定のゲノム配列を標的とす…

MSRスケッチングに基づくHiFiリードの高速かつハプロタイプ認識型(aware)のアセンブリを行う Alice

マッピングに適したシーケンス削減(MSR)スケッチを提案する。これは高忠実度(HiFi)ロングリード向けのスケッチ手法であり、これらのスケッチを直接操作するアセンブラ「Alice」を提供する。MSRはコンパクトな表現を生成し、(i) アライン可能な配列(2つ…

組成とカバレッジの分離によるグラフベースのメタゲノムビニングを行う CoCoBin

メタゲノムビニングはメタゲノム解析における重要なステップであり、同一ゲノム由来のコンティグを一貫性のあるグループにクラスタリングすることを目的とする。現代的なワークフローでは、ほとんどのビニングツールはショットガンメタゲノムシーケンスデー…

ヒトNGSデータにおけるコンタミネーションと血縁関係の検出、定量ツール NGSTroubleFinder

品質管理はNGSパイプラインの基本的なステップであるが、軽視されがちである。クロスサンプルコンタミネーションやサンプルスワップのような問題を検出することは、データの完全性を管理するために不可欠である。ここでは、ヒトの全ゲノムおよび全トランスク…

深層学習を用いて細菌分離株の高精度なSNVコールを行う AccuSNV

細菌種内の変異を正確に検出することは、微生物進化の基礎研究、伝播事象の再構築、抗菌薬耐性変異の同定において極めて重要である。全ゲノムシーケンスから一塩基多型(SNV)を特定する多くのツールが開発されているが、細菌ゲノムの複雑さや、サンプルタイ…

ロングリードベースの真核生物アセンブリを7つの指標で評価する PAQman

ロングリードシーケンシングとアセンブリアルゴリズムの進歩により、高品質なゲノムアセンブリの生成はより容易かつ費用対効果の高いものとなった。しかし、既存ツールはしばしば限られた指標に依存し、あるいは比較用のリファレンスアセンブリを必要とする…

McDevol

メタゲノム・ビニングのための最近の深層学習手法のいくつかは、高品質なメタゲノムアセンブリゲノムの回収率向上を主張している。これらの手法は、contig embeddings(コンティグの主要な特徴量を固定次元のベクトルに変換する操作を行ったもの)を学習しク…

ピークコール結果から遺伝子へのマッピングを行う peakScout

peakScoutは、ゲノムピークデータと遺伝子アノテーションの間のギャップを迅速かつ容易に埋めるために設計されたコマンドラインおよびウェブベースのバイオインフォマティクスツールであり、研究者が調節エレメントの測定値とその標的遺伝子との関係を理解す…

ゲノムアセンブリからウイルスゲノムを発見して正確なアノテーションをつける Cenote-Taker 3

ウイルスは地球上のあらゆる環境に豊富に存在し、あらゆる細胞生物を感染させる。にもかかわらず、ウイルスはゲノム科学者にとって一種のブラックボックスである。その遺伝的多様性は他の全ての生命体を合わせたものよりも大きく、そのゲノムはシーケンシン…

超高速なGFF操作ユーティティ GFFx

ゲノムアノテーションは、多様な調節要素や転写バリアントの発見により、ますます包括的になりつつある。しかし、このアノテーション精度の向上は、特に大規模ゲノムやパンゲノムを横断する効率的なクエリに対して重大な課題をもたらす。既存のツールは、大…

全SRAデータをインデックス化して塩基/タンパク質の配列検索を可能にした LoganとLogan Search

2025/09/09 タイトル修正 生命の多様性の広がりは計り知れないが、公開されている核酸配列データは地球規模での遺伝的多様性の分散と進化を垣間見せる。しかし配列データの急速な増加と蓄積は、効率的な解析能力を凌駕している。自由に利用可能なシーケンス…

タンパク質ファミリー生成のためのスケーラブルなパイプライン proteinfamilies

メタゲノム由来のアミノ酸配列データの増加は、タンパク質の機能、微生物の多様性、進化的関係に対する我々の理解を大きく変えた。しかし、これらのタンパク質の大部分は依然として機能的に未解明である。このような未解明配列を、少数の実験的に機能が確認…

ロングリードメタゲノムの解析と評価のためのsnakemakeパイプライン (MAEPLR)

(Prepirntより) メタゲノムアセンブリは、微生物生態系のシーケンシングデータから高品質なゲノムをできるだけ多く再構築することを目的としている。Hi-Fiロングリードなどのアセンブリを容易にする技術的進歩があるにもかかわらず、数百から数千の集団が混…

(GPU対応) 距離ベースの系統解析を超高速に行う DIPPER

距離に基づく手法は、その優れた速度、スケーラビリティ、理論的保証により、さまざまな用途で系統樹を再構築する際によく用いられている。しかし、従来のde novoアルゴリズムは立方時間(cubic time)と二次メモリ(quadratic memory)の計算量に制約されて…

潜在的な病原体の検出を可能にするメタゲノムシーケンスデータ解析パイプライン TaxTriage

TaxTriageは、ショートリードとロングリードの非標的DNAおよびRNAシーケンスデータの両方に対応した、包括的な病原体同定ワークフローである。リードの分類、マッピング、およびデ・ノボアセンブリのアプローチを組み合わせることで、キュレーションされた病…

タンパク質構造のモチーフを超高速に検索する Folddisco

2025/08/17 指摘いただいた部分を修正 大量の構造コレクションから、機能的に重要な短い3Dパターンである類似したタンパク質構造モチーフを検出することは、計算上非常に困難である。そこで本著者らは Folddisco を開発した。Folddisco は、側鎖の向きを含む…

構造ガイド付きアノテーションパイプライン EcoFoldDB-annotate

微生物群集は、地球の健康と生態系プロセスに不可欠な役割を果たしている。高スループットメタゲノムシーケンス技術は、これらの群集の構造と機能に関する前例のない洞察を提供してきた。しかし、既存の配列相同性に基づく手法の感度限界により、メタゲノム…

DEG解析の密度ベースの代替手法 EPCY

高スループットデータから予測可能な遺伝子同定は、バイオメディカル研究における重要な課題である。現在の多くのアプローチは、統計的検定を用いて差異的発現遺伝子(DEG)を選択しているが、これらは生物学的な結果の予測という目的と一致しない可能性があ…