macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

2022

gtdbtkのde_novo_wfコマンド

マニュアルより gtdbtkのde novo ワークフローは、ユーザー提供のゲノムと GTDB-Tk リファレンスゲノムを含むバクテリアと古細菌のツリーを推論する。分類学的な分類を得るにはclassify_wfワークフローを推奨し、de novoでdomain固有のツリーが必要な場合の…

バクテリアパンゲノムの探索的解析と可視化のためのウェブベースツール PanExplorer

パンゲノムアプローチは細菌の比較ゲノム解析や進化解析に多く用いられているが、バイオインフォマティシャンのいない生物学者にはまだ難しいため、細菌パンゲノムの探索を容易にする革新的なツールが必要である。PanExplorerは、様々なゲノム解析とレポート…

Foldseekを使ってAlphaFold UniProt DBから類似構造タンパク質を探す Foldseek server

2022/08/03 誤字修正 2023/07/10 追記 高精度な構造予測手法により、一般に公開されているタンパク質の構造が雪崩のように増えている。これらの構造を検索することが、構造解析の主なボトルネックになりつつある。Foldseekは、大規模な構造セットを高速かつ…

グラフニューラルネットワークを用いてタンパク質機能予測を行う PANDA2

ハイスループットなシークエンス技術により、大量のタンパク質配列が生成されているが、タンパク質配列のアノテーションは、低スループットで高価な生物学的実験に大きく依存している。そのため、タンパク質配列から機能的な知識を推測するために、正確かつ…

メタゲノムにおける遺伝子予測精度を向上させた MetaGeneMark-2

メタゲノムに含まれるタンパク質遺伝子を正確に予測することは、よく知られた課題である。特に、短い遺伝子や不完全な遺伝子、翻訳開始部位の位置を特定することは困難である。原核生物の翻訳開始は、5'UTRに存在するShine-Dalgarno(SD)コンセンサス配列で…

メタゲノム解析のために擬似ロングリードを作成する PLR-GEN

ハイスループットなシークエンスデータを用いたメタゲノム解析は、培養せずに環境試料中の微生物ゲノムを構築できる強力な手法である。しかし、メタゲノム解析は、複数の微生物のゲノムが混在してメタゲノムを構成しているため、特にショートリードしか利用…

ショートリードとロングリードを用いたハプロタイプアセンブリツール HAT

ハプロタイプとは、1つの染色体上に共存する対立遺伝子のセットで、次世代に共に遺伝する。一倍体のリファレンスゲノムでは、この共起情報が失われるため、表現型と遺伝子型の対立遺伝子の組み合わせとの関連付けにしか利用できない。そのため、DNA塩基配列…

遺伝子およびタンパク質の相互作用を自動認識して検索する GePI

遺伝子とタンパク質の相互作用に関する知識は、生体分子研究にとって不可欠である。このような知識の大部分は文章で公開されており、構造化された方法でアクセスすることはできない。この状況を改善するために、自動的に抽出された相互作用の事実のリポジト…

DNAエンリッチメントのためのベイトデザインをスケーラブルに行う Syotti

ベイトエンリッチメントは、メタゲノム試料中の目的領域の増幅に成功したことから、広く普及しつつあるプロトコルである。この方法では、一組の合成プローブ(「ベイト」)を設計・製造し、断片化したメタゲノムDNAに適用する。プローブは断片化したDNAに結…

大規模な遺伝子バリアントアノテーションのための統合的かつ対話的なプラットフォーム Annotation Query (AnnoQ)

Annotation Query (AnnoQ) (http://annoq.org/)は、ヒトの遺伝子バリアントに対して包括的かつ最新の機能アノテーションを提供するために設計されている。このシステムは、Haplotype Reference Consortium (HRC) の約3900万個のヒトバリアントに、WGSAによる…

ゲノム配列やシークエンシングデータを公開リポジトリから取得する getSequenceInfo

2022/07/14 誤字修正 生物学的配列は、世界中で急速に、そして指数関数的に増加している。塩基配列データベースは、様々な生物について有意義なゲノム情報を提供する重要な役割を担っている。getSequenceInfoは、GenBank、RefSeq、European Nucleotide Archi…

機械学習を用いた微生物ゲノム品質の迅速で正確かつスケール可能な評価ツール CheckM2

2023/07/28 論文引用 2024/04/16 インストール追記 DNA シーケンスとバイオインフォマティクスの進歩により、メタゲノム解析データからの微生物ゲノムの回収率は飛躍的に向上した。メタゲノム解析で得られたゲノムの品質を評価することは、解析に先立つ重要…

reCOGnizer

Githubより reCOGnizerは、RPS-BLASTとCDDのデータベースをリファレンスとして、ドメインベースのアノテーションを行う。現在実装されている参照データベースはCDD, NCBIfam, Pfam, TIGRFAM, Protein Clusters, SMART, COG and KOGとなっている。reCOGnizer…

UniProtのデータベースから機能的アノテーションとID mappingを行う UPIMAPI

2022/07/12 修正 2023/03/05 追記 オミックスやメタオミックス技術は、微生物の機能を探索するための強力なアプローチだが、オミックスデータセットの大きさと複雑さにより、その解析はしばしば困難な課題となる。オミックスやメタオミックス解析のために開…

ローカバレッジ全ゲノムシークエンシングデータから系統樹マーカーを取り出す Patchwork

最新のショートリードシーケンサーからの出力が増加したことにより、ローカバレッジホールゲノムシーケンス(LC-WGS)は大規模な系統学へのアプローチとしてますます手頃な価格になっている。しかし、従来のシーケンシング手法と比較していくつかの利点があ…

メタゲノム探索とビニングのためのインタラクティブなプラットフォーム BinaRena

メタゲノム解析でコンティグを探索し、ビニングすることは、微生物群集の機能的、進化的なギルドを明らかにするために不可欠である。しかし、自動化されたビニングがあるにもかかわらず、研究者はしばしば、代表的な結果を得るために人間の関与が必要である…

(ナノポア)ホモポリマーやタンデムリピート領域からのパイルアップバリアントコーリングを改善する nPoRe

ナノポアのベースコーリング精度は近年向上しているが、生殖細胞における小さな挿入・欠失(INDEL)のバリアントコーリングは依然として低い。一塩基多型(SNPs)の精度と再現性は現在、定期的に99.5%を超えているが、比較的高いカバー率(85×)でのINDEL r…

集団特異的なリファレンスゲノムを作成するための高速なゲノム研磨ツール JASPER

ロングリードシーケンス技術の進歩により、ゲノムアセンブリの連続性と完全性が劇的に改善された。最新のナノポアシーケンサーを用いれば、フローセル1個からヒトゲノムのアセンブリに必要なデータを生成することができる。これらのシーケンスから得られるロ…

ペアエンドシークエンシングリードを使ってメタゲノムアセンブリゲノムと16S rRNAマーカー遺伝子を結び付ける MarkerMAG

メタゲノムアセンブリゲノム(MAG)は、微生物の機能についての理解を大幅に広げている。しかし、系統解析や環境調査でよく用いられる16S rRNA遺伝子は、MAGから欠落していることが多い。そこで、ペアエンドシーケンスリードを用いて、16S rRNA遺伝子とMAGを…

原核生物の保存された遺伝子クラスターを視覚化するwebリソース GeCoViz

シンテニー保存性の解析は、原核生物の未知遺伝子の潜在的な機能的役割を調査するための確立された方法論である。しかし、ゲノムコンテキストの再構築と可視化を行うバイオインフォマティクスツールは、通常、計算速度に依存し、狭い分類学上の範囲に限定さ…

ハプロタイプゲノム配列を組み立てるHaploMaker

二倍体生物において、全ゲノムハプロタイプの構築は、ヘテロ接合型一塩基多型の対立遺伝子を正確に同定し、正しい相同染色体に割り当てることに依存する。このように対立遺伝子を適切に配置することで、ハプロタイプと呼ばれる染色体上の一塩基多型の組み合…

メタゲノム解析のための自動化されたワークフロー MAGNETO

2022/06/17 誤字修正 メタゲノム-アセンブルゲノム(MAG)は、メタゲノムデータから回収された個々のゲノムを表す。MAGは、未培養微生物のゲノム多様性の解析や、自然環境における機能・代謝の可能性を明らかにするために非常に有用である。近年の計算機開発…

遺伝子名の識別を支援するウェブアプリケーション GeneToList

オミックス技術を臨床医学やトランスレーショナル・メディシンに取り入れる動きが加速する中、これらの手法によって生成される大規模かつ複雑なデータセットを利用するエンドユーザーには課題がある。ゲノミクスにおける特別な課題は、遺伝子の命名法が大規…

ショートリードメタゲノミクスデータから薬剤耐性を分類する AMR-meta

抗菌剤耐性(AMR)は世界的な健康問題である。微生物サンプルのハイスループットなメタゲノムシークエンシングにより、精選されたAMRデータベースとの比較によるAMR遺伝子のプロファイリングが可能になる。しかし、データベースの不完全性や、シークエンシン…

大規模な系統樹を探索するためのウェブベースのツール Taxonium

2022/06/11 誤字修正 COVID-19の大流行により、シークエンスデータの規模が一変し、SARS-CoV-2のゲノムは地球上のどの生物よりも多く配列決定された。これまでの系統樹探索のためのウェブベースのツールは、この規模の樹に直接スケールアップすることができ…

(スモールゲノム)汚染されたシークエンシングデータをフィルタリングしながらアセンブリする半自動化されたパイプライン WGA-LP

DNAシーケンシングの技術進歩に伴い、バクテリアゲノムのショートリードによる全ゲノムアセンブリ(WGA)は、ごく一般的な作業となっている。ゲノムのアセンブリプロセスには絶対的な黄金律がなく、多くの異なるツールを組み合わせて一連のステップを実行す…

ヒートマップと遺伝子セットエンリッチメント解析のオンラインサービス HemI 2.0

近年のハイスループットなオミックス技術により、大量の生物学的データが生み出されている。このようなビッグオミックスデータを可視化することは、様々な生物学的問題に答えるために必要不可欠である。簡潔でありながら包括的な戦略として、ヒートマップは…

バリアントを考慮したリファレンスアラインメントの高速リフトオーバーを行う levioSAM2

テロメア単位の完全なゲノムアセンブリは、解析の向上や新しいバリアントの発見を期待できるが、多くの重要なゲノムリソースは古いリファレンスゲノムと関連したままである。そのため、リファレンスゲノム間のゲノムフイーチャーやリードアラインメントをト…

遺伝子発現解析と可視化のためのウェブサーバー GEOexplorer

2022/06/10 追加 Gene Expression Omnibus (GEO) は、一般に公開されているハイスループットな遺伝子発現データのかなりの割合をホストしているデータベースリポジトリである。遺伝子発現解析は、サンプルグループ間の生物学的および表現型の違いの根底にあ…

(ヒトゲノム)バリアントが転写因子結合に及ぼす影響を予測する FABIAN-variant

コーディングバリアントの影響予測は大きく進歩したが、ノンコーディングバリアントの評価は依然として困難である。特にプロモーター領域内のバリアントは、遺伝子の過剰発現を引き起こしたり、発現を低下させたり、あるいは消失させたりする可能性があるた…