macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

2022

真菌のITSやコアタンパク質コード遺伝子を使った系統解析を自動で実行する UFCG pipeline

UFCG pipelineを使うと、真菌のITSやコアタンパク質を使った系統解析を自動で実行できます。簡単にですが、使い方を確認しておきます。 UFCG is a database&pipeline for fungi phylogenomics. Our db contains 61 marker genes, 20 widely used & 41 novel …

ショートリードからの株レベルメタゲノムアセンブリを行う StrainXpress

次世代シーケンサーを用いたメタゲノム解析により、長時間の培養を必要とせず、特徴的な生息環境にある微生物を同定することが可能になった。重要なことは、薬剤耐性、病原性、環境との相互作用など、臨床に関連する現象が種内で既に変化している可能性があ…

原核生物ゲノムのアセンブリ結果およびアノテーションを改善するためのWebプラットフォーム ReNoteWeb

DNA塩基配列の解読にかかる費用と時間が短縮されたことにより、NCBI(National Center for Biotechnology Information)のような公開データベースへの生物情報の寄託が大幅に増加した。1回の実行で大量のデータが生成されるため、この新しい特徴を持つデータ…

全自動のトランスポーザブル・エレメントのアノテーションと解析のパイプライン Earl Grey

トランスポーザブル・エレメント(TE)は、ほぼ全ての真核生物ゲノムに存在し、様々な進化過程に関与している。TEに関する研究は非常に盛んだが、そのアノテーションと特性解析は、特に非専門家にとって依然として困難である。(i)断片的で重複するTEアノテー…

(ヒト)バリアントの機能的アノテーションリソース FAVOR

大規模な全ゲノムシークエンシング(WGS)研究とバイオバンクにより、多数のコーディングおよびノンコーディングバリアントが急速に生成されている。これらは、ヒト疾患の遺伝的基盤を明らかにするための前例のないリソースを提供する。バリアント機能アノテ…

バリアントコーリングを自動化する柔軟でスケーラブルなパイプライン grenepipe

本著者らは、個体や集団のハイスループットな生シーケンスデータから遺伝子型バリアントコールまでのデータ処理を効率化するオールインワンSnakemakeワークフローであるgrenepipeを開発した。このパイプラインは、一般的なソフトウェアツールを単一の設定フ…

海洋環境ゲノムをマイニングするためのオンラインサービス The Ocean Gene Atlas v2.0

Tara Oceansの海洋メタゲノムやメタトランスクリプトームのような大規模データリソースを用いて遺伝子の生物地理に関する仮説を検証するには、多大なハードウェアリソースとプログラミングスキルが必要になる。今回リリースされた「Ocean Gene Atlas」(OGA2…

keggcharter

Githubより KEGGCharter は KEGG API と Pathway 機能のユーザーフレンドリーな実装です。特徴は KEGG ID から KEGG Orthologs (KO) への変換、および KO から EC 番号への変換。 主要な分類群の代謝ポテンシャルを KEGG メタボリックマップで表現(上位 10 …

未知微生物種も含めてメタゲノムプロファイリングする MetaPhlAn 4

2022/8/26 追記 2022/09/07 インストール修正 メタゲノム解析は、微生物群集から新規生物を発見することを可能にするが、多くのメタゲノムからは、少数の豊富な生物しか捕らえることができない。そこで、メタゲノム解析と単離ゲノムの情報を統合し、より包括…

メタゲノムの分類学的プロファイリングを行う mOTUs3

2022/09/07 誤字修正、オプション追記 分類学的プロファイリングは、生物試料中の微生物の相対的な存在量を検出・定量することを目的としたマイクロバイオーム研究の基本的なタスクである。ショットガンメタゲノムデータを利用する方法は、一般に、配列決定…

真菌のコア遺伝子データベースとゲノムワイド系統解析のためのパイプライン UFCG

系統発生学では、生物の進化的関係をゲノム情報によって研究する。各生物から関連する遺伝子を抽出し、多重配列アラインメントを構築し、系統樹によって進化関係を再構築するのが一般的なアプローチである。この解析には、分類群内での効率的な自動化を可能…

2ラウンドのオーバーラッピングとキャッシュに基づく高速エラー訂正を行う Fec

第3世代シーケンサーは長いリード長でゲノム解析を進めるが、リードのエラーレートが高いため、エラー訂正が必要になる。特にシーケンスカバレッジが高い場合、エラー訂正は時間のかかる作業である。一般に、既存の誤り訂正手法は、重複するリードAを訂正す…

ゲノムアセンブリ間でリードを素早くリマッピングする FastRemap

ゲノムリードデータセットは、一般的に使用されている CrossMap ツールなどの様々なツールを用いて、あるリファレンスから別の類似したリファレンス(例えば、2つのバージョンの異なる間や2つの類似した種間)へ迅速かつ効率的に再マッピングすることができ…

関心のあるあらゆる生物のWGSデータセットに対して、SV、SNP、IN/DEL、およびCNVのコールとアノテーションを実行する PerSVade

2022/08/22 オプション追記 構造バリアント(SV)はゲノムの変異の根底にあるものだが、ショートリードからの検出が困難なため、見落とされることがよくある。ほとんどのアルゴリズムはヒトでテストされており、他の生物にどの程度適用できるかはまだ不明で…

InParanoidをDIAMONDにより高速化した InParanoid-DIAMOND

バイオインフォマティクスにおいて、祖先を共有する異なる生物種の遺伝子であるオルソログを予測することは重要な課題である。オルソログ予測ツールは、大量のデータを実行可能な時間内に解析するために、正確かつ高速に予測することが要求される。InParanoi…

ユーザーフレンドリーなデータ可視化ウェブサーバー ImageGP

データの可視化は,研究者の間で結果を説明し,知識を共有するために重要な役割を果たす.しかし、多くの可視化ツールは十分なコーディング経験を必要としたり、特殊な用途のために設計されていたり、無償でなかったりする。ここでは、生物・化学データの可…

アンプリコンベースの菌叢解析のための包括的なプラットフォーム MOCHI

微生物叢の解析は、健康や科学にとって重要な意味を持つ。これらの解析では、16S/18S rRNA遺伝子シーケンスを利用して分類群を同定し、種の多様性を予測する。しかし、微生物叢データを解析するための利用可能なツールのほとんどは、適切な実装のために熟練…

gtdbtkのde_novo_wfコマンド

マニュアルより gtdbtkのde novo ワークフローは、ユーザー提供のゲノムと GTDB-Tk リファレンスゲノムを含むバクテリアと古細菌のツリーを推論する。分類学的な分類を得るにはclassify_wfワークフローを推奨し、de novoでdomain固有のツリーが必要な場合の…

バクテリアパンゲノムの探索的解析と可視化のためのウェブベースツール PanExplorer

パンゲノムアプローチは細菌の比較ゲノム解析や進化解析に多く用いられているが、バイオインフォマティシャンのいない生物学者にはまだ難しいため、細菌パンゲノムの探索を容易にする革新的なツールが必要である。PanExplorerは、様々なゲノム解析とレポート…

Foldseekを使ってAlphaFold UniProt DBから類似構造タンパク質を探す Foldseek server

2022/08/03 誤字修正 高精度な構造予測手法により、一般に公開されているタンパク質の構造が雪崩のように増えている。これらの構造を検索することが、構造解析の主なボトルネックになりつつある。Foldseekは、大規模な構造セットを高速かつ高感度に比較する…

グラフニューラルネットワークを用いてタンパク質機能予測を行う PANDA2

ハイスループットなシークエンス技術により、大量のタンパク質配列が生成されているが、タンパク質配列のアノテーションは、低スループットで高価な生物学的実験に大きく依存している。そのため、タンパク質配列から機能的な知識を推測するために、正確かつ…

メタゲノムにおける遺伝子予測精度を向上させた MetaGeneMark-2

メタゲノムに含まれるタンパク質遺伝子を正確に予測することは、よく知られた課題である。特に、短い遺伝子や不完全な遺伝子、翻訳開始部位の位置を特定することは困難である。原核生物の翻訳開始は、5'UTRに存在するShine-Dalgarno(SD)コンセンサス配列で…

メタゲノム解析のために擬似ロングリードを作成する PLR-GEN

ハイスループットなシークエンスデータを用いたメタゲノム解析は、培養せずに環境試料中の微生物ゲノムを構築できる強力な手法である。しかし、メタゲノム解析は、複数の微生物のゲノムが混在してメタゲノムを構成しているため、特にショートリードしか利用…

ショートリードとロングリードを用いたハプロタイプアセンブリツール HAT

ハプロタイプとは、1つの染色体上に共存する対立遺伝子のセットで、次世代に共に遺伝する。一倍体のリファレンスゲノムでは、この共起情報が失われるため、表現型と遺伝子型の対立遺伝子の組み合わせとの関連付けにしか利用できない。そのため、DNA塩基配列…

遺伝子およびタンパク質の相互作用を自動認識して検索する GePI

遺伝子とタンパク質の相互作用に関する知識は、生体分子研究にとって不可欠である。このような知識の大部分は文章で公開されており、構造化された方法でアクセスすることはできない。この状況を改善するために、自動的に抽出された相互作用の事実のリポジト…

DNAエンリッチメントのためのベイトデザインをスケーラブルに行う Syotti

ベイトエンリッチメントは、メタゲノム試料中の目的領域の増幅に成功したことから、広く普及しつつあるプロトコルである。この方法では、一組の合成プローブ(「ベイト」)を設計・製造し、断片化したメタゲノムDNAに適用する。プローブは断片化したDNAに結…

大規模な遺伝子バリアントアノテーションのための統合的かつ対話的なプラットフォーム Annotation Query (AnnoQ)

Annotation Query (AnnoQ) (http://annoq.org/)は、ヒトの遺伝子バリアントに対して包括的かつ最新の機能アノテーションを提供するために設計されている。このシステムは、Haplotype Reference Consortium (HRC) の約3900万個のヒトバリアントに、WGSAによる…

ゲノム配列やシークエンシングデータを公開リポジトリから取得する getSequenceInfo

2022/07/14 誤字修正 生物学的配列は、世界中で急速に、そして指数関数的に増加している。塩基配列データベースは、様々な生物について有意義なゲノム情報を提供する重要な役割を担っている。getSequenceInfoは、GenBank、RefSeq、European Nucleotide Archi…

機械学習を用いた微生物ゲノム品質の迅速で正確かつスケール可能な評価ツール CheckM2

DNA シーケンスとバイオインフォマティクスの進歩により、メタゲノム解析データからの微生物ゲノムの回収率は飛躍的に向上した。メタゲノム解析で得られたゲノムの品質を評価することは、解析に先立つ重要なステップである。本発表では、機械学習を利用してM…

reCOGnizer

Githubより reCOGnizerは、RPS-BLASTとCDDのデータベースをリファレンスとして、ドメインベースのアノテーションを行う。現在実装されている参照データベースはCDD, NCBIfam, Pfam, TIGRFAM, Protein Clusters, SMART, COG and KOGとなっている。reCOGnizer…