macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

phylogenetic marker genes

キュレーションされたBUSCOセット(CUSCOs)を使ってCompleasm によるアノテーション精度を向上させる phyca

ユニバーサルシングルコピーオルソログは、ゲノムの最も保存された構成要素である。これらは進化の歴史の研究や新しいアセンブリの評価に日常的に使用されているが、現在の方法は利用可能なゲノムデータからの情報を組み込んでいない。本研究ではまず、進化…

ディスペンサブル遺伝子(dispensable genes)を評価する QUOD

系統(種、属、高次のクレード)における遺伝子の非消耗性は、多くのゲノムシーケンスプロジェクトがパンゲノームレベルに移行するにつれて重要性を増している。ほとんどの解析では、遺伝子を、調査対象となったすべてのゲノムに存在する「コア遺伝子」と、…

コア遺伝子の立体構造情報を使って正確な系統復元を行う Unicore

あるクレードのほとんどのメンバーに共通するシングルコピーのコア遺伝子の解析は、系統復元やゲノムの質の評価など、生物学における重要な課題にとって重要である。コア遺伝子は従来、プロテオーム間のアミノ酸類似性の解析によって同定されてきたが、構造…

大規模な細菌の系統推定パイプライン OrthoPhyl

一般に公開されている細菌ゲノム配列の数は驚くほど多く(NCBIのGenBankだけでも200万アセンブル)、その数は増え続けている。このような豊富なデータから、これらの配列を進化の文脈の中で位置づける系統解析が求められている。系統的な配置は分類学的な分…

系統的忠実性が高い高度に保存された20個のシングルコピー遺伝子を使い、細菌ゲノムから自動で系統再構成を行う VBCG

系統学的解析は、細菌の多様性と進化を研究する上で切っても切り離せないものとなっており、多くの異なる細菌のコア遺伝子が照合され、系統樹の再構築に用いられてきた。しかし、これらの遺伝子は、すべての細菌ゲノムにおけるその存在と単一コピー率に基づ…

WGSやRNA-seqやTarget-captureなどのさまざまなショートリードデータからユーザーが指定した数百〜数千の遺伝子座の同祖配列を抽出し、系統解析に使用可能なMSAを出力する CAPTUS

ターゲットキャプチャー、RNA-Seq、ゲノムスキミング、深く読んだ全ゲノムシーケンスなど、多様なハイスループットシーケンスデータは系統ゲノム解析に利用されているが、このようなミックスされたデータを単一の系統ゲノムデータセットに統合するには、多く…

系統マーカー遺伝子を自動で取り出して自動で系統推定を行う PHANTASM

16SリボソームRNA(rRNA)遺伝子の塩基配列は、数十年にわたり原核生物の分類学的位置づけを知るために用いられてきた。全ゲノム解析は、生物の進化的関係をより明確にすることができるが、このような解析には、微生物学者には珍しい計算能力が必要なことが…

細菌の分類学的に制限された遺伝子を探索するためのリソース TRGdb

TRGdbデータベースは、バクテリアの分類学的制限遺伝子(TRG)に特化したリソースである。最新の細菌分類学に基づき、異なる属や種に特異的な遺伝子を包括的に収集している。ユーザーインターフェースは、ブラウズや検索、配列の類似性探索を容易にする。また…

アセンブリ時のハプロタイプ重複に対処するためのツール群 Mabs

真核生物のゲノム解析は、ゲノム解読法の進歩にもかかわらず、未だエラーフリーには至っていない。真核生物のゲノムアセンブリの問題の中には、対立遺伝子が誤ってパラロガスとしてアセンブリされるケースとして現れる、いわゆる「ハプロタイプ重複」と呼ば…

真菌のITSやコアタンパク質コード遺伝子を使った系統解析を自動で実行する UFCG pipeline

UFCG pipelineを使うと、真菌のITSやコアタンパク質を使った系統解析を自動で実行できます。簡単にですが、使い方を確認しておきます。 UFCG is a database&pipeline for fungi phylogenomics. Our db contains 61 marker genes, 20 widely used & 41 novel …

BUSCO遺伝子を使った系統解析のsnakemakeワークフロー

2022/09/13 追記、誤字修正 2024/01/16 タイトル修正、わかりにくい説明を修正 Current Protocols in BioinformaticsにBUSCOの使い方に関する論文が出ています。(引用1)。その論文のパートの1つ;”Support Protocol 3: BUILDING PHYLOGENOMIC TREES”では…

真菌のコア遺伝子データベースとゲノムワイド系統解析のためのパイプライン UFCG

系統発生学では、生物の進化的関係をゲノム情報によって研究する。各生物から関連する遺伝子を抽出し、多重配列アラインメントを構築し、系統樹によって進化関係を再構築するのが一般的なアプローチである。この解析には、分類群内での効率的な自動化を可能…

生のシークエンシングリードからスケーラブルな高精度の系統樹を生成する Read2Tree

2023/06/27 論文引用 シーケンスのリードデータから系統樹を推定することは、生物学の基礎となるものである。しかし、最新の系統樹解析では、複雑なパイプラインを実行する必要があり、多大な計算コストと人件費がかかる上、シーケンスのカバレッジ、アセン…

BUSCO v5

2021 8/14 誤字修正 2021 11/29 誤字修正 2022/06/08 インストールのバージョン更新, 7/3 追記, 7/20 追記 2024/03/07 追記, 3/16 BUSCOv5.7.0について追記、06/10 誤字修正 2025/02/14 3.8.2に変更, 8/13 誤字修正 ゲノムデータやメタゲノムデータの品質を…

オルガネラゲノムの遺伝子の多重整列を自動で構築するパイプライン HomBlocks

オルガネラの系統解析を行うためには、あらかじめアラインメントされた単一遺伝子データセットを連結したマルチ遺伝子アラインメントマトリクスを正確に構築する必要がある。しかし、数十から数百の相同遺伝子からなる高品質なマルチ遺伝子アラインメントを…

最新のバクテリアコア遺伝子セットを使った系統解析パイプライン UBCG2

2021 6/3 誤字修正 系統樹の再構築は、近年、細菌種間の進化関係を解明するための日常的かつ重要な作業となっている。最も広く用いられている方法は、細菌のドメイン全体に普遍的に存在するシングルコピーのコア遺伝子を連結して利用するものである。著者ら…

メタゲノムアセンブリのコンタミネーションを調べる magpurify

2025/01/15 追記 ヒトの腸内細菌叢の多くの種のゲノム配列は、実験室条件下での微生物の培養が困難であることが主な理由で、依然として不明である。本研究では、地理的にも表現型的にも多様なヒトの3,810の糞便メタゲノムから60,664の原核生物のドラフトゲノ…

連結コアタンパク質の多重整列を素早く生成する cognac

ゲノムデータの量は増加の一途をたどっている。そのためには、利用可能なデータ量に合わせた系統解析のためのツールが必要とされている。本研究では、このようなニーズに対応するために、系統解析のための遺伝子連結アラインメントを迅速に生成するためのユ…

(バクテリア)共存在する遺伝子を探索するwebサービス PhyloCorrelate

系統プロファイリング」として知られるゲノム間のco-occurring genesを統計的に検出する方法は、遺伝子間の機能的関連を推測するための強力なバイオインフォマティクス技術である。系統樹データベースのサイズと複雑さ、系統樹構造の考慮の難しさ、ゲノムア…

大規模な微生物ゲノムの系統推定を行う PhyloPhlAn 3.0(メタゲノムアセンブリにも対応)

2020 12/17 誤字修正 2021 1/25 help追記, linkミス修正 2021 11/10 説明追加 2023/08/23 チュートリアル追記 単離物やメタゲノムアセンブリ、シングルセルのゲノム配列解読はますます加速しており、これらはすべて公的資源によって利用可能になってきている…

メタゲノムのビニングされた真核生物由来コンティグの品質を調べる EukCC

微生物のDNAは日常的に抽出され、配列決定され、ゲノムにアセンブリされている。回収されたゲノムの品質を推定することは、不完全なゲノムや汚染されたゲノムが公表されるのを防ぐために非常に重要である。シングルコピーマーカー遺伝子(SCMG)は、新たにア…

fungiのゲノムアセンブリ完全性評価ツール FGMP

ハイスループットシークエンシングおよび分析ツールの最近の爆発により、培養不可能な生物を含む生命のツリーを横切るほぼ全ての種のシークエンシングがより容易かつ安価になった。しかしながら、これらのゲノムの質と完全性は、リピート領域をアセンブリす…

メタバーコディングのデータベース配列キュレーションなどを行うツールキット MetaCurator

配列ベースの生物学的コミュニティの特徴付けの過程において、配列の教師ありのtaxonomic classification は重要な目標である。多数の配列分類ソフトウェアプログラムは、配列類似性を測り、そして配列類似性と分類学的所属との間の関係をモデル化することに…

メタゲノムの既知および未知バクテリアの存在量を推定single-copy phylogenetic marker genesに基づいて見積もる mOTUs2

2019 4/26 mergeエラー修正及び追記 2019 7/2 インストール追記 2019 8/6 リンク追加 2020 4/18 condaインストール追記 2020 8/24 インストール 追記 微生物は、地球上の生命や環境中の地球化学的プロセスに影響を与える、相互作用する種の複雑な共同体に住…

メタゲノムデータからrRNAをターゲットアセンブリし、系統アサイン、定量、比較する phyloFlash

2019 5/9 インストール追記 2020 6/11 インストール方法修正 2020 6/16 trusted contigのコマンド追記 2020 10/28 論文追記 2023/05/10 ツイート追記 ショットガンメタゲノミクスは、微生物群集の機能を調査し、それらの系統または分類学的な構成を決定する…

バクテリアシーケンシングデータの種間、種内汚染を検出する ConFindr

ConFindrはバクテリア種間およびバクテリア種内のNGSデータの汚染を検出できるパイプライン。かなり良い感受性で実行でき、 2つのサンプルを混ぜ合わせ、それらの間にわずか500のSNP(> 99.9%同一!)がある場合でも同定することができる。これにより、NGS…

NGSデータまたはアセンブリからバクテリアやアーキアのtaxanomic assignmentを行い、ゲノムのnoveltyなどを評価する MIGA

Small subunit ribosomal RNA gene (16S)は、30年以上にわたり、原核生物種およびそのコミュニティの多様性をカタログ化および研究するために首尾よく使用されてきた。しかしながら、16S(論文より ref.1)によって効率的に評価することができない種および…

cGOF-assisted アセンブリパイプライン GAAP

次世代シークエンシング(NGS)技術は、近年では数万の原核生物ゲノム配列を生成し、原核生物のゲノム研究を大いに促進している。cost-effectiveで、カバレッジが高いので高品質の信頼できるデータが生成できる。しかしながら、原核生物の完全なゲノム配列の…

メタゲノムから16Sなどのターゲットアセンブリを行う MATAM

2022/06/24 追記 Preprintより ショットガンのメタゲノムシーケンシングは、未知の微生物の多様性が未知のまま残っている、ヒトの微生物から土壌や海洋のサンプルまで、さまざまな用途で、未培養の微生物サンプルを研究する未曾有の機会を提供する。 メタゲ…

phylogenetic marker genesを検出し、marker genes全てを使って系統比較する自動化されたパイプライン ezTree

2019 3/9 docker pullリンク追記、インストールの流れ修正 2019 10/28誤字修正 2020 4/7 docker commnadの誤字修正 メタゲノミクスおよびシングルセルゲノミクスは、様々な環境からの新規生物の発見および調査のための有望な方法として確立されている。 "mic…