macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

assembly

NCBI Genome のBrowse by Organism機能

2020 10/25 追記 ハイスループットシークエンシング技術の普及により、NCBIなどの塩基配列データベースに登録されるゲノム数は爆発的に増大している。BLAST検索をやり直したら少し前は無かったゲノム情報が出てきた、という話も度々耳にする。特にバクテリア…

動物ミトコンドリアゲノムのアセンブリとアノテーションのパイプライン MitoZ

ハイスループットシーケンシング(HTS)技術の登場により、系統樹や生物多様性のモニタリング研究において、大規模な核酸シーケンシングが日常的に行われる時代になってきている。例えば、複雑なDNA抽出物(環境DNA(eDNA)など)を利用したメタバーコーディ…

複数のロングリードドラフトアセンブリを使って連続性の高いアセンブリを得る GALA

高品質のゲノムアセンブリは、遺伝学や医学研究の分野で幅広く応用されている。しかし、現在のワークフローでは、ギャップのない染色体スケールのアセンブリを実現することは非常に困難である。ここでは、preliminaryなアセンブリやキメラを含む生データから…

完全性、正確性、連続性を考量してゲノムアセンブリを評価する PDR

既存のゲノムアセンブリ評価指標は、ゲノムアセンブリの品質の特定の側面についての限られた知見しか提供しておらず、時にはお互いに意見が合わないこともある。アセンブリ間の統合的な比較をより良くするために、著者らはここで新しいゲノムアセンブリ評価…

De brujin アセンブラ BCALM 2

シーケンシング実験あたりのデータ量が増加するにつれて、フラグメントアセンブリはますます計算量が増加している。De Bruijn graphは、フラグメントアセンブリアルゴリズムで広く使用されているデータ構造で、リードのセットからの情報を表現するために使用…

(vertebrateなどの) ラージゲノムをアセンブルするためのパイプライン CSA

脊椎動物ラージゲノムの全ゲノムショットガン(WGS)アセンブリは、過去20年間のバイオインフォマティクス研究の重要なテーマだが、脊椎動物の大型ゲノムについては、単一のバイオインフォマティクスツールを用いて完全にアセンブリされた染色体を得ることは…

cloudSPAdes

2020 6/6コマンド修正 ロングリードシーケンシング技術(Pacific BiosciencesおよびOxford Nanoporesによって開発された)は、ショートリードシーケンシング技術と比較して改良されたアセンブリをもたらした。しかしながら、それらの応用、特にメタゲノミク…

メタゲノムデータからウィルスゲノムをアセンブルする metaviralSPAdes

2020 5/25 タイトル修正 2020 11/11 dockerリンク追加 現在知られているウイルスのセットは着実に拡大しているが、これまでのところ、地球上のウイルスのごく一部しかシークエンシングされていない。ショットガンメタゲノムシークエンシングは、新しいウイル…

ショートリードアセンブリからplasmid配列を同定する Platon

プラスミドはchromosomeから独立して複製する染色体外遺伝要素であり、細菌の環境適応において重要な役割を果たしている。プラスミドは、潜在的な移動性または接合能力により、抗菌薬耐性遺伝子や病原性因子の重要な遺伝的乗り物であり、臨床的にも大きな意…

メタゲノムアセンブリのウイルスゲノム品質を評価する CheckV

2020 5/9 誤字修正 2020 12/22 論文追加 ここ数年の間に、メタゲノミクスにより何百万もの新しいウイルス配列のアセンブルが可能になり、地球上のウイルスの多様性に関する知識が大幅に拡大した。しかし、これらの配列は小さな断片から完全なゲノムまで様々…

オルガネラゲノムをターゲットアセンブリする NOVOPlasty

次世代シークエンシング(NGS)技術の進化により、様々なアセンブルアルゴリズムが開発されてきたが、オルガネラゲノムのアセンブルに焦点を当てたものはほとんどない。これらのゲノムは、系統研究や食品の同定に利用されており、GenBankに登録されている真…

第3世代ロングリードを使ってアセンブリのギャップを閉じる TGS-GapCloser

2020 9/8 論文追記 2020 10/2 condaインストール追記 2020 10/9 helpとインストール手順更新 ゲノムシーケンシング技術の開発は、この10年間でコストの削減とムーアの法則を超えるスピードでスループットを向上させてきた[ref.1]。遺伝子配列データベースは…

公開されている真核生物アセンブリを分析する BlobToolKit

2020 6/15 追記 種の起源について不可知なシーケンスデバイスによって作成されたシーケンシングデータから標的ゲノムを再構築する場合、汚染された DNA によって混同される可能性がある。サンプル処理中に混入した場合でも、標的DNAとの共抽出によって混入し…

単離バクテリアゲノムのアセンブリ、アノテーション、比較ゲノム解析を行う高度に自動化されたパイプライン ASA3P

2020 3/22 ツイート、関連ツールリンク追記 2020 3/25 コメント追記 2020 3/26 誤字修正 2020 5/12 インストール追記 1977年に、DNAシーケンスがフレデリックサンガーによってサイエンスコミュニティに導入された[ref.1]。それ以来、DNAシーケンスは、ジデオ…

(small eukaryotes)ゲノムアセンブリがchromosome levelに達しているかどうかを評価する Tapestry

2022/12/30 追記 ゲノムには、複製、転座、大きな逆位、倍数性変異などの複雑な機能が含まれている可能性があり、アセンブリやアセンブリの検証が困難になる場合がある。John Daveyが開発したTapestryと呼ばれるツールを使用すると、小さく、ほぼ完全な真核…

オルガネラゲノムをターゲットアセンブリする GetOrganelle

2020 3/9 コメント修正 2020 3/9 誤字修正 2020 3/24 実行例の間違い修正 2020 3/27 コマンド修正 2020 9/5 コマンドが変更されているため手順を修正 2020 9/12 論文追記 2020 10/1 論文リンク追加 2020 10/9 コマンド修正 2022 1/5 誤字修正 オルガネラには…

(ヒトゲノム)ハイパフォーマンスなハイブリッドアセンブラ WENGAN

2020 3/7 パラメータの表記ミス修正 ロングリードシーケンシング技術の継続的な改善により、高品質のゲノムを約束する新しいde novoアセンブリ時代が始まっている。ただしロングリードのみを使用して、大規模で反復性の高いヒトゲノムの正確なゲノムアセンブ…

アセンブリ結果を評価するwebサービス gVolante

2021 5/12 ツイート追記 全ゲノムやトランスクリプトームなどの包括的な配列情報へのアクセスが増加するとともに、それらの品質を評価する必要性が高まっている。N50などのシーケンス長に基づくメトリックが標準になったが、これはアセンブリ品質の1つの側面…

(メタゲノムの)アセンブリグラフから環状plasmid配列を出力する SCAPP

2021 6/27 論文引用 メタゲノムシーケンスは、多くの新しい細菌ゲノムシーケンスの識別とアセンブリをもたらした。 これらのバクテリアはしばしばプラスミドを含んでおり、それはあまり研究も理解もされていない。 これらのプラスミドの研究を支援するために…

エラーの多いロングリードのエラー修正とアセンブリを行う NECAT

2020 2/7 パラメータエラー修正、2/8 わかりにくい表現を修正、3/12 わかりにくい説明を修正 2021 1/5 論文引用、9/8 関連研究のリンク追記 2023/04/12 コマンド微修正(.pl削除) ナノポアのロングリードはde novoゲノムアセンブリで有利だが、ゲノム研究への…

SPAdesの出力をフィルタリングする CVLFilter

イルミナのシーケンシングは酵母ゲノミクスに革命をもたらし、現在、市販のドラフトゲノムシーケンシングの価格は200ドル未満になった。人気のあるSPAdesアセンブラにより、あらゆる酵母種のde novoゲノムアセンブリを簡単に生成できる。ただし、ゲノムアセ…

高速なヒトゲノムのアセンブラ Peregrine

初期のヒトゲノムプロジェクトと安価なDNAシークエンシング技術の技術の開発は、学術研究とゲノム情報を使用して人間の健康を改善する産業の両方を進歩させた。それは、遺伝子型と表現型の関連と多くの重要かつ臨床関連のアプリケーションのための貴重な情報…

バクテリアゲノムの自動アセンブリ、アノテーション付けツール asqcan

asqcanは、細菌ゲノム配列の自動アセンブリ、品質管理、アノテーション付けのためのワークフローパイプラインである。 最新のバクテリアシーケンシングプロジェクトには、かなりの数の単離株が含まれる場合があり、必要なQCとアノテーションの作成、実行に時…

ターゲット配列とその近傍領域をアセンブリする mapsembler2

Mapsembler2は、ターゲットを絞ったアセンブリソフトウェアである。Mapsembler2は、入力として任意のNGSのrawリードセットとスターター配列を取り、ユーザーの選択に応じて、そのスターター配列近傍を線形シーケンスまたはグラフとして出力する。 以下のよう…

ロングリードやショートリードのRNA seq情報をもとに転写領域をアセンブリして出力する StringTie2

2020 7/1 インストール方法追記, コマンド追記 2020 7/2 タイトル修正 2020 7/27 merge追記 2022/06/09 論文引用 2022/12/10, 12/28追記 2023/01/21 レポジトリURL修正 RNAシーケンス(RNAシーケンス)データセット内の転写産物の量を測定することは、細胞の…

包括的なメタゲノム解析パイプライン MAGO

微生物種はさまざまな環境で重要な役割を果たしているが、メタゲノムデータセットからの高品質のゲノムの生成は、その生態学的および進化のダイナミクスを理解する上で大きな障害となっている。 Metagenome-Assembled Genomes Orchestra(MAGO)は、複数のマ…

assemblyの分析結果をJSON形式で出力する assembly-scan

タイトルの通りのツール。入力アセンブリ配列の簡単な要約統計をJSON形式で出力する。 開発の動機は、assemblathon-stats.plやassembly-statsなどの代替手段があるものの、これらはJSONを出力しなかったためと記載されている。 インストール macos10.14のpyt…

メタゲノムアセンブラの注意点

2019 11/25 誤字修正 メタゲノムのde novoアセンブラについて少し誤解している人がいたので、注意喚起を兼ねて簡単にまとめておく。 メタゲノムのデータセットは特定の環境の生物の混ぜ物のシーケンシングリードに由来しているため、よく似ているがわずかに…

(植物など)ゲノムアセンブリとアノテーションのクオリティを分析するwebサーバー GenomeQC

2020 3/3 論文追記 過去数十年にわたって、Genlisea aureaの63 Mb [ref.1]からPinus taedaの22 Gb [ref.2]までのサイズの多数の植物ゲノムアセンブリが生成された。このようなプロジェクトから生成されたゲノムリソースは、改良された作物品種の開発に貢献し…

contigをscaffoldingする Scaffold_builder

#今回からDNAシーケンシング => DNAシークエンシングに統一。 第二世代シークエンシングは、完全なゲノムシークエンシングのための最も費用対効果が高く、すぐに利用可能な技術である。完全なゲノム配列のアセンブリとscaffoldingはしばしば課題のままとなっ…