macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

assembly

NCBIのGenBankゲノムアセンブリ (GCA) とRefSeqゲノムアセンブリ(GCF)

2020/11/19 誤字修正 識別子がGCA_で始まるゲノムアセンブリは、GenBankアセンブリと呼ばれる。GenBankアセンブリは、ユーザーがサブミットしたゲノムアセンブリを意味する。一方、識別子がGCF_で始まるゲノムアセンブリは、RefSeqのアセンブリになる。こち…

Viral quasispeciesのアセンブリを行う virus-vg

ウイルスは、遺伝的に関連のある突然変異株のコレクションであるquasispeciesとして宿主に寄生する。Viral quasispeciesのアセンブリは、リードデータから株固有のハプロタイプを再構築することであり、株間の相対的な存在量を予測することは、治療に関連し…

(主に植物)LTRレトロトランスポゾンを識別可能な割合でゲノムアセンブリを評価するIndex; LAI

2020 11/7 タイトル修正 2020 11/8 感想追加 2020 11/11 誤字修正 構造的特徴に基づくコンピュータプログラムを用いたLTR要素の同定は効率的であるが(10,11)、多数の偽陽性(4)に悩まされている。最近、インタクトなLTRレトロトランスポゾンの正確なde novo同…

バクテリアの高精度なアセンブリツール Platanus_B

2020 11/6 誤字修正 ショート DNA リードのデノボアセンブリは、特に大規模プロジェクトや疫学における高解像度の変異解析に不可欠な技術であり続けている。しかし、既存のツールでは、近縁の菌株を比較するのに必要な十分な精度が得られないことが多い。こ…

ロングリードのアラインメントツール minialign

Minialignは、PacBioやNanoporeのロングリード用に設計された、高速で中程度の精度のヌクレオチド配列アライメントツールである。ミニマップオーバーラッパーのミニマイザーベースのインデックス、配列ベースのシードチェイニング、SIMD-パラレルSmith-Water…

NCBI Genome のBrowse by Organism機能

2020 10/25 追記 ハイスループットシークエンシング技術の普及により、NCBIなどの塩基配列データベースに登録されるゲノム数は爆発的に増大している。BLAST検索をやり直したら少し前は無かったゲノム情報が出てきた、という話も度々耳にする。特にバクテリア…

動物ミトコンドリアゲノムのアセンブリとアノテーションのパイプライン MitoZ

ハイスループットシーケンシング(HTS)技術の登場により、系統樹や生物多様性のモニタリング研究において、大規模な核酸シーケンシングが日常的に行われる時代になってきている。例えば、複雑なDNA抽出物(環境DNA(eDNA)など)を利用したメタバーコーディ…

複数のロングリードドラフトアセンブリを使って連続性の高いアセンブリを得る GALA

高品質のゲノムアセンブリは、遺伝学や医学研究の分野で幅広く応用されている。しかし、現在のワークフローでは、ギャップのない染色体スケールのアセンブリを実現することは非常に困難である。ここでは、preliminaryなアセンブリやキメラを含む生データから…

完全性、正確性、連続性を考量してゲノムアセンブリを評価する PDR

既存のゲノムアセンブリ評価指標は、ゲノムアセンブリの品質の特定の側面についての限られた知見しか提供しておらず、時にはお互いに意見が合わないこともある。アセンブリ間の統合的な比較をより良くするために、著者らはここで新しいゲノムアセンブリ評価…

De brujin アセンブラ BCALM 2

シーケンシング実験あたりのデータ量が増加するにつれて、フラグメントアセンブリはますます計算量が増加している。De Bruijn graphは、フラグメントアセンブリアルゴリズムで広く使用されているデータ構造で、リードのセットからの情報を表現するために使用…

(vertebrateなどの) ラージゲノムをアセンブルするためのパイプライン CSA

脊椎動物ラージゲノムの全ゲノムショットガン(WGS)アセンブリは、過去20年間のバイオインフォマティクス研究の重要なテーマだが、脊椎動物の大型ゲノムについては、単一のバイオインフォマティクスツールを用いて完全にアセンブリされた染色体を得ることは…

cloudSPAdes

2020 6/6コマンド修正 ロングリードシーケンシング技術(Pacific BiosciencesおよびOxford Nanoporesによって開発された)は、ショートリードシーケンシング技術と比較して改良されたアセンブリをもたらした。しかしながら、それらの応用、特にメタゲノミク…

メタゲノムデータからウィルスゲノムをアセンブルする metaviralSPAdes

2020 5/25 タイトル修正 2020 11/11 dockerリンク追加 現在知られているウイルスのセットは着実に拡大しているが、これまでのところ、地球上のウイルスのごく一部しかシークエンシングされていない。ショットガンメタゲノムシークエンシングは、新しいウイル…

ショートリードアセンブリからplasmid配列を同定する Platon

プラスミドはchromosomeから独立して複製する染色体外遺伝要素であり、細菌の環境適応において重要な役割を果たしている。プラスミドは、潜在的な移動性または接合能力により、抗菌薬耐性遺伝子や病原性因子の重要な遺伝的乗り物であり、臨床的にも大きな意…

メタゲノムアセンブリのウイルスゲノム品質を評価する CheckV

2020 5/9 誤字修正 ここ数年の間に、メタゲノミクスにより何百万もの新しいウイルス配列のアセンブルが可能になり、地球上のウイルスの多様性に関する知識が大幅に拡大した。しかし、これらの配列は小さな断片から完全なゲノムまで様々であり、その品質を推…

オルガネラゲノムをターゲットアセンブリする NOVOPlasty

次世代シークエンシング(NGS)技術の進化により、様々なアセンブルアルゴリズムが開発されてきたが、オルガネラゲノムのアセンブルに焦点を当てたものはほとんどない。これらのゲノムは、系統研究や食品の同定に利用されており、GenBankに登録されている真…

第3世代ロングリードを使ってアセンブリのギャップを閉じる TGS-GapCloser

2020 9/8 論文追記 2020 10/2 condaインストール追記 2020 10/9 helpとインストール手順更新 ゲノムシーケンシング技術の開発は、この10年間でコストの削減とムーアの法則を超えるスピードでスループットを向上させてきた[ref.1]。遺伝子配列データベースは…

公開されている真核生物アセンブリを分析する BlobToolKit

2020 6/15 追記 種の起源について不可知なシーケンスデバイスによって作成されたシーケンシングデータから標的ゲノムを再構築する場合、汚染された DNA によって混同される可能性がある。サンプル処理中に混入した場合でも、標的DNAとの共抽出によって混入し…

単離バクテリアゲノムのアセンブリ、アノテーション、比較ゲノム解析を行う高度に自動化されたパイプライン ASA3P

2020 3/22 ツイート、関連ツールリンク追記 2020 3/25 コメント追記 2020 3/26 誤字修正 2020 5/12 インストール追記 1977年に、DNAシーケンスがフレデリックサンガーによってサイエンスコミュニティに導入された[ref.1]。それ以来、DNAシーケンスは、ジデオ…

(small eukaryotes)ゲノムアセンブリがchromosome levelに達しているかどうかを評価する Tapestry

ゲノムには、複製、転座、大きな逆位、倍数性変異などの複雑な機能が含まれている可能性があり、アセンブリやアセンブリの検証が困難になる場合がある。John Daveyが開発したTapestryと呼ばれるツールを使用すると、小さく、ほぼ完全な真核生物ゲノム(50 Mb…

オルガネラゲノムをターゲットアセンブリする GetOrganelle

2020 3/9 コメント修正 2020 3/9 誤字修正 2020 3/24 実行例の間違い修正 2020 3/27 コマンド修正 2020 9/5 コマンドが変更されているため手順を修正 2020 9/12 論文追記 2020 10/1 論文リンク追加 2020 10/9 コマンド修正 オルガネラには、plastome およびm…

(ヒトゲノム)ハイパフォーマンスなハイブリッドアセンブラ WENGAN

2020 3/7 パラメータの表記ミス修正 ロングリードシーケンシング技術の継続的な改善により、高品質のゲノムを約束する新しいde novoアセンブリ時代が始まっている。ただしロングリードのみを使用して、大規模で反復性の高いヒトゲノムの正確なゲノムアセンブ…

アセンブリ結果を評価するwebサービス gVolante

全ゲノムやトランスクリプトームなどの包括的な配列情報へのアクセスが増加するとともに、それらの品質を評価する必要性が高まっている。N50などのシーケンス長に基づくメトリックが標準になったが、これはアセンブリ品質の1つの側面のみを評価する。逆に、…

(メタゲノムの)アセンブリグラフから環状plasmid配列を出力する SCAPP

メタゲノムシーケンスは、多くの新しい細菌ゲノムシーケンスの識別とアセンブリをもたらした。 これらのバクテリアはしばしばプラスミドを含んでおり、それはあまり研究も理解もされていない。 これらのプラスミドの研究を支援するために、SCAPP(Sequence C…

エラーの多いロングリードのエラー修正とアセンブリを行う NECAT

2020 2/7 パラメータエラー修正 2020 2/8 わかりにくい表現を修正 2020 3/12 わかりにくい説明を修正 ナノポアのロングリードはde novoゲノムアセンブリで有利だが、ゲノム研究への適用は、これらロングリードの複雑なエラーによって依然として妨げられてい…

SPAdesの出力をフィルタリングする CVLFilter

イルミナのシーケンシングは酵母ゲノミクスに革命をもたらし、現在、市販のドラフトゲノムシーケンシングの価格は200ドル未満になった。人気のあるSPAdesアセンブラにより、あらゆる酵母種のde novoゲノムアセンブリを簡単に生成できる。ただし、ゲノムアセ…

高速なヒトゲノムのアセンブラ Peregrine

初期のヒトゲノムプロジェクトと安価なDNAシークエンシング技術の技術の開発は、学術研究とゲノム情報を使用して人間の健康を改善する産業の両方を進歩させた。それは、遺伝子型と表現型の関連と多くの重要かつ臨床関連のアプリケーションのための貴重な情報…

バクテリアゲノムの自動アセンブリ、アノテーション付けツール asqcan

asqcanは、細菌ゲノム配列の自動アセンブリ、品質管理、アノテーション付けのためのワークフローパイプラインである。 最新のバクテリアシーケンシングプロジェクトには、かなりの数の単離株が含まれる場合があり、必要なQCとアノテーションの作成、実行に時…

ターゲット配列とその近傍領域をアセンブリする mapsembler2

Mapsembler2は、ターゲットを絞ったアセンブリソフトウェアである。Mapsembler2は、入力として任意のNGSのrawリードセットとスターター配列を取り、ユーザーの選択に応じて、そのスターター配列近傍を線形シーケンスまたはグラフとして出力する。 以下のよう…

ロングリードやショートリードのRNA seq情報をもとに転写領域をアセンブリして出力する StringTie2

2020 7/1 インストール方法追記, コマンド追記 2020 7/2 タイトル修正 2020 7/27 merge追記 RNAシーケンス(RNAシーケンス)データセット内の転写産物の量を測定することは、細胞の働きを理解するための強力な方法である。リードをリファレンスゲノムに合わ…