macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

assembly graph

配列をアセンブリグラフにマッピングしてグラフを拡張する minigraph

最近のシーケンシング技術の進歩により、個々のゲノムを参照ゲノムの質に合わせて組み立てることが可能になった。同一種からの複数のゲノムを統合し、統合された表現を生物学者が利用できるようにするにはどうすればよいのかは、依然として未解決の課題であ…

Linked readを使ってスキャフォールディングを行う ARBitR

ゲノムアセンブリの連続性は、構造的なリアレンジメント、遺伝子の順序、発散したゲノム間のシンテニー、遺伝子バリアント間のリンケージ、ゲノムの反復領域などを解析するために重要である。アセンブリの連続性はスキャフォールディングによって改善するこ…

HiFiロングリードの de Bruijn Graphsアセンブラ jumboDB

2020 12/14 間違いを修正。 de Bruijnグラフは多くのゲノムアセンブラの基礎となっているが、大規模なゲノムや大きなk-merサイズに対してどのようにしてこれらのグラフを構築するかは不明なままである。このアルゴリズムの課題は、最近、代替ストリンググラ…

バクテリアの高精度なアセンブリツール Platanus_B

2020 11/6 誤字修正 ショート DNA リードのデノボアセンブリは、特に大規模プロジェクトや疫学における高解像度の変異解析に不可欠な技術であり続けている。しかし、既存のツールでは、近縁の菌株を比較するのに必要な十分な精度が得られないことが多い。こ…

高速かつ低メモリ使用量でlarge genomeのde gbrujin graphを構築する Cuttlefish

ゲノム解析において、リファレンスゲノムの大規模なコレクションからコンパクトなde Bruijnグラフを構築することは、ますます関心が高まっている課題である。例えば、compacted colored reference de Bruijn graphsは、ショートリードとロングリードのアライ…

エラーの多いロングリードをアセンブリグラフにアラインする GraphAligner

ゲノムグラフは、遺伝的変異や配列の不確実性を表現することができる。ゲノムグラフに配列をアラインさせることは、エラー修正、ゲノムアセンブリ、パンゲノムグラフ内のバリアントのジェノタイピングなど、多くのアプリケーションの鍵を握っている。しかし…

De brujin アセンブラ BCALM 2

シーケンシング実験あたりのデータ量が増加するにつれて、フラグメントアセンブリはますます計算量が増加している。De Bruijn graphは、フラグメントアセンブリアルゴリズムで広く使用されているデータ構造で、リードのセットからの情報を表現するために使用…

ヌクレオチド配列をアセンブリグラフにアラインメントする SPAligner

ゲノムアセンブリのグラフベースの表現は、最近では遺伝子検索からハプロタイプ分離まで、さまざまなアプリケーションで利用されている。これらのアプリケーションの多くは、アセンブリグラフへの配列のアラインメントに基づいているが、このようなアライン…

GFAのインタラクティブな可視化ツール GfaViz

The graphical fragment assembly (GFA) フォーマットは、シーケンスグラフを表現するための新しい標準フォーマットである。GFA 1は主にアセンブリグラフを対象としていたが、新しい GFA 2 フォーマットはいくつかの機能を導入しており、scaffoldingグラフ、…

cloudSPAdes

2020 6/6コマンド修正 ロングリードシーケンシング技術(Pacific BiosciencesおよびOxford Nanoporesによって開発された)は、ショートリードシーケンシング技術と比較して改良されたアセンブリをもたらした。しかしながら、それらの応用、特にメタゲノミク…

アセンブリグラフからメタゲノムのビニングを行う GraphBin

メタゲノミクスの分野では、微生物群集の構造、多様性、生態についての貴重な知見が得られている。メタゲノム解析の重要なステップの1つは、長いコンティグにリードをアセンブリし、メタゲノムサンプル中に存在する異なる種に属するコンティグのグループにビ…

パンゲノムグラフから微生物の多様性を調べる PPanGGOLiN

2020 4/10 引用追加、タイトル修正 2021 1/4 追記 機能研究、進化研究、疫学研究のために比較ゲノムを使用するには、与えられた種での発現の観点から遺伝子ファミリーを分類する方法が必要である。これらの方法は、通常、分割や最適なクラス数を推論するため…

Bandageを使ってアセンブリグラフからターゲットの配列を選抜する

2020 3/12 写真差し替え、誤字修正、タイトル修正 De novoアセンブルして得たcontig配列から特定の配列を選抜するにはどうすれば良いだろうか?全ゲノムのショットガンシーケンシングを行なっていても、目的の配列はそのサブセットでしかないことは頻繁にあ…

オルガネラゲノムをターゲットアセンブリする GetOrganelle

2020 3/9 コメント修正 2020 3/9 誤字修正 2020 3/24 実行例の間違い修正 2020 3/27 コマンド修正 2020 9/5 コマンドが変更されているため手順を修正 2020 9/12 論文追記 2020 10/1 論文リンク追加 2020 10/9 コマンド修正 オルガネラには、plastome およびm…

(メタゲノムの)アセンブリグラフから環状plasmid配列を出力する SCAPP

メタゲノムシーケンスは、多くの新しい細菌ゲノムシーケンスの識別とアセンブリをもたらした。 これらのバクテリアはしばしばプラスミドを含んでおり、それはあまり研究も理解もされていない。 これらのプラスミドの研究を支援するために、SCAPP(Sequence C…

バクテリア(パン/メタ)ゲノムのグラフを構築する ptolemy

比較ゲノム研究における長年の制限は、リファレンスゲノムへの依存である。これにより、生物集団全体で特定できる遺伝的多様性のスペクトルを妨げる。これは、ゲノムアーキテクチャが大幅に異なる可能性のある微生物の世界で特に当てはまる。したがって、リ…

ターゲット配列とその近傍領域をアセンブリする mapsembler2

Mapsembler2は、ターゲットを絞ったアセンブリソフトウェアである。Mapsembler2は、入力として任意のNGSのrawリードセットとスターター配列を取り、ユーザーの選択に応じて、そのスターター配列近傍を線形シーケンスまたはグラフとして出力する。 以下のよう…

miniasmでアセンブリして得たGFAをポリッシュする minipolish

Miniasmはパワフルで高速なロングリードのアセンブリツールだが、polishステップを持たないため、実質、得られた配列は連結されたロングリードである。polishにはraconが使用できるが、raconはFASTAファイルで動作し、Miniasmが出力するGFAをファイルを入力…

アセンブリグラフから二次代謝産物生合成遺伝子クラスターを再構築する BiosyntheticSPAdes

微生物ゲノムまたはメタゲノムをアセンブリするための多くのツールが存在するが(Simpson et al、2009、Li et al、2015、Nurk et al、2017)、それらはすべて反復ドメインを有するタンパク質をコードする長い遺伝子を含むコンティグに関して限界がある。長い…

viral quasispeciesのハプロタイプを再構成する PEHaplo

高い突然変異率、自然選択および組換えは、RNAウイルス集団の高い遺伝的多様性につながる可能性がある(Domingo-Calap et al、2016)。これらはclosely relatedだが異なるウイルス株で構成されている。ウイルス集団のこれらのグループは、しばしばquasispeci…

アセンブリ過程でロングリードをフィルタリングする fpa

2020 4/23 論文追記 以前、ロングリードのアセンブリ前処理ツール yacrdを紹介した。 今回はアセンブリ過程でフィルタリングして出力を調節するfpaを紹介する。 以下のフィルタリングが行える (Githubより)。 internal match containment dovetails self mat…

アセンブリグラフからプラスミドを検出する HyAsP

プラスミドはバクテリアで一般的なextra-chromosomalのDNA分子である。プラスミドは、それらの長さ(それらはchromosomeよりはるかに短い傾向がある)、コピー数(プラスミドは細胞内に複数のコピーで存在する場合がある)およびGC含有量などの様々な特徴に…

様々なフォーマットのシーケンスファイルを素早くFASTA形式に変換する any2fasta

any2fastaは様々なフォーマットのシーケンスファイルをFASTAフォーマットに変換するperlスクリプトである。他の依存関係はなしにコアのPerlモジュールのみを使用する。非常に高速に実行する。(公開の動機はGithub参照) 以下のフォーマットをサポートしてい…

アセンブリのグラフを分析する Asgan

Asgan - [As] sembly [G] raphs [An] alyzer - は、アセンブリグラフを分析するためのツールである。 このツールはGFA形式の2つのアセンブリグラフを入力として受け取り、そのグラフの最小セットの相同配列(シンテニーパス)を見つけ、見つかったパスに基づ…

メタゲノムデータセットをタンパク質レベルでアセンブリし、ホモログサーチを行う GRASP2

メタゲノミクスは、特定の微生物群集のゲノム含有量を研究するための培養に依存しないアプローチである。典型的なメタゲノミクス研究では、環境サンプルから微生物のDNAが抽出され、次世代シークエンシング(NGS)技術を使用してシークエンシングされる。中…

viral quasispeciesのアセンブリを行う SAVAGE

2019 5/20 誤字修正、コメント、ヘルプ追加 HIV、Zika、Ebolaなどのウイルスは、一般的にウイルス準種(viral quasispecies, wiki)と呼ばれる、遺伝的に関連しているが異なる変異株の集団として宿主に存在する。それぞれ独自のハプロタイプ配列によって特徴…

RNA seqデータの正規化を行いアセンブリ負荷を軽減する ORNA

2019 5/17 誤字修正 シーケンサのスループットの増加および価格の低下に伴い、高カバレッジシーケンシングデータセットの生成は日常的になっている。これは、ゲノムおよびトランスクリプトームのデノボアセンブリのためのいくつかの異なるアプローチの開発を…

ロングリードのリファレンスガイドアセンブリや連鎖地図のマーカーによるガイドアセンブリを行う Kermit

ハイスループットな第二世代シーケンシング技術は、大規模な新規アセンブリを可能にし、そして一般化した。しかしながら、それらのショートリード長は今日でも大きな問題を引き起こしている。1分子リアルタイムシークエンシング(SMRT)およびオックスフォ…

アセンブリグラフのGFAを可視化する Assembly Graph Browser (AGB)

現在、ほとんどのゲノムアセンブリプロジェクトは、アセンブリのより包括的な表現を提供するアセンブリグラフよりもむしろコンティグおよびscaffoldsに焦点を合わせている。 大きなアセンブリグラフのインタラクティブな視覚化は未解決の問題であり続けてい…

アセンブリのグラフを可視化し、アセンブリの評価・分析を助ける SGTK

2018 11/27 誤字修正 Scaffoldingはすべてのゲノムアセンブリパイプラインの重要なステップである。scaffoldingにより、メイトペアライブラリやロングリードなどのさまざまなタイプのリンケージ情報を使用してコンティグをより長い配列にアラインできる。 こ…