デノボゲノムアセンブリは、ロングリードシーケンシングおよびマッピングの進歩により、大きなゲノム上でますます扱いやすくなってきており、生物の系統樹全体にわたるより高品質でより数の多いリファレンスがもたらされている(Lee et al、2014; Roberts et al、2013)。研究者は今、それらを比較するために、いくつかの関連する系統または種のゲノムを複数配列決定することができるようになっている。このやり方は、単一ゲノムでSNPsやindelを検出するこれまでの一般的なリシークエンシング手法よりも大幅に改善された手法である。ハイクオリティなゲノムアセンブリの数が増加している現在、これらのゲノム間の重要な違いを示す大きな構造変異を検出する必要が出てきている。例えば、1つのヒトゲノムには10,000以上の構造的変異が存在し得る(下記参照)。
Assemblyticsはリファレンスゲノムと比較することでデノボゲノムアセンブリからバリアントを検出して分析するWebアプリケーションである。 ユニークなアンカーフィルタリング手法を採用して、反復要素に対する堅牢性を高め、独自のアライメントシグネチャに基づいて6つのクラスのバリエーションを識別する。 複数のインタラクティブな視覚化により、変異のゲノム分布を詳細に探索することが可能になる。
AssemblyticsはMUMmerのnucmerプログラムからのアライメントを分析して、リファレンスまたは別のデノボアセンブリと比較し、サンプル中の各配列(コンティグ)における信頼性の高い構造変異体を同定する。この作業はすべてのアラインメントを迅速に識別することから始まる。次いで、アライメントをフィルタリングして、少なくともそのコンティグの他のアラインメントに含まれていないユニークなコンティグ配列アンカー(デフォルト:10kbp)を有するものを報告する。これは、dnadiff(Phillippy et al。、2008)のdelta-filterコンポーネントによって実行されるフィルタリングに似ているが(MuMmerパッケージのdnadiffコマンド)、dnadiffは等しく一致するリピートをarbitrarilyに選択する。次いで、変異体同定アルゴリズムは、サンプルコンティグに沿った連続するアライメントの各対を考慮し、これらのアライメント間の間隔および方向によって変異体の存在およびクラスを決定する。Assemblyticsは、すべての挿入および欠失変異体を1bpから最大10kbpのサイズまで同定し、この最大値をユニークな配列アンカーのサイズと一致するように調整する。これにより、転座や複雑なバリアントがindelとして解釈されることを防ぐ。複数の対立遺伝子からの変異体は独立して報告される。
Assemblyticsに関するツイート
Assemblyticsサーバー
準備
mummerでリファレンスとscaffoldsのFASTAを比較する。mummerはbrewで導入できる。
brew install mummer
ラン
1、mummerのnumerを使い、deltaファイルを作成する。
nucmer -maxmatch -l 100 -c 500 reference.fa assembly.fa -prefix OUT
- -l Set the minimum length of a single match (default 20)
- -c Sets the minimum length of a cluster of matches (default 65)
2、gzipで圧縮
gzip OUT.delta
3、上記のサーバーにアクセスし、作ったgzファイルをアップロードする(右のウィンドウをクリック)。パラメータを決めたらsubmitをクリック。
数分で結果が表示される。下ではONTのロングリードをアセンブルしてRaconでpolishしたcontigを使っているため、SNVやindel(アセンブリのエラーを大量に含む)が多い。
Harr plot表示。
全ての結果はページ下のボタンからzip形式でダウンロードできる。
引用
Assemblytics: a web analytics tool for the detection of variants from an assembly.
Nattestad M, Schatz MC
Bioinformatics. 2016 Oct 1;32(19):3021-3.