macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

複数リファレンスゲノムを用いたコンティグのスキャフォールディングを行うサーバ Multi-CSAR

 

 Multi-CSAR は、ターゲットゲノムのアセンブリにおいて、複数のリファレンスゲノムに基づくより大きなスキャフォールドにコンティグを効率的かつ正確に順序付け、方向付けることができるウェブサーバである。Multi-CSAR は、ターゲットゲノムと複数のリファレンスゲノムがある場合、まずターゲットゲノムと各リファレンスゲノムに共通する配列マーカーを特定し、これらの配列マーカーを利用して各単一リファレンスゲノムに基づくターゲットゲノムのscaffoldを計算し、最後にすべての単一リファレンス由来のscaffoldを組み合わせて複数リファレンス由来のscaffoldにする。Multi-CSAR を実行するには、scaffold されるターゲットゲノムと 1 つまたは複数のリファレンスゲノムを multi-FASTA フォーマットでアップロードする。また、Multi-CSARでは、リファレンスゲノムに対して異なる重みを自動的に計算する「weighting scheme of reference genomes」、配列マーカーを特定する「NUCmer on nucleotides」または「PROmer on translated amino acids」を選択することができる。出力ページでは、Multi-CSARは、複数のリファレンスゲノムから得られたスキャフォールドを、スキャフォールドされたコンティグの正確さを視覚的に確認するための2つのグラフ表示(Circos plotとdotplot)およびスキャフォールドをさらに詳細に確認するための表形式で表示する。Multi-CSAR は、http://genome.cs.nthu.edu.tw/Multi-CSAR/ でオンライン公開されている。

 

help

http://genome.cs.nthu.edu.tw/Multi-CSAR/index.html?help

 

webサーバ

http://genome.cs.nthu.edu.tw/Multi-CSAR/にアクセスする。

 

 

ターゲットゲノムドラフトをmulti-FASTA形式でアップロードする。さらに、リファレンスゲノムを1つまたは複数、multi-FASTA形式でアップロードする。プラスボタンをクリックすると、リファレンスゲノムのフィールドを追加できる。メールアドレスを入力すると、ジョブ終了後に 通知が届く。

Using weighting scheme of reference genomes のチェックボックスをオンにすると、リファレンスゲノム全ての重みが、ターゲットゲノムとの配列の類似性に基づいて計測される。リファレンスゲノムがターゲットゲノムに類似しているほど、その重みは大きくなる。(重み付けスキームを使用しないと全て 1)。
NUCmer on nucleotides" または "PROmer on translated amino acids"を選択すると、ターゲットゲノムと各参照ゲノムに共通する配列マーカー(類似ゲノムセグメント)が検出される。NUCmerは入力DNA配列上で直接配列マーカーを検出し、PROmerは入力DNA配列の6フレームタンパク質翻訳物上で検出する。

 

 

スキャフォールドされたターゲットゲノムと選択されたリファレンスゲノム間のcircosプロット。配列マーカーが2層の内円に沿って交互に配置されています。

 

dot plot

 

スキャホールディングされた配列は右端のタブからダウンロードできる。レポジトリに配置されているテストデータ: Burkholderia_target.fnaを使うと、1223contigが9 scaffoldsまで繋がった。

 

引用

Multi-CSAR: a web server for scaffolding contigs using multiple reference genomes 
Shu-Cheng Liu, Yan-Ru Ju, Chin Lung Lu
Nucleic Acids Research, Published: 07 May 2022

 

関連