macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

SPAdesの出力をフィルタリングする CVLFilter

 

 イルミナのシーケンシングは酵母ゲノミクスに革命をもたらし、現在、市販のドラフトゲノムシーケンシングの価格は200ドル未満になった。人気のあるSPAdesアセンブラにより、あらゆる酵母種のde novoゲノムアセンブリを簡単に生成できる。ただし、ゲノムアセンブリを作成することは日常的になっているが、それらに含まれるものを理解することには依然として困難を伴う。ここでは、SPAdesが各scaffoldsの長さとカバレッジについて提供する情報をグラフ化して、アセンブリの性質を調査し、考えられる問題を診断する方法を示す。ミトコンドリアDNA、リボソームDNA、および酵母プラスミドに由来するscaffoldsは、その高いカバレッジによって識別できる。 multiplexシーケンシングでの他のサンプルからの相互汚染は、カバレッジの低さで識別できる。イルミナのプロトコルで分子標準として頻繁に使用されるバクテリオファージPhiX174およびLambda DNAに由来するscaffoldsも検出できる。Interspecies hybridsなどのヘテロ接合性の高い酵母ゲノムのアセンブリには、多くの場合、2種類のscaffoldsが含まれる。2つの対立遺伝子が2つの別々のscaffoldsにアセンブリし、それぞれがカバレッジレベルCを有するゲノムの領域と、 単一のscaffoldsにco-assembled され(collapsed)カバレッジレベル2Cを持つ領域に分かれる。 Microsoft ExcelまたはGoogleシートを使用して実行できるCoverage-vs.-Length(CVL)プロットでデータを視覚化すると、ゲノムアセンブリの構造を理解し、異常なscaffoldsまたはコンティグを検出する簡単な方法が提供される。 CVLプロットで特定された汚染配列を除去するためにアセンブリをフィルター処理できるPythonスクリプトを提供する。

 

 

f:id:kazumaxneo:20200206032016p:plain

CVL plot of the assembly from Torulaspora delbrueckii strain L17, which is highly heterozygous.  論文より転載

 

インストール

condaでpython2.7の仮想環境を作ってテストした(macos10.14、anaconda3.7使用)。

Github

Git clone https://github.com/APDLS/CVLFilter.git
cd CVLFilter/

#python2環境で実行
conda create -n python2 python=2.7
conda activate python2
python CVLFilter.py

 

実行方法

spades出力のscaffoldsを選抜する。対話形式でファイルを指定して進める。

python CVLFilter.py

$ python CVLFilter.py -h

Enter the name of the scaffolds/contig input file: 

 

 

フルパスでscaffolds.fastaを指定

Enter the name of the scaffolds/contig input file: /data/spades_output/scaffolds.fasta  


次に最低サイズ(bp)を 指定

Enter the minimum contig length to retain: 300

 

最後に最低カバレッジを 指定

Enter the minimum contig coverage to retain: 10

done

Working...

Done

Filtered scaffolds output to the file: <open file 'scaffolds_filtered.fasta', mode 'w' at 0x1057a38a0>

scaffolds_filtered.fastaが出力される。

 

coverageとlenghのplot:CVLplotを出力するRscriptも提供されています。Githubで確認して下さい。

引用

Coverage-Versus-Length Plots, a Simple Quality Control Step for de Novo Yeast Genome Sequence Assemblies

Douglass AP, O'Brien CE, Offei B, Coughlan AY, Ortiz-Merino RA, Butler G, Byrne KP, Wolfe KH

G3 (Bethesda). 2019 Mar 7;9(3):879-887