イルミナのシーケンシングは酵母ゲノミクスに革命をもたらし、現在、市販のドラフトゲノムシーケンシングの価格は200ドル未満になった。人気のあるSPAdesアセンブラにより、あらゆる酵母種のde novoゲノムアセンブリを簡単に生成できる。ただし、ゲノムアセンブリを作成することは日常的になっているが、それらに含まれるものを理解することには依然として困難を伴う。ここでは、SPAdesが各scaffoldsの長さとカバレッジについて提供する情報をグラフ化して、アセンブリの性質を調査し、考えられる問題を診断する方法を示す。ミトコンドリアDNA、リボソームDNA、および酵母プラスミドに由来するscaffoldsは、その高いカバレッジによって識別できる。 multiplexシーケンシングでの他のサンプルからの相互汚染は、カバレッジの低さで識別できる。イルミナのプロトコルで分子標準として頻繁に使用されるバクテリオファージPhiX174およびLambda DNAに由来するscaffoldsも検出できる。Interspecies hybridsなどのヘテロ接合性の高い酵母ゲノムのアセンブリには、多くの場合、2種類のscaffoldsが含まれる。2つの対立遺伝子が2つの別々のscaffoldsにアセンブリし、それぞれがカバレッジレベルCを有するゲノムの領域と、 単一のscaffoldsにco-assembled され(collapsed)カバレッジレベル2Cを持つ領域に分かれる。 Microsoft ExcelまたはGoogleシートを使用して実行できるCoverage-vs.-Length(CVL)プロットでデータを視覚化すると、ゲノムアセンブリの構造を理解し、異常なscaffoldsまたはコンティグを検出する簡単な方法が提供される。 CVLプロットで特定された汚染配列を除去するためにアセンブリをフィルター処理できるPythonスクリプトを提供する。
CVL plot of the assembly from Torulaspora delbrueckii strain L17, which is highly heterozygous. 論文より転載
インストール
condaでpython2.7の仮想環境を作ってテストした(macos10.14、anaconda3.7使用)。
Git clone https://github.com/APDLS/CVLFilter.git
cd CVLFilter/
#python2環境で実行
conda create -n python2 python=2.7
conda activate python2
python CVLFilter.py
実行方法
spades出力のscaffoldsを選抜する。対話形式でファイルを指定して進める。
python CVLFilter.py
$ python CVLFilter.py -h
Enter the name of the scaffolds/contig input file:
フルパスでscaffolds.fastaを指定
Enter the name of the scaffolds/contig input file: /data/spades_output/scaffolds.fasta
次に最低サイズ(bp)を 指定
Enter the minimum contig length to retain: 300
最後に最低カバレッジを 指定
Enter the minimum contig coverage to retain: 10
done
Working...
Done
Filtered scaffolds output to the file: <open file 'scaffolds_filtered.fasta', mode 'w' at 0x1057a38a0>
scaffolds_filtered.fastaが出力される。
coverageとlenghのplot:CVLplotを出力するRscriptも提供されています。Githubで確認して下さい。
引用
Coverage-Versus-Length Plots, a Simple Quality Control Step for de Novo Yeast Genome Sequence Assemblies
Douglass AP, O'Brien CE, Offei B, Coughlan AY, Ortiz-Merino RA, Butler G, Byrne KP, Wolfe KH
G3 (Bethesda). 2019 Mar 7;9(3):879-887