FinisherSCはPacbioなどのロングリード情報を使いcontigを伸ばす(contiguityを良くする)パイプライン。ショートリードから作ったcontigだけでなく、ロングリードから作ったcontigをアップグレードすることもできる。論文では同様の機能を持つPBjelly2よりもcontiguityが良好と主張されている。
インストール
依存
mummer
ダウンロードしてビルドしておく
MUMmer - Browse Files at SourceForge.net
tar -xvzf MUMmer3.23.tar
cd MUMmer3.23/
make check
make install
https://github.com/kakitone/finishingTool
git clone https://github.com/kakitone/finishingTool.git
cd finishingTool/
python finisherSC.py -h #ヘルプの表示
ラン
Saccharomyces cerevisiaeのPacbioのテストデータを使用する。
https://gist.github.com/pb-jchin/6359919
のリストをダウンロードして "list" という名前に変更。
wgetを回してダウンロードする。
for f in `cat list`; do wget --force-directories $f; done
この間にPacbio RSIIのHDF5からアセンブルに必要な情報のみ抽出してくれるDextractorをインストールしておく。
brew install Dextractor
ダウンロードした.h5ファイルが保存されたディレクトリに移動して、以下のように打つ。
cd datasets.pacb.com.s3.amazonaws.com/2013/Yeast/0001/Analysis_Results/
find . -name '*.bax.h5' | xargs DEXTRACTOR/dextract > contigs.fasta #xargsで入力を渡す
作成しcontigs.fastaのあるディレクトリと上記でインストールしたmummerのディレクトリを指定してラン。
python finisherSC.py -par 20 <path_to_contigs.fasta_directory> /user/local/bin/mummer/
- -par 20
引用
FinisherSC: a repeat-aware tool for upgrading de novo assembly using long reads.
Lam KK1, LaButti K2, Khalak A3, Tse D4.
Bioinformatics. 2015 Oct 1;31(19):3207-9. doi: 10.1093/bioinformatics/btv280. Epub 2015 Jun 3.