macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

ロングリードを使いcontigをアップグレードするFinisherSC

 

FinisherSCはPacbioなどのロングリード情報を使いcontigを伸ばす(contiguityを良くする)パイプライン。ショートリードから作ったcontigだけでなく、ロングリードから作ったcontigをアップグレードすることもできる。論文では同様の機能を持つPBjelly2よりもcontiguityが良好と主張されている。

 

 

インストール 

依存

mummer

ダウンロードしてビルドしておく

MUMmer - Browse Files at SourceForge.net

tar -xvzf MUMmer3.23.tar
cd MUMmer3.23/
make check
make install

 

 

Github

https://github.com/kakitone/finishingTool

git clone https://github.com/kakitone/finishingTool.git
cd finishingTool/
python finisherSC.py -h #ヘルプの表示

 

 

ラン

 

Saccharomyces cerevisiaeのPacbioのテストデータを使用する。

https://gist.github.com/pb-jchin/6359919

のリストをダウンロードして "list" という名前に変更。

 

wgetを回してダウンロードする。

for f in `cat list`; do wget --force-directories $f; done 

 

この間にPacbio RSIIのHDF5からアセンブルに必要な情報のみ抽出してくれるDextractorをインストールしておく。

brew install Dextractor

 

ダウンロードした.h5ファイルが保存されたディレクトリに移動して、以下のように打つ。

cd datasets.pacb.com.s3.amazonaws.com/2013/Yeast/0001/Analysis_Results/
find . -name '*.bax.h5' | xargs DEXTRACTOR/dextract > contigs.fasta #xargsで入力を渡す

 

作成しcontigs.fastaのあるディレクトリと上記でインストールしたmummerのディレクトリを指定してラン。

python finisherSC.py -par 20 <path_to_contigs.fasta_directory> /user/local/bin/mummer/
  •  -par 20 

 

 

 

 

引用

FinisherSC: a repeat-aware tool for upgrading de novo assembly using long reads.

Lam KK1, LaButti K2, Khalak A3, Tse D4.

Bioinformatics. 2015 Oct 1;31(19):3207-9. doi: 10.1093/bioinformatics/btv280. Epub 2015 Jun 3.