macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

メガサイズのマルチプルアライメントや数千の配列のマルチプルアライメントが可能なFSA

2019 7/29 condaインストール、help追記 

  

公式サイト

http://fsa.sourceforge.net

Q&A

FSA Frequently Asked Questions

 

ダウンロード

sorceforge

https://sourceforge.net/projects/fsa/

解凍して、中に入りビルドする。

./configure
make
make install

fsa -h #インストール確認

#bioconda (link)
conda install -c bioconda fsa

メガサイズの配列を比較する際にはmummerかexonerate(またはMercator)を使うので、あらかじめbrew等でインストールしておく。  

brew install mummer exonerate

mummer -h #インストール確認
exonerate -h #インストール確認

> fsa --help

$ fsa --help

fsa - Distance-based alignment of DNA, RNA and proteins.

Usage: fsa [options] <sequence file(s)>

 

Command-line options (righthandmost options take precedence)

------------------------------------------------------------

-h,-help,--help                   display this message

-v,--version                      display version

 

Logging options

---------------

--log <string>                    turn on diagnostic logging (-loghelp shows syntax)

--logfile <file>                  log to file

--logcopy <file>                  log to file and standard error

--logtime                         timestamp standard error (logfile stamped automatically)

--logxml                          (default) add XML timestamps (--nologxml to disable)

--logerr                          log on standard error (default)

 

Output options

--------------

--stockholm                       output Stockholm alignments (default is multi-FASTA format)

--gui                             record alignment & statistical model for interactive Java GUI

--write-params                    write learned emission distributions (substitution matrices) to disk

--write-posteriors                write learned pairwise posterior alignment probability matrices to disk

 

Parallelization options

-----------------------

(Parallelization not available; please see the manual for more information.)

 

Database options

----------------

(Database not available; please see the manual for more information.)

 

Pair HMM model options

----------------------

--nucprot                         align input nucleotide sequences (must all be nucleotide) in protein space

--indel2                          (default) use two sets of indel states in Pair HMM (use --noindel2 to use 1 set only)

--gapopen1 <real>                 initial gap-open probability (for set 1 of indel states)

--gapextend1 <real>               initial gap-extend probability (for set 1 of indel states)

--gapopen2 <real>                 initial gap-open probability (for set 2 of indel states)

--gapextend2 <real>               initial gap-extend probability (for set 2 of indel states)

--model <integer>                 initial substitution model: 0 = Jukes-Cantor, 1 = Tamura-Nei / BLOSUM62-like (proteins) (default is 1)

--time <real>                     Jukes-Cantor/Tamura-Nei evolutionary time parameter (default is 0.4)

--alphar <real>                   Tamura-Nei rate alpha_R (transition: purine) (default is 1.3)

--alphay <real>                   Tamura-Nei rate alpha_Y (transition: pyrimidine) (default is 1.3)

--beta <real>                     Tamura-Nei rate beta (transversion) (default is 1)

--load-probs <string>             load pairwise posterior probabilities from a file rather than performing inference with Pair HMM

 

Parameter estimation options

----------------------------

--learngap                        estimate indel probabilities for each pair of sequences (--nolearngap to disable)

--learnemit-bypair                (default for DNA and RNA) estimate emission probabilities for each pair of sequences (--nolearnemit-bypair to disable)

--learnemit-all                   (default for proteins) estimate emission probabilities averaged over all sequences (--nolearnemit-all to disable)

--nolearn                         disable ALL parameter learning (use ProbCons defaults)

--regularize                      (default) regularize learned emission and gap probabilities with Dirichlet prior (--noregularize to disable)

--regularization-gapscale <real>  scaling factor for transition prior

--regularization-emitscale <real> scaling factor for emission Dirichlet prior

--mininc <real>                   minimum fractional increase in log-likelihood per round of EM (default is 0.1)

--maxrounds <integer>             maximum number of iterations of EM (default is 3)

--mingapdata <integer>            minimum amount of sequence data (# of aligned pairs of characters) for training gap probs

--minemitdata <integer>           minimum amount of sequence data (# of aligned pairs of characters) for training emission probs

 

Multiple alignment options: sequence annealing

----------------------------------------------

--refinement <integer>            number of iterative refinement steps (default is unlimited; 0 for none)

--maxsn                           maximum sensitivity (instead of highest accuracy)

--gapfactor <real>                gap factor; 0 for highest sensitivity (the internal effective minimum is 0.01); >1 for higher specificity (default is 1)

--dynamicweights                  (default) enable dynamic edge re-weighting (--nodynamicweights to disable)

--treeweights <string>            weights for sequence pairs based on a tree

--require-homology                require that there be some detectable homology between all input sequences

 

Alignment speedup options: many sequences

-----------------------------------------

--fast                            fast alignment: use 5 * Erdos-Renyi threshold percent of sequence pairs for alignment and 2 * for learning

--refalign                        alignment to a reference sequence only (reference must be first sequence in file)

--mst-min <integer>               build --mst-min minimum spanning trees on input sequences for pairwise comparisons (default is 3)

--mst-max <integer>               build --mst-max maximum spanning trees on input sequences for pairwise comparisons (default is 0)

--mst-palm <integer>              build --mst-palm minimum spanning palm trees on input sequences for pairwise comparisons (default is 0)

--degree <integer>                use --degree number of pairwise comparisons between closest sequences (default is 0)

--kmer <integer>                  length of k-mers to use when determining sequence similarity

--alignment-fraction <real>       randomized fraction of all (n choose 2) pairs of sequences to consider during alignment inference (default is 1)

--alignment-number <integer>      total number of (randomized) pairs of sequences to consider during alignment inference

 

Alignment speedup options: long sequences (MUMmer)

--------------------------------------------------

--anchored                        use anchoring (--noanchored to disable)

--translated                      perform anchoring in protein space

--minlen <integer>                minimum length of exact matches for anchoring

--maxjoinlen <integer>            maximum ungapped separation of parallel adjacent anchors to join (default is 2)

--hardmasked                      leave hardmasked sequence >10 nt unaligned instead of randomizing it (default for long DNA)

 

Alignment speedup options: long sequences (exonerate)

-----------------------------------------------------

--exonerate                       call exonerate to get anchors (implies --anchored)

--minscore <integer>              minimum score of alignments found by exonerate (default is 100)

--softmasked                      input sequences are softmasked

 

Alignment speedup options: long sequences (Mercator)

----------------------------------------------------

--mercator <string>               input Mercator constraints

 

Memory savings

--------------

--maxram <integer>                maximum RAM to use (in megabytes) (default is -1)

--bandwidth <integer>             banding (default is no banding)

--minprob <real>                  minimum posterior probability to store (default is 0.01)

 

 

Input sequence file(s) must be in FASTA format.

 

FSA attempts to automatically figure out appropriate settings;

you can override its automated choices with the above options.

 

Please contact the FSA team at fsa@math.berkeley.edu with any questions or comments.

 

 

 

ラン

数百以上の配列(遺伝子)のアライメント

fsa --fast genes.fa --log 7
  •  --log <string> turn on diagnostic logging (-loghelp shows syntax)
  • --gui record alignment & statistical model for interactive Java GUI

--guiをつけると、マルチプルアライメント結果を付属するjavaアプリで描画できる。

 

mummerを使ったゲノムのアライメント

fsa --anchored genome_set.fa --log 7
  •  --anchored use anchoring (--noanchored to disable)

 

exonerateを使ったゲノムのアライメント

fsa --exonerate --softmasked genome_set.fa --log 7
  • --softmasked input sequences are softmasked
  • --exonerate call exonerate to get anchors (implies --anchored)

 

結果のビジュアル化

出力されたinput.fa.guiと使用したfastaを同じディレクトリに入れて以下のように入力のfasta名を打つ。

java -jar fsa-1.15.9/display/mad.jar genes.fa

f:id:kazumaxneo:20171210223250j:plain

 

他の描画ツール(wiki

 

ゲノムサイズのアライメントだとかなりの時間とメモリが要求されます。ご注意ください。

 

アライメントの感度と特異性のトレードオフのバランスをどう取るかについてはQ&Aに記載されています。そちらを参照してください(リンク)。

 

 

引用

Fast Statistical Alignment

Robert K. Bradley , Adam Roberts, Michael Smoot, Sudeep Juvekar, Jaeyoung Do, Colin Dewey, Ian Holmes, Lior Pachter

Published: May 29, 2009https://doi.org/10.1371/journal.pcbi.1000392

 

https://www.biostars.org/p/55961/

近縁な何百~何千のバクテリアの系統解析を行うGubbins

2022 1/26 インストール手順変更

 

ハイスループット第二世代のDNAシーケンス技術が導入されて以来、細菌集団の系統力学を推定するために使用されるデータセットのサイズが非常に大きくなってきている。多くの系統学的手法は数百の細菌ゲノムに拡張可能であるが、配列の水平転移のメカニズムが系統再構成に与える影響を緩和するために使用されてきた手法は、これらの新しいデータセットには対応できない。Gubbins (Genealogies Unbiased By recomBinations In Nucleotide Sequences)は、高い塩基置換密度を持つ遺伝子座を反復的に同定するアルゴリズムであり、同時にこれらの領域の外側にあると考えられる点突然変異に基づいて系統マップを構築する。シミュレーションにより、このアルゴリズムが細菌の短期進化の現実的なモデルの下で非常に正確な再構成を生成し、数百の細菌ゲノム配列のアラインメントをわずか数時間で実行できることが実証された。

 

 インストール 

macos Montereyにて、condaで環境を作って導入した。

Github

#bioconda
mamba create -n gubbins -y
conda activate gubbins
mamba install -c bioconda -y gubbins

#homebrew
brew install gubbins

> gubbins

$ gubbins

Error: File '' does not exist

This program is not supposed to be directly run. Use run_gubbins.py instead

Usage:  gubbins [options] alignment_file

Version: 3.1.6

  -r    detect recombinations mode

  -t    Newick tree file

  -v    VCF file

  -f    Original Multifasta file

  -m    Min SNPs for identifying a recombination block

  -a    Min window size

  -b    Max window size

  -h    Display this usage information.

 

 

ラン

ランにはマルチプルアライメント実行済みのファイルを使う。マニュアルではゲノムのマルチプルアライメントのツール例としてSnippyが挙げられている(Snippyの使い方)。

 

ここでは論文中のマルチプルアライメント実行済みalnファイルがダウンロードできるので、これを使う。 Gitの公式ページからダウンロード(下の方ののftp://ftp.〜から)。

ダウンロードしたalnファイルを指定して実行。

run_gubbins.py ST239.aln 

数分で解析は終わる。

いくつかのファイルが出力される。詳細はGithubトップページ参照。

f:id:kazumaxneo:20171210211327j:plain

 

出力される系統樹ファイルST239.final_tree.tre(newick format )をFigtreeで開く。

f:id:kazumaxneo:20171210210513j:plain

 フォントやノードのサイズはFigtree -> Preferencesから調整。

 

 

 

引用

Rapid phylogenetic analysis of large samples of recombinant bacterial whole genome sequences using Gubbins

Nicholas J. Croucher Andrew J. Page Thomas R. Connor Aidan J. Delaney Jacqueline A. Keane Stephen D. Bentley Julian Parkhill Simon R. Harris

Nucleic Acids Research, Volume 43, Issue 3, 18 February 2015, Pages e15, https://doi.org/10.1093/nar/gku119

 

Figtree

http://tree.bio.ed.ac.uk/software/figtree/

 

SNVをコールしたり、全ゲノムのマルチプルアライメントを行う Snippy

2021 11/16 condaのインストール追記、help更新 

 

Snippyバクテリアのゲノムのマルチプルアライメントを行なって、SNV、indelをコールするツール。バリアントに基づいた系統解析を行う時などに使うことができる。

  

公式ページ

http://www.vicbioinformatics.com/software.snippy.shtml

マニュアル(README.md)

https://github.com/tseemann/snippy/blob/master/README.md

 

インストール

Bioperlがなければインストールしておく。(*いろいろモジュールを入れるので、perlbrewで環境構築した方が良いかもしれません。ここではその前提で書いてます。)。

#perlbrewのインストール 公式
#mac
\curl -L https://install.perlbrew.pl | bash
#linux
\wget -O - https://install.perlbrew.pl | bash

perlbrew -h #インストールの確認
perlbrew install perl-5.16.0 #ここでは5.16.0をインストール 数十分かかる
perlbrew list #利用可能なperlのバージョンを表示 * perl-5.16.0と出るはず
perlbrew switch 5.16.0 #5.16.0に切り替え
perl -v #version確認

perlbrew install-cpanm
cpanm Bio::Perl
cpanm Bio::SeqIO
cpanm File::Slurp
cpanm List::MoreUtils

#2021 1/16
#bioconda (link)
conda install -c bioconda snippy -y
conda install -c bioconda/label/broken snippy -y
conda install -c bioconda/label/cf201901 snippy -y

#dockerhub (公式ではない)
docker pull staphb/snippy

Bioperlのバージョン確認。

bash-3.2$ perl -MBio::Perl -le 'print $Bio::Perl::VERSION'

1.007002

 

本体  GIthub

brew tap tseemann/homebrew-bioinformatics-linux 
brew install snippy
snippy --help

全コマンド

bash-3.2$ snippy -h

Synopsis:

  snippy 3.2-dev - fast bacterial variant calling from NGS reads

Author:

  Torsten Seemann <torsten.seemann@gmail.com>

Usage:

  snippy [options] --outdir <dir> --ref <ref> --pe1 <R1.fq.gz> --pe2 <R2.fq.gz>

  snippy [options] --outdir <dir> --ref <ref> --se <454.fastq>

  snippy [options] --outdir <dir> --ref <ref> --peil <interleaved.fa.gz>

  snippy [options] --outdir <dir> --ref <ref> --ctgs <assembly.fasta>

Options:

  --help            This help

  --version         Print version and exit

  --citation        Print citation for referencing snippy

  --quiet           No screen output (default OFF)

  --cpus [N]        Maximum number of CPU cores to use (default '8')

  --reference [X]   Reference genome. Supports FASTA, GenBank, EMBL (not GFF) (default '')

  --outdir [X]      Output folder (default '')

  --prefix [X]      Prefix for output files (default 'snps')

  --force           Force overwrite of existing output folder (default OFF)

  --pe1|R1|left [X] Reads, paired-end R1 (left) (default '')

  --pe2|R2|right [X] Reads, paired-end R2 (right) (default '')

  --se|single [X]   Single-end reads (default '')

  --ctgs|contigs [X] Don't have reads use these contigs (default '')

  --peil [X]        Reads, paired-end R1/R2 interleaved (default '')

  --unmapped        Keep unmapped reads in BAM and write FASTQ (default OFF)

  --mapqual [N]     Minimum read mapping quality to consider (default '60')

  --basequal [N]    Minimum base quality to consider (default '20')

  --mincov [N]      Minimum coverage of variant site (default '10')

  --minfrac [n.n]   Minumum proportion for variant evidence (default '0.9')

  --report          Produce long report with visual alignment (slow) (default OFF)

  --cleanup         Remove most files not needed for snippy-core (inc. BAMs) (default OFF)

  --rgid [X]        Use this @RG ID: in the BAM header (default '')

  --bwaopt [X]      Extra BWA MEM options, eg. -x pacbio (default '')

 

 

ラン

1、 リファレンスとシーケンスデータ(fastq)を比較して、SNPsをコールする。

(bwa memでアライメント => freebayesでSNPs検出、vcftoolsでフィルタリング)

 /snippy-master/test/のテストデータをランする。

テスト1 ペアリードfastq

snippy --outdir test1 --force --ref example.fna --pe1 reads_R1.fastq.gz --pe2 reads_R2.fastq.gz --cpus 12
  • --outdir  Output folder (default '')
  • --force Force overwrite of existing output folder (default OFF)
  • --pe1|R1|left Reads, paired-end R1 (left) (default '')
  • --pe2|R2|right Reads, paired-end R2 (right) (default '')
  • --cpus  Maximum number of CPU cores to use (default '8')

  

 test1ディレクトリが作製され、その中にゲノムのマルチプルアライメントファイルなどが出力される。

f:id:kazumaxneo:20171209144844p:plain

出力されるのは、アライメントのbam、コンセンサス配列のFASTA、バリアントのVCF(フィルター有り/無し)、BED、GFF3、CSV、html、alnファイルなどになる。これら出力されるファイルの詳細はGithubのトップに記載されている(リンク)。

 

シングルfastq

snippy --outdir test2 --force --ref example.fna --se reads_R1.fastq.gz --cpus 12
  •  --se|single Single-end reads (default '')

 

 

 

 

2、WTとMTゲノムを比較する。

pseudo-readsに分解してアライメントが行われ、バリアントが検出される。

 

WTとMT1の比較

snippy --outdir mut1 --ref ref.gbk --ctgs mut1.fasta --cpus 12

WTとMT2の比較

snippy --outdir mut2 --ref ref.gbk --ctgs mut2.fasta --cpus 12

WTとMT1とMT2のゲノム比較

snippy-core mut1 mut2 

出力されるcore.full.alnが全ゲノム(ここでは3つ)のマルチプルアライメント結果となる。共通するSNPsなどもコールされる。結果をGubbinなどのツールに持ち込み、系統解析(Pan-Genome探索)を行うことができる。

 

 

 

引用

snippy: fast bacterial variant calling from NGS reads

Seemann T (2015)

https://github.com/tseemann/snippy

 

Slideshare

https://www.slideshare.net/torstenseemann/snippy-balti-bioinformatics-brum-uk-tue-5-may-2015

 

関連


バクテリアのPan genome解析ツール FRIPAN

2020 2/14 追記

 

公式ページ

http://www.vicbioinformatics.com/software.fripan.shtml

 

インストール

Github

https://github.com/drpowell/FriPan

brew install npm #npmがない人だけ

#python2環境で動かす
conda create -n FriPan python=2.7
conda activate FriPan
git clone https://github.com/drpowell/FriPan
cd FriPan
npm install
make compile

 

実行方法

git cloneしたFriPanのルートディレクトリにroaryで解析した結果のgene_presence_absence.csvファイルを変換したファイルを置く。input.roaryとリネームしておく。 

./server.sh

gene_presence_absence.csvファイルの変換スクリプト

https://github.com/kwongj/roary2fripan

 

デモデータ

 公式ページからリンクされているデモデータを開く。

f:id:kazumaxneo:20171209013449j:plain

 

緑のブロックにカーソルを合わせると、該当するゲノムが赤くなり、ゲノムとORFがポップアップ表示される。同時に上の系統樹とMDSのプロットの該当する菌も赤く表示される。

f:id:kazumaxneo:20171209121535p:plain

系統樹をクリックしても同じことができる。

f:id:kazumaxneo:20171209121920p:plain

 

 

 

右端のパラメータDendrogramをHorizontalに変更。

f:id:kazumaxneo:20171209121042p:plain

 

 Vertical scaleを0.5に縮小。

f:id:kazumaxneo:20171209121149p:plain

 

 

 

 

引用

FriPan - interactive pan-genome explorer

 

DGEリストからベン図を作成するwebサービス Vennt

2019 12/9 タイトル修正

 

Venntは共通/非共通のDGEsを図示するのに使われるvenn diagramを描画してくれるhtmlベースのツール。

 

公式ページ

http://drpowell.github.io/vennt/

インストール

Github

https://github.com/drpowell/vennt

brew install npm #npmがない人だけ

npm install -g browserify
npm install -g clean-css
npm install hbsfy@1.3
npm install handlebars-runtime
npm install coffeeify
./build.sh

 

  

 

ラン

ランにはcuffdiffの解析結果を入力するだけでよい。

python vennt.py --cuffdiff gene_exp.diff > my-vennt.html

 

公式サイトからリンクされているデモを確認してみる。

f:id:kazumaxneo:20171209003602j:plain

 

左上のboxをクリックすることでベン図に落とし込むデータを選択できる。

WT vs MT1とWT vs MT2だけ選択。

f:id:kazumaxneo:20171209003741j:plain

 

全データを選択し、FDRを0.01から0.05に変更、log FCは1に変更(2倍以上変動)。

f:id:kazumaxneo:20171209004020j:plain

3データ以上で共通するDGEはゼロになった。

 

ベン図の数値をクリックすれば、該当遺伝子のテーブルに切り替わる。青の2をクリック。

f:id:kazumaxneo:20171209005834j:plain

下の表に2遺伝子が表示された。

Download CSVからデータをダウンロードできる。この条件でクリックすると2遺伝子だけの.csvファイルとなる。

 

 

 

 

引用

Vennt by David R. Powell

 

webベースでRNA seqのDEG解析などができるDegust

2020 7/16  ツイート追記

 

Degustはweb上でRNA seq解析を行うことができるツール。DEG解析などを主眼においている。リードカウントデータ(CSVファイル)をアップロードするだけで使うことができる。

 

Degustに関するツイート

2021 2/10

 

 

 

簡単な説説明

Degust by David R. Powell

Github

https://github.com/drpowell/degust

 

webサイト(topにチュートリアルビデオとdemoデータもあり)Version : 3.1.0

http://degust.erc.monash.edu

使用するにはGoogleアカウントかtwitterアカウントでログインする必要がある。

 

Degust : Demo

 

 

demoデータ

f:id:kazumaxneo:20171208172625j:plain

 

左上のConditionsボックスから分析したいサンプルを変更できる。wtを外した。

f:id:kazumaxneo:20171208172724j:plain

 

wtのチェックを再び付け、methodをedgeRに変更、比較をwtに変え、FDRを0.05に変更、表示するlog fold changeを1(2倍以上変動)に変更。

f:id:kazumaxneo:20171208173339j:plain

 

 

heat mapの上にカーソルを合わせると、上の図で該当する遺伝子が強調表示される。

f:id:kazumaxneo:20171208175626j:plain

 

 

この条件で残った(DGEと判定された)geneをクリックすると、NCBI geneに飛ぶことができる。

f:id:kazumaxneo:20171208173610j:plain

 

  

歯周病菌Porphyromonas gingivalisのgeneであることがわかる。2つ登録されている。

f:id:kazumaxneo:20171208173643j:plain

他にデータがあれば、DEG判定された遺伝子が、どのような条件で変動する遺伝子なのか、他のデータから探ることもできる。 

NCBI GEO

https://www.ncbi.nlm.nih.gov/geo/

 

右のpathwayから特定のpathwaだけ表示することもできる。

Biosyntesis of Steroidsを選択。

f:id:kazumaxneo:20171208175136j:plain

2遺伝子だけDEG判定されている (FDRを1に戻した)。

 

pathwayを非選択に戻し、上のメニューからMA plotに切り替える。

f:id:kazumaxneo:20171208180023j:plain

赤はよりsignificantなgeneである。FDRの右にあるバーを動かす。

f:id:kazumaxneo:20171208180141j:plain

FDRを小さくするとほぼ赤のプロットだけになった。

 

MDS(主座標分析)

f:id:kazumaxneo:20171208180324j:plain

 

ライブラリサイズ

f:id:kazumaxneo:20171208180949j:plain

テーブルはCSV形式でダウンロードできる。

 

 

 

右端のR codeを選択すると、描画に用いられたRのコードを見ることができます。ログとして残しておくのもいいと思います。

 

引用

Degust by David R. Powell

 

多次元尺度構成法 | 複数の RNA-Seq サンプルを相関に基づいて 2 次元空間にプロット

 

 

 

 

ロングリードを使いcontigをアップグレードするFinisherSC

 

FinisherSCはPacbioなどのロングリード情報を使いcontigを伸ばす(contiguityを良くする)パイプライン。ショートリードから作ったcontigだけでなく、ロングリードから作ったcontigをアップグレードすることもできる。論文では同様の機能を持つPBjelly2よりもcontiguityが良好と主張されている。

 

 

インストール 

依存

mummer

ダウンロードしてビルドしておく

MUMmer - Browse Files at SourceForge.net

tar -xvzf MUMmer3.23.tar
cd MUMmer3.23/
make check
make install

 

 

Github

https://github.com/kakitone/finishingTool

git clone https://github.com/kakitone/finishingTool.git
cd finishingTool/
python finisherSC.py -h #ヘルプの表示

 

 

ラン

 

Saccharomyces cerevisiaeのPacbioのテストデータを使用する。

https://gist.github.com/pb-jchin/6359919

のリストをダウンロードして "list" という名前に変更。

 

wgetを回してダウンロードする。

for f in `cat list`; do wget --force-directories $f; done 

 

この間にPacbio RSIIのHDF5からアセンブルに必要な情報のみ抽出してくれるDextractorをインストールしておく。

brew install Dextractor

 

ダウンロードした.h5ファイルが保存されたディレクトリに移動して、以下のように打つ。

cd datasets.pacb.com.s3.amazonaws.com/2013/Yeast/0001/Analysis_Results/
find . -name '*.bax.h5' | xargs DEXTRACTOR/dextract > contigs.fasta #xargsで入力を渡す

 

作成しcontigs.fastaのあるディレクトリと上記でインストールしたmummerのディレクトリを指定してラン。

python finisherSC.py -par 20 <path_to_contigs.fasta_directory> /user/local/bin/mummer/
  •  -par 20 

 

 

 

 

引用

FinisherSC: a repeat-aware tool for upgrading de novo assembly using long reads.

Lam KK1, LaButti K2, Khalak A3, Tse D4.

Bioinformatics. 2015 Oct 1;31(19):3207-9. doi: 10.1093/bioinformatics/btv280. Epub 2015 Jun 3.