macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

シーケンシングリードの前処理を行う AUSPP

 

 ショートリードをリファレンスゲノム/配列にマッピングできるショートリードアライナーは多数あり、それらのほとんどはFASTQファイルを入力クエリファイルとして直接受け入れることができる。ただし、通常、生データは前処理する必要がある。さまざまな次世代シーケンス(NGS)テクノロジーによって生成された生データの前処理に特化したソフトウェアプログラムはほとんど存在しない。ここでは、NGSショートリードの前処理と自動マッピングのためのPerlスクリプトベースのパイプラインであるAUSPPを紹介する。このパイプラインには、品質管理、アダプターのトリミング、リードのcollapsing、structural RNAの除去、長さの選択、リードマッピング、および正規化されたwiggleファイルの作成が含まれる。生データからゲノムマッピングまでの処理を容易にするため、メタ分析前のステップの強力なツールとなる。最も重要なことは、AUSPPには多くのタイプのNGSデータ用のデフォルトの処理パイプライン設定があるため、ほとんどの場合、ユーザーは生データとゲノムを提供するだけで利用できることである。 AUSPPは移植可能で簡単にインストールでき、ソースコードhttps://github.com/highlei/AUSPPから無料で入手できる。

 

インストール

ubuntu18.04LTS環境でテストした。

依存

  • Auspp was developed on linux (Ubuntu 14.04.5 LTS), and hasn't been tested on other OS platform. 
  • Auspp was developed on perl version 5.14.
  • PATH executables one of the following short read aligners: bowtie and bowtie-build or bowtie2 and bowtie2-build or soap and 2bwt-builder or hisat2 and hisat2-build or bwa

本体 Github

git clone https://github.com/highlei/auspp.git
cd auspp/

#管理者権限で
perl MAKEFILE.pl -i /usr/local/bin/

auspp

# auspp

 

==========================| /usr/local/bin/auspp  start |=================================

Now = 2020-02-11 19:38:36

 

Version :   1.0

Author  :   Lei Gao   <highlei@hotmail.com> or <leigao@szu.edu.cn>

 

Usage:   /usr/local/bin/auspp -i fastq_file -x sampleID -M Modes {-D index | -G genome} [options]

Usage:   /usr/local/bin/auspp -i fastq_file -x sampleID -M degradome [options]

 

   -i <str>   input the fastq file (Could be gzip'ed (extension: .gz)). eg: Col.fastq or Col_r1.fastq

   -I <str>   input the other mate if paired-end sequencing. eg: Col_r2.fastq

   -x <str>   input the sampleID for -i library. eg: Col

   -D <str>   reference sequence index: soap index or bwa or bowtie(2) or hisat2 index. 

   -G <str>   reference sequence/genome in fasta format. (Required when -P soap and step 7.) 

   -M <str>   Modes: presets for supported SEQ: 

            smallRNA   same as   -P soap -s 124567 -L "20-25;21;22;23;24;All";

            mRNA       same as   -P hisat2 -s 1367 -L All;

            ribo       same as   -P soap -s 12467 -L All;

            chip       same as   -P bowtie -s 167 -L All; 

            snp        same as   -P baw mem -s 167 -L All;

            pseudo     same as   -P soap -s 1267 -L All;

            nucleosome same as   -P bowtie2 -s 167 -L All;

            degradome  same as   -s 12;

            sRNAexample will run example 

 

   Customized settings by user:

   -s <str>   running step (eg: 1-7 or 1367):

            1 quality control,2 trim,3 collapse,4 filter,5 length,6 mapping,7 GenomeBrowser

   -P <str>   align program: soap or "bwa aln" or "bwa mem" or bowtie(2) or hasat2 or tophat2. [soap]

   -L <str>   the read lenth range. eg: "20-25;21;22;23;24;All" [All]

 

   Required by special step:

   -R <str>   r/t/sn/snoRNA or repeats or other database in fasta format for filter;

            must be makeblastdb by blast+. Required when step 4 activated 

   -a <str>   adaptor sequence. Required when step 2 activated. e.g.TGGAATTCTCGGG. [AGATCGGAAGA]

   -A <str>   adaptor sequence for mate if paired-end. e.g. AAAAAAAAAAA. [AGATCGGAAGA]

   -f <str>   gtf file for hisat2 or gff File for tophat2 if have. eg: TAIR10_GFF3_genes.gff.gtf

   -e <str>   where is the example/?(It locates in the directory of source code). Required when mode=sRNAexample. eg: yoursoft/auspp/example/

 

   Defult settings are recommended:

   -d <str>   name of directory for store intermediate/output files. [fasta,trim,filter,map2gnm]

              Normally, fasta/: output of 1st step; trim/: output of 2nd and 3rd step; filter/: output of 4th and 5th; map2gnm/: output of 6th step; map2gnm/bam2wigM/: output of 7th step

   -S <str>   the parameter set for soap or bwa samse or bowtie(2) or hasat2 or tophat2. 

   -T <str>   parameter settings for trim_adaptor ["-l 9 -m 18"]

   -Q <str>   quality control. ["-q 20 -c 5"]

   -C <str>   copy number filter. e.g. "-c 5,10" to discard reads with copy>10 or copy<5. ["-c 1,"]

 

   -h   display this help

 

Example:

/usr/local/bin/auspp -i Col.fastq -x Col -M smallRNA -D tair10.Chr.fa.index

/usr/local/bin/auspp -i Col.fastq -x Col -M RNA -G tair10.Chr.fa

/usr/local/bin/auspp -i Col.fastq -x Col -M degradome

 

Documentation:

perldoc auspp

makeblastのバイナリがエラーを吐いたので修正した(*1)。

 

 

テストラン

cd example/
auspp -M sRNAexample

出力

f:id:kazumaxneo:20200211203511p:plain

test.sRNA.auspp.info

f:id:kazumaxneo:20200211203228p:plain

test.sRNA.auspp.info.pdf

f:id:kazumaxneo:20200211203027p:plain

test.sRNA.auspp.lenDist.pdf

f:id:kazumaxneo:20200211203058p:plain

  

実行方法

fastqとプリセット、リファレンスゲノムを指定する。

auspp -i pair_r1.fastq.gz -I pair_r2.fastq.gz -x Col -M mRNA -G tair10.Chr.fa
  • -i     input the fastq file (Could be gzip'ed (extension: .gz)). eg: Col.fastq or Col_r1.fastq
  • -I     input the other mate if paired-end sequencing. eg: Col_r2.fastq
  • -x     input the sampleID for -i library. eg: Col
  • -G    reference sequence/genome in fasta format. (Required when -P soap and step 7.) 
  • -M   Modes: presets for supported SEQ: 
                smallRNA   same as   -P soap -s 124567 -L "20-25;21;22;23;24;All";
                mRNA       same as   -P hisat2 -s 1367 -L All;
                ribo       same as   -P soap -s 12467 -L All;
                chip       same as   -P bowtie -s 167 -L All; 
                snp        same as   -P baw mem -s 167 -L All;
                pseudo     same as   -P soap -s 1267 -L All;
                nucleosome same as   -P bowtie2 -s 167 -L All;
                degradome  same as   -s 12;
                sRNAexample will run example 
     

引用

AUSPP: A universal short-read pre-processing package

Gao L, Wu C, Liu L

J Bioinform Comput Biol. 2019 Dec;17(6):1950037

 

*1

condaを使ってblastパッケージを導入した。