ショートリードをリファレンスゲノム/配列にマッピングできるショートリードアライナーは多数あり、それらのほとんどはFASTQファイルを入力クエリファイルとして直接受け入れることができる。ただし、通常、生データは前処理する必要がある。さまざまな次世代シーケンス(NGS)テクノロジーによって生成された生データの前処理に特化したソフトウェアプログラムはほとんど存在しない。ここでは、NGSショートリードの前処理と自動マッピングのためのPerlスクリプトベースのパイプラインであるAUSPPを紹介する。このパイプラインには、品質管理、アダプターのトリミング、リードのcollapsing、structural RNAの除去、長さの選択、リードマッピング、および正規化されたwiggleファイルの作成が含まれる。生データからゲノムマッピングまでの処理を容易にするため、メタ分析前のステップの強力なツールとなる。最も重要なことは、AUSPPには多くのタイプのNGSデータ用のデフォルトの処理パイプライン設定があるため、ほとんどの場合、ユーザーは生データとゲノムを提供するだけで利用できることである。 AUSPPは移植可能で簡単にインストールでき、ソースコードはhttps://github.com/highlei/AUSPPから無料で入手できる。
インストール
ubuntu18.04LTS環境でテストした。
依存
- Auspp was developed on linux (Ubuntu 14.04.5 LTS), and hasn't been tested on other OS platform.
- Auspp was developed on perl version 5.14.
- PATH executables one of the following short read aligners: bowtie and bowtie-build or bowtie2 and bowtie2-build or soap and 2bwt-builder or hisat2 and hisat2-build or bwa
本体 Github
git clone https://github.com/highlei/auspp.git
cd auspp/
#管理者権限で
perl MAKEFILE.pl -i /usr/local/bin/
> auspp
# auspp
==========================| /usr/local/bin/auspp start |=================================
Now = 2020-02-11 19:38:36
Version : 1.0
Author : Lei Gao <highlei@hotmail.com> or <leigao@szu.edu.cn>
Usage: /usr/local/bin/auspp -i fastq_file -x sampleID -M Modes {-D index | -G genome} [options]
Usage: /usr/local/bin/auspp -i fastq_file -x sampleID -M degradome [options]
-i <str> input the fastq file (Could be gzip'ed (extension: .gz)). eg: Col.fastq or Col_r1.fastq
-I <str> input the other mate if paired-end sequencing. eg: Col_r2.fastq
-x <str> input the sampleID for -i library. eg: Col
-D <str> reference sequence index: soap index or bwa or bowtie(2) or hisat2 index.
-G <str> reference sequence/genome in fasta format. (Required when -P soap and step 7.)
-M <str> Modes: presets for supported SEQ:
smallRNA same as -P soap -s 124567 -L "20-25;21;22;23;24;All";
mRNA same as -P hisat2 -s 1367 -L All;
ribo same as -P soap -s 12467 -L All;
chip same as -P bowtie -s 167 -L All;
snp same as -P baw mem -s 167 -L All;
pseudo same as -P soap -s 1267 -L All;
nucleosome same as -P bowtie2 -s 167 -L All;
degradome same as -s 12;
sRNAexample will run example
Customized settings by user:
-s <str> running step (eg: 1-7 or 1367):
1 quality control,2 trim,3 collapse,4 filter,5 length,6 mapping,7 GenomeBrowser
-P <str> align program: soap or "bwa aln" or "bwa mem" or bowtie(2) or hasat2 or tophat2. [soap]
-L <str> the read lenth range. eg: "20-25;21;22;23;24;All" [All]
Required by special step:
-R <str> r/t/sn/snoRNA or repeats or other database in fasta format for filter;
must be makeblastdb by blast+. Required when step 4 activated
-a <str> adaptor sequence. Required when step 2 activated. e.g.TGGAATTCTCGGG. [AGATCGGAAGA]
-A <str> adaptor sequence for mate if paired-end. e.g. AAAAAAAAAAA. [AGATCGGAAGA]
-f <str> gtf file for hisat2 or gff File for tophat2 if have. eg: TAIR10_GFF3_genes.gff.gtf
-e <str> where is the example/?(It locates in the directory of source code). Required when mode=sRNAexample. eg: yoursoft/auspp/example/
Defult settings are recommended:
-d <str> name of directory for store intermediate/output files. [fasta,trim,filter,map2gnm]
Normally, fasta/: output of 1st step; trim/: output of 2nd and 3rd step; filter/: output of 4th and 5th; map2gnm/: output of 6th step; map2gnm/bam2wigM/: output of 7th step
-S <str> the parameter set for soap or bwa samse or bowtie(2) or hasat2 or tophat2.
-T <str> parameter settings for trim_adaptor ["-l 9 -m 18"]
-Q <str> quality control. ["-q 20 -c 5"]
-C <str> copy number filter. e.g. "-c 5,10" to discard reads with copy>10 or copy<5. ["-c 1,"]
-h display this help
Example:
/usr/local/bin/auspp -i Col.fastq -x Col -M smallRNA -D tair10.Chr.fa.index
/usr/local/bin/auspp -i Col.fastq -x Col -M RNA -G tair10.Chr.fa
/usr/local/bin/auspp -i Col.fastq -x Col -M degradome
Documentation:
perldoc auspp
makeblastのバイナリがエラーを吐いたので修正した(*1)。
テストラン
cd example/
auspp -M sRNAexample
出力
test.sRNA.auspp.info
test.sRNA.auspp.info.pdf
test.sRNA.auspp.lenDist.pdf
実行方法
fastqとプリセット、リファレンスゲノムを指定する。
auspp -i pair_r1.fastq.gz -I pair_r2.fastq.gz -x Col -M mRNA -G tair10.Chr.fa
- -i input the fastq file (Could be gzip'ed (extension: .gz)). eg: Col.fastq or Col_r1.fastq
- -I input the other mate if paired-end sequencing. eg: Col_r2.fastq
- -x input the sampleID for -i library. eg: Col
- -G reference sequence/genome in fasta format. (Required when -P soap and step 7.)
- -M Modes: presets for supported SEQ:
smallRNA same as -P soap -s 124567 -L "20-25;21;22;23;24;All";
mRNA same as -P hisat2 -s 1367 -L All;
ribo same as -P soap -s 12467 -L All;
chip same as -P bowtie -s 167 -L All;
snp same as -P baw mem -s 167 -L All;
pseudo same as -P soap -s 1267 -L All;
nucleosome same as -P bowtie2 -s 167 -L All;
degradome same as -s 12;
sRNAexample will run example
引用
AUSPP: A universal short-read pre-processing package
Gao L, Wu C, Liu L
J Bioinform Comput Biol. 2019 Dec;17(6):1950037
*1
condaを使ってblastパッケージを導入した。