macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

高速なRNA seqのマッピングツール STAR

2019 2/15 動画とbiocondaによる install追加

 

STARは高速なRNAのアライメントツール。intron-exonのsplit-alingmentに対応している。動作はbowtie2より10倍以上高速とされ、マッピング感度の高さとエラー率の低さは既存のツールと同等とされている。

 

  

github

https://github.com/alexdobin/STAR

マニュアル

https://github.com/alexdobin/STAR/blob/master/doc/STARmanual.pdf

STAR: RNA-Seq Read Aligner

 

インストール

wget https://github.com/alexdobin/STAR/archive/2.5.3a.tar.gz 
tar -xzf 2.5.3a.tar.gz
cd STAR-2.5.3a/bin/MacOSX_x86_64/

#Anacondaを使っているならcondaで導入可能
conda install -c bioconda -y star

パスを通しておく。

 

 

ラン

indexの作成 

mkdir genome #出力用のディレクトリを作成
STAR --runMode genomeGenerate --genomeDir genome/ --genomeFastaFiles reference.fasta --sjdbGTFfile reference.gtf --sjdbOverhang 100 --runThreadN 12
  • --runMode genomeGenerate  generate genome files  
  • --genomeDir path/to/genomeDir
  • --genomeFastaFiles path/to/genome/fasta1,fasta2...
  • --sjdbGTFfile path/to/annotation.gtf
  • --sjdbOverhang (default100) length of the donor/acceptor sequence on each side of the junctions, ideally = (mate_length - 1)
  • --runThreadN (default1)number of threads to run STAR

 #シロイヌナズナゲノムだと10分くらいかかる。

 

 

マッピング

STAR --genomeDir genome/ --readFilesIn R1.fastq R2.fastq --runThreadN 12 --outSAMtype BAM SortedByCoordinate --outFileNamePrefix sample1
  • --genomeDir path/to/genomeDir
  • --readFilesIn paths to files that contain input read1 (and, if needed, read2)
  • --runThreadN (default1)number of threads to run STAR
  • --outFileNamePrefix output files name prefix (including full or relative path).
  • --outSAMtype BAM output BAM without sorting

13GB x 2のペアードエンドデータだと上記の設定で2時間半ほどで終了した(bowtie2だとどんなに速くてもオーバーナイトはかかる、数年前のマシンだと1日以上かかることも多い)。 

 

終わるとsample1Aligned.sortedByCoord.out.bamができる。

 

contigの数が多くてメモリエラーが出てしまう場合は、limitGenomeGenerateRAMの数値を上げてやり直してください。それでもダメな場合はgenomeSAsparseDのフラグを1から2以上に切り替えて見てください。マッピング時間は長くなってしまいますが、メモリ要求量を削減できます。例えば"--genomeSAsparseD 3"

 

時間がかかりすぎることが気になるなら、RApMapを検討してみてください。メモリなどのリソースが少ないマシンでも動くように設計されています。

 

結果はmultiqcでまとめて可視化できます。

multiqc . #STARの出力ディレクトリで打つ。

f:id:kazumaxneo:20180206120540j:plain

こんな感じの絵が自動で描けます。

 

最適化に関するペーパーも出ています。

Optimizing RNA-Seq Mapping with STAR.

https://www.ncbi.nlm.nih.gov/pubmed/27115637

 

引用

STAR: ultrafast universal RNA-seq aligner

Alexander Dobin,1,* Carrie A. Davis,1 Felix Schlesinger,1 Jorg Drenkow,1 Chris Zaleski,1 Sonali Jha,1 Philippe Batut,1 Mark Chaisson,2 and Thomas R. Gingeras1

Bioinformatics. 2013 Jan; 29(1): 15–21.

 

参考

バイオインフォ道場

http://bioinfo-dojo.net/2017/04/18/star_rna-seq-aligner/