ShortStackはsmall RNA seqのデータをリファレンスゲノムにアライメントし、small RNAのlociをアノテートするツール。改良が続けられており、2報目の論文では、高速化の他、複数のシーケンスデータの入力、bowtieによるアライメントなどに対応した。
テストデータ
https://psu.app.box.com/v/axtelldata/
インストール
依存
- samtools (version 1.x or higher)
- bowtie (if aligning)
- bowtie-build (if aligning and .ebwt indices not found)
- gzip (if aligning)
- RNAfold (unless running with --nohp option to disable MIRNA search)
gzipはmacに標準でインストールされている。他はbrewで導入できる。
本体
https://github.com/MikeAxtell/ShortStack
バイナリーをダウンロードしてパスを通す。
git clone https://github.com/MikeAxtell/ShortStack.git
ShortStack -h #動作確認
ラン
ランにはsmall RNA seqのシーケンスデータ(fastq、fasta、color-space)が必要である。ペアリードには対応していないが、複数データがある場合、コンマで区切って入力可能。また、シーケンスデータはgz圧縮されていても使える。
ShortStack --readfile input.fastq --genomefile reference.fa
- --genomefile path to reference genome in .fasta or .fa format. Required.
- --outdir name of output directory to be created for results. Defaults to 'ShortStack_[time]',
- --readfile path to readfile(s) to be aligned. valid formats: .fasta, .fa, .fasta.gz, .fa.gz, .fastq, .fq, .fastq.gz, .fq.gz, .csfasta, .csfasta.gz. Multiple files, can be specified as separate arguments to --readfile ... e.g. --readfile file1.fastq file2.fastq file3.fastq Mutually exclusive with --bamfile or --cramfile.
- --bamfile path to input .bam alignment file of small RNAs.
- --cramfile path to input .cram alignment file of small RNAs.
アライメントが終わっている場合、fastqの代わりにbam (cram formatも可能)を指定することもできる。
出力
usr$ head -5 ShortStack_1506082238/Results.txt
#Locus Name Length Reads RPM UniqueReads FracTop Strand MajorRNA MajorRNAReads Complexity DicerCall MIRNA PhaseScorShort Long 20 21 22 23 24
chr:4-52647 Cluster_1 52644 3099 11838.456 3076 0.504 . AACAGACCCUGAAAAUCCCAACUUCUCCAUUCCAUCCGGAGAGCAAAGAAGUAAGGGGGUUGAAUUCGAUAUCGCGGGGGAAAUCCUACCGGGCUGGAAUAUUAUUGCUUCCUAUGCUUAUACCGAUGCCAGGGUCACCAAGGAUGACAAUCUGGAGCCUGGUAAUUUGCUUGAGGGGGUUCCCUUUAACUCGGCCAGUUUGUGGUCAACUUACGAAAUUCAAGCCGGUGAUUUACAGGGUUUGGGAUUUGGCCUGGGAUUGUUUUAUGUGGGGGAACGCCAAGGUGAUUUAAAUAAUUCU 2 0.987 N N2 -1 0 3099 0 00
chr:52803-123897 Cluster_2 71095 4159 15887.751 4139 0.493 . GAUCGCCCCUUGGCCAGGGGAAUUCUCCUCCAGUGCUUGCAAGGGAGGGGCAAUAUAGGAAAAUACAAUCAACUCGAUCGCCGUCGAGCCGAAGUCGAGUAAAAACCGCUAUCAGGAGCCUCUAUGUACAUCGUUCAAAUUGCCUCAGAAUGCGCCCCCGUCAUUAAGGCUGGGGGAUUGGGGGAUGUUAUUUACGGCCUAAGCCGUGAAUUGGAACUGCGGGGCCAUUGCGUCGAGCUAAUCCUACCCAUGUACGAUUGCAUGCGCUAUGACCACAUCUGGGGUUUACACGAUGCUUACC 3 0.990 N N2 -1 0 4159 00
chr:124169-527481 Cluster_3 403313 24207 92472.896 24138 0.495 . AGGAAGCCAUUGAUCUGAUUAUUAAUGGCAUGCCGGUGCGGAGUAACUUAGAGUCAAAACUGUUCGGCAGCCAUACCCUUUCCUUGGCGAAAUCUACCAAAGUGCCGGUGAUGAUUUUACGCCCCCAAUUGGUCAGCACUUACACCGUUGAAGAAAUGGCUUUGCGGUGCCAACAUCUCUGGCGCAAUUUACUAGUGCCCUACGAUGCUAGUUCUGCGGGUAAUUAUUUAAUAGAAAGAUUAAAAAGUGCCUUGGAAAAGGCUCCCCCCGGUAAGGUUGAGUCCUGUUACUUCCUCUCCAU 3 0.989 N N2 -1 0 24207 00
chr:527956-1200296 Cluster_4 672341 40473 154610.466 40268 0.497 . AUACCCAUCCCCUAUGUUCAAUGGUCGGGGAACUGGUCCAAAUUGGCGAUCGUCUCUCAUCCGAUUUCCCUAAGUACACCAACUGCUCAAUAUCUGAAGCUUUAAAAUCAGGUUUUUAUAAAGUGGCGAUCGUUUGCUCAAUCUACUUUUGUAAAUCCUGUUCAUAAAGAGUUUUAGCCAUUAUAACUACCUUCUAUAUCAGGGCAAUUCAAUCCCAGUUGCUUUAGCAUAGCGUUUAGUGUUCCAGUUUUUAGUUCAUCACUAGGAUUUCGCACAAUGGUCAGGCGAUCGCUUCUACACU 3 0.989 N N2 -1 0 40473 00
Methodsの論文になっています。詳細については論文を確認して下さい。
引用
Identification and annotation of small RNA genes using ShortStack.
Shahid S, Axtell MJ
Methods. 2014 May 1;67(1):20-7
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3989477/