macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

small RNAをアノテートする ShortStack

ShortStackはsmall RNA seqのデータをリファレンスゲノムにアライメントし、small RNAのlociをアノテートするツール。改良が続けられており、2報目の論文では、高速化の他、複数のシーケンスデータの入力、bowtieによるアライメントなどに対応した。

 

 

テストデータ

https://psu.app.box.com/v/axtelldata/

 

インストール

依存

  • samtools (version 1.x or higher)
  • bowtie (if aligning)
  • bowtie-build (if aligning and .ebwt indices not found)
  • gzip (if aligning)
  • RNAfold (unless running with --nohp option to disable MIRNA search)

gzipmacに標準でインストールされている。他はbrewで導入できる。

本体

Github

https://github.com/MikeAxtell/ShortStack

バイナリーをダウンロードしてパスを通す。

git clone https://github.com/MikeAxtell/ShortStack.git
ShortStack -h #動作確認

 

ラン

ランにはsmall RNA seqのシーケンスデータ(fastq、fasta、color-space)が必要である。ペアリードには対応していないが、複数データがある場合、コンマで区切って入力可能。また、シーケンスデータはgz圧縮されていても使える。

 ShortStack --readfile input.fastq --genomefile reference.fa
  •  --genomefile path to reference genome in .fasta or .fa format. Required.
  • --outdir name of output directory to be created for results. Defaults to 'ShortStack_[time]', 
  • --readfile path to readfile(s) to be aligned. valid formats: .fasta, .fa, .fasta.gz, .fa.gz, .fastq, .fq, .fastq.gz, .fq.gz, .csfasta, .csfasta.gz. Multiple files, can be specified as separate arguments to --readfile ... e.g. --readfile file1.fastq file2.fastq file3.fastq Mutually exclusive with --bamfile or --cramfile.
  • --bamfile path to input .bam alignment file of small RNAs.
  • --cramfile path to input .cram alignment file of small RNAs.

アライメントが終わっている場合、fastqの代わりにbam (cram formatも可能)を指定することもできる。

出力

usr$ head -5 ShortStack_1506082238/Results.txt 

#Locus Name Length Reads RPM UniqueReads FracTop Strand MajorRNA MajorRNAReads Complexity DicerCall MIRNA PhaseScorShort Long 20 21 22 23 24

chr:4-52647 Cluster_1 52644 3099 11838.456 3076 0.504 . AACAGACCCUGAAAAUCCCAACUUCUCCAUUCCAUCCGGAGAGCAAAGAAGUAAGGGGGUUGAAUUCGAUAUCGCGGGGGAAAUCCUACCGGGCUGGAAUAUUAUUGCUUCCUAUGCUUAUACCGAUGCCAGGGUCACCAAGGAUGACAAUCUGGAGCCUGGUAAUUUGCUUGAGGGGGUUCCCUUUAACUCGGCCAGUUUGUGGUCAACUUACGAAAUUCAAGCCGGUGAUUUACAGGGUUUGGGAUUUGGCCUGGGAUUGUUUUAUGUGGGGGAACGCCAAGGUGAUUUAAAUAAUUCU 2 0.987 N N2 -1 0 3099 0 00

chr:52803-123897 Cluster_2 71095 4159 15887.751 4139 0.493 . GAUCGCCCCUUGGCCAGGGGAAUUCUCCUCCAGUGCUUGCAAGGGAGGGGCAAUAUAGGAAAAUACAAUCAACUCGAUCGCCGUCGAGCCGAAGUCGAGUAAAAACCGCUAUCAGGAGCCUCUAUGUACAUCGUUCAAAUUGCCUCAGAAUGCGCCCCCGUCAUUAAGGCUGGGGGAUUGGGGGAUGUUAUUUACGGCCUAAGCCGUGAAUUGGAACUGCGGGGCCAUUGCGUCGAGCUAAUCCUACCCAUGUACGAUUGCAUGCGCUAUGACCACAUCUGGGGUUUACACGAUGCUUACC 3 0.990 N N2 -1 0 4159 00

chr:124169-527481 Cluster_3 403313 24207 92472.896 24138 0.495 . AGGAAGCCAUUGAUCUGAUUAUUAAUGGCAUGCCGGUGCGGAGUAACUUAGAGUCAAAACUGUUCGGCAGCCAUACCCUUUCCUUGGCGAAAUCUACCAAAGUGCCGGUGAUGAUUUUACGCCCCCAAUUGGUCAGCACUUACACCGUUGAAGAAAUGGCUUUGCGGUGCCAACAUCUCUGGCGCAAUUUACUAGUGCCCUACGAUGCUAGUUCUGCGGGUAAUUAUUUAAUAGAAAGAUUAAAAAGUGCCUUGGAAAAGGCUCCCCCCGGUAAGGUUGAGUCCUGUUACUUCCUCUCCAU 3 0.989 N N2 -1 0 24207 00

chr:527956-1200296 Cluster_4 672341 40473 154610.466 40268 0.497 . AUACCCAUCCCCUAUGUUCAAUGGUCGGGGAACUGGUCCAAAUUGGCGAUCGUCUCUCAUCCGAUUUCCCUAAGUACACCAACUGCUCAAUAUCUGAAGCUUUAAAAUCAGGUUUUUAUAAAGUGGCGAUCGUUUGCUCAAUCUACUUUUGUAAAUCCUGUUCAUAAAGAGUUUUAGCCAUUAUAACUACCUUCUAUAUCAGGGCAAUUCAAUCCCAGUUGCUUUAGCAUAGCGUUUAGUGUUCCAGUUUUUAGUUCAUCACUAGGAUUUCGCACAAUGGUCAGGCGAUCGCUUCUACACU 3 0.989 N N2 -1 0 40473 00

 

Methodsの論文になっています。詳細については論文を確認して下さい。

引用

Identification and annotation of small RNA genes using ShortStack.

Shahid S, Axtell MJ

Methods. 2014 May 1;67(1):20-7

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3989477/