macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

ショートリードとロングリードによりトランスクリプトームアセンブリの構造回復とアバンダンス推定を行う StringTieの新しいバージョン

 

 トランスクリプトームのアセンブリには、short-read RNA sequencingとlong-read RNA sequencingのそれぞれに長所と短所がある。ショートリードは精度が高い反面、複数のエクソンにまたがることができない。Long-read技術は、完全な長さの転写産物を捉えることができるが、エラー率が高く、スプライスサイトを誤認することが多く、スループットが低いため、定量化が困難である。ここでは、ハイブリッドリードアセンブリを実行するStringTieの新リリースを紹介する。ロングリードとショートリードの両方の強みを活用することで、StringTieによるハイブリッドリードアセンブリは、ロングリードのみ、またはショートリードのみのアセンブリよりも精度が高く、いくつかのデータセットでは、ロングリードデータのみのアセンブリよりも大幅に高い精度を得ながら、正しくアセンブリされた転写産物の数を2倍以上に増やすことができる。ここでは、シロイヌナズナ、ムスキュラス、ヒトのシミュレーションデータおよび実データを用いて、精度の向上を実証した。また、ハイブリッド・リード・アセンブリは、アセンブリ前にロングリードを修正するよりも精度が高く、かつ大幅に高速であることを示す。StringTieは、オープンソースソフトウェアとして、https://github.com/gpertea/stringtie から自由に入手できる。

 

HP

https://ccb.jhu.edu/software/stringtie/index.shtml

 

 

インストール

Github

git clone https://github.com/gpertea/stringtie
cd stringtie
make release

> ./stringtie 

stringtie <in.bam ..> [-G <guide_gff>] [-l <prefix>] [-o <out.gtf>] [-p <cpus>]

 [-v] [-a <min_anchor_len>] [-m <min_len>] [-j <min_anchor_cov>] [-f <min_iso>]

 [-c <min_bundle_cov>] [-g <bdist>] [-u] [-L] [-e] [--viral] [-E <err_margin>]

 [--ptf <f_tab>] [-x <seqid,..>] [-A <gene_abund.out>] [-h] {-B|-b <dir_path>}

 [--mix] [--conservative] [--rf] [--fr]

Assemble RNA-Seq alignments into potential transcripts.

Options:

 --version : print just the version at stdout and exit

 --conservative : conservative transcript assembly, same as -t -c 1.5 -f 0.05

 --mix : both short and long read data alignments are provided

        (long read alignments must be the 2nd BAM/CRAM input file)

 --rf : assume stranded library fr-firststrand

 --fr : assume stranded library fr-secondstrand

 -G reference annotation to use for guiding the assembly process (GTF/GFF)

 --ptf : load point-features from a given 4 column feature file <f_tab>

 -o output path/file name for the assembled transcripts GTF (default: stdout)

 -l name prefix for output transcripts (default: STRG)

 -f minimum isoform fraction (default: 0.01)

 -L long reads processing; also enforces -s 1.5 -g 0 (default:false)

 -R if long reads are provided, just clean and collapse the reads but

    do not assemble

 -m minimum assembled transcript length (default: 200)

 -a minimum anchor length for junctions (default: 10)

 -j minimum junction coverage (default: 1)

 -t disable trimming of predicted transcripts based on coverage

    (default: coverage trimming is enabled)

 -c minimum reads per bp coverage to consider for multi-exon transcript

    (default: 1)

 -s minimum reads per bp coverage to consider for single-exon transcript

    (default: 4.75)

 -v verbose (log bundle processing details)

 -g maximum gap allowed between read mappings (default: 50)

 -M fraction of bundle allowed to be covered by multi-hit reads (default:1)

 -p number of threads (CPUs) to use (default: 1)

 -A gene abundance estimation output file

 -E define window around possibly erroneous splice sites from long reads to

    look out for correct splice sites (default: 25)

 -B enable output of Ballgown table files which will be created in the

    same directory as the output GTF (requires -G, -o recommended)

 -b enable output of Ballgown table files but these files will be 

    created under the directory path given as <dir_path>

 -e only estimate the abundance of given reference transcripts (requires -G)

 --viral : only relevant for long reads from viral data where splice sites

    do not follow consensus (default:false)

 -x do not assemble any transcripts on the given reference sequence(s)

 -u no multi-mapping correction (default: correction enabled)

 -h print this usage message and exit

 --ref/--cram-ref reference genome FASTA file for CRAM input

 

Transcript merge usage mode: 

  stringtie --merge [Options] { gtf_list | strg1.gtf ...}

With this option StringTie will assemble transcripts from multiple

input files generating a unified non-redundant set of isoforms. In this mode

the following options are availabl

  -G <guide_gff>   reference annotation to include in the merging (GTF/GFF3)

  -o <out_gtf>     output file name for the merged transcripts GTF

                    (default: stdout)

  -m <min_len>     minimum input transcript length to include in the merge

                    (default: 50)

  -c <min_cov>     minimum input transcript coverage to include in the merge

                    (default: 0)

  -F <min_fpkm>    minimum input transcript FPKM to include in the merge

                    (default: 1.0)

  -T <min_tpm>     minimum input transcript TPM to include in the merge

                    (default: 1.0)

  -f <min_iso>     minimum isoform fraction (default: 0.01)

  -g <gap_len>     gap between transcripts to merge together (default: 250)

  -i               keep merged transcripts with retained introns; by default

                   these are not kept unless there is strong evidence for them

  -l <label>       name prefix for output transcripts (default: MSTRG)

 

Error: no input file provided!

 

 

 

実行方法

ショートリードRNAseqとロングリードRNAseqのbamファイルを指定する。

stringtie --mix -o mix_reads.out.gtf mix_short.bam mix_long.bam

 

bamファイルは座標ソートされている必要があります。Githubで確認して下さい。

引用

Improved Transcriptome Assembly Using a Hybrid of Long and Short Reads with StringTie
Alaina Shumate, Brandon Wong, Geo Pertea,  Mihaela Pertea

bioRxiv, Posted December 10, 2021

 

関連