macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

ゲノムとトランスクリプトームデータからスプライシングバリアントを見つける RegTools

 

 ゲノムの非コード領域における体細胞変異やエクソン変異は、解析ワークフローにおいて見過ごされがちな未同定の非コード化結果をもたらす可能性がある。ここでは、ゲノムデータから抽出した体細胞変異のコールと、トランスクリプトームデータから抽出したスプライスジャンクションの解析を統合し、腫瘍における異常なスプライシングを引き起こす可能性のある変異を効率的に特定するために設計された、無料のオープンソースソフトウェアパッケージ、RegTools (www.regtools.org) を紹介する。RegToolsは、腫瘍DNAとRNA配列データの両方を持つ9,000以上の腫瘍サンプルに適用された。158,200個のバリアントと131,212個のジャンクションにおいて、バリアントが特定のジャンクションのスプライシングを著しく増加させるイベントを235,778件発見した。これらの体細胞変異と関連するスプライスアイソフォームをさらに特徴付けるために、Variant Effect Predictor(VEP)、SpliceAI、Genotype-Tissue Expression(GTEx)ジャンクションカウントで注釈し、その結果をゲノムとトランスクリプトームデータを統合する他のツールと比較検討した。ある種の代替スプライシングイベントに関連するバリアントは前述のツールで同定できるが、Regtoolsの非バイアスな性質により、TP53、CDKN2A、B2Mなどのガンドライバーにおけるスプライシング破壊のこれまで報告されていないパターンや、RNF145などの新規ドライバーイベントを表す可能性がある、これまで報告されていない遺伝子などの新規スプライスバリアントを同定することができた。

 

https://twitter.com/kelsy_cotto/status/1313897305708396545

 

Documentation

https://regtools.readthedocs.io/en/latest/

 

インストール

ubuntu18でビルドしてテストした。

  • OS Requirements This package is supported for macOS and Linux

Github

git clone https://github.com/griffithlab/regtools
cd regtools/
mkdir build
cd build/
cmake ..
make -j20

#Docker image
https://hub.docker.com/r/griffithlab/regtools/

> ./regtools

 

Program: regtools

Version: 0.0.1

Usage: regtools <command> [options]

Command: junctions Tools that operate on feature junctions (e.g. exon-exon junctions from RNA-seq).

cis-ase Tools related to allele specific expression in cis.

cis-splice-effects Tools related to splicing effects of variants.

variants Tools that operate on variants.

 

regtools cis-splice-effects identify -h

 

Program:    regtools

Version:    0.0.1

Usage:        regtools cis-splice-effects identify [options]

variants.vcf alignments.bam ref.fa annotations.gtf

Options:

        -o STR    Output file containing the aberrant splice junctions

with annotations. [STDOUT]

        -v STR    Output file containing variants annotated as splice

relevant (VCF format).

        -j STR    Output file containing the aberrant junctions in BED12 format.

        -s INT    Strandness mode

             XS, use XS tags provided by aligner; RF, first-strand;

FR, second-strand. intron-motif, infer strand using canonical intron

motifs. REQUIRED

        -C    Override strand assignments by inferring based on

canonical motifs. Does not need to be specified if passing '-s

intron-motif'.

        -t STR    Tag used in bam to label strand. [XS]

        -a INT    Minimum anchor length. Junctions which satisfy a minimum

             anchor length on both sides are reported. [8]

        -m INT    Minimum intron length. [70]

        -M INT    Maximum intron length. [500000]

        -w INT    Window size in b.p to identify splicing events in.

             The tool identifies events in variant.start +/- w basepairs.

             Default behaviour is to look at the window between

previous and next exons.

        -e INT    Maximum distance from the start/end of an exon

             to annotate a variant as relevant to splicing, the variant

             is in exonic space, i.e a coding variant. [3]

        -i INT    Maximum distance from the start/end of an exon

             to annotate a variant as relevant to splicing, the variant

             is in intronic space. [2]

        -I    Annotate variants in intronic space within a

transcript(not to be used with -i).

        -E    Annotate variants in exonic space within a

transcript(not to be used with -e).

        -S    Don't skip single exon transcripts.

(ほかのコマンドは割愛)

 

 

実行方法

多くのコマンドが用意されているが、ここではcis-splice-effects identify コマンド(link)を試す。このコマンドはバリアント部位近傍の非正規スプライシングジャンクションをコールすることで、スプライシングミスレギュレーションイベントを同定するために使用できる。

VCF形式のバリアントリストと、スプライシングを考慮できるアライナーで作成されたRNAseqアラインメントbamを指定する。

regtools cis-splice-effects identify -s RF -e 10 -i 10 variants.vcf.gz  mapping.bam genome.fasta annotation.gtf
  • -s     Strandness mode XS, use XS tags provided by aligner; RF, first-strand;
    FR, second-strand. intron-motif, infer strand using canonical intron
    motifs. REQUIRED
  • -e    Maximum distance from the start/end of an exon to annotate a variant as relevant to splicing, the variant is in exonic space, i.e a coding variant. [3]
  • -i     Maximum distance from the start/end of an exon to annotate a variant as relevant to splicing, the variant is in intronic space. [2]

結果はBED6形式で標準出力される。ファイルに書き出すには"-o output"をつける。

 

 

マニュアルより

  • cis-splice-effects associateコマンドは、スプライシングミスレギュレーションイベントを同定するために使用できる。このコマンドはcis-splice-effects identifyと似ているが、RNAアラインメントのBAMファイルの代わりにjunctions extractのBED出力を取る。
  • cis-ase identifyコマンドは対立遺伝子特異的発現イベントを同定するために使用される。このコマンドは生殖細胞系列バリアントと体細胞バリアントのリストをVCF形式で受け取る。このモジュールには、RNAアラインメントのBAMと、DNAリードのアライメントBAMも必要である。体細胞変異部位近傍でアレル特異的発現を示す多型を同定する。
  • junctions extractコマンドは、RNAseq BAMファイルからエクソンエクソンのジャンクションを抽出するために使用できる。出力はBED12形式のBEDファイル。HISAT2、TopHat2、STAR、kallisto、minimap2からのアラインメントと、TopHatから生成されたjunctions.bedファイルとエクソン-エクソンのジャンクションを比較することで、このコマンドはテストされている。
  • regtools junctions annotate コマンドは、既知の転写産物構造に関して、観察されたジャンクションにアノテーションを付ける。既知の転写産物構造は、Ensembl/RefSeq/UCSCなどの標準的な遺伝子アノテーションデータベースの1つから取得したGTFファイルの形式で受け付ける。アノテーションの目的は、新規/特異なジャンクションの同定を助けることである。
  • regtools variants annotateコマンドは、興味のあるバリアントに興味のあるアノテーションを付けるために使用できる。例えば、スプライシング機構に影響を与える領域に位置するバリアントをアノテーションする。

 

引用

RegTools: Integrated analysis of genomic and transcriptomic data for the discovery of splicing variants in cancer

Kelsy C. Cotto,  Yang-Yang Feng,  Avinash Ramu,  Zachary L. Skidmore,  Jason Kunisaki,  Megan Richters,  Sharon Freshour, Yiing Lin, William C. Chapman, Ravindra Uppaluri, Ramaswamy Govindan,  Obi L. Griffith,  Malachi Griffith

bioRxiv, Posted April 08, 2021