ゲノムの非コード領域における体細胞変異やエクソン変異は、解析ワークフローにおいて見過ごされがちな未同定の非コード化結果をもたらす可能性がある。ここでは、ゲノムデータから抽出した体細胞変異のコールと、トランスクリプトームデータから抽出したスプライスジャンクションの解析を統合し、腫瘍における異常なスプライシングを引き起こす可能性のある変異を効率的に特定するために設計された、無料のオープンソースソフトウェアパッケージ、RegTools (www.regtools.org) を紹介する。RegToolsは、腫瘍DNAとRNA配列データの両方を持つ9,000以上の腫瘍サンプルに適用された。158,200個のバリアントと131,212個のジャンクションにおいて、バリアントが特定のジャンクションのスプライシングを著しく増加させるイベントを235,778件発見した。これらの体細胞変異と関連するスプライスアイソフォームをさらに特徴付けるために、Variant Effect Predictor(VEP)、SpliceAI、Genotype-Tissue Expression(GTEx)ジャンクションカウントで注釈し、その結果をゲノムとトランスクリプトームデータを統合する他のツールと比較検討した。ある種の代替スプライシングイベントに関連するバリアントは前述のツールで同定できるが、Regtoolsの非バイアスな性質により、TP53、CDKN2A、B2Mなどのガンドライバーにおけるスプライシング破壊のこれまで報告されていないパターンや、RNF145などの新規ドライバーイベントを表す可能性がある、これまで報告されていない遺伝子などの新規スプライスバリアントを同定することができた。
https://twitter.com/kelsy_cotto/status/1313897305708396545
Documentation
https://regtools.readthedocs.io/en/latest/
インストール
ubuntu18でビルドしてテストした。
git clone https://github.com/griffithlab/regtools
cd regtools/
mkdir build
cd build/
cmake ..
make -j20
#Docker image
https://hub.docker.com/r/griffithlab/regtools/
> ./regtools
Program: regtools
Version: 0.0.1
Usage: regtools <command> [options]
Command: junctions Tools that operate on feature junctions (e.g. exon-exon junctions from RNA-seq).
cis-ase Tools related to allele specific expression in cis.
cis-splice-effects Tools related to splicing effects of variants.
variants Tools that operate on variants.
> regtools cis-splice-effects identify -h
Program: regtools
Version: 0.0.1
Usage: regtools cis-splice-effects identify [options]
variants.vcf alignments.bam ref.fa annotations.gtf
Options:
-o STR Output file containing the aberrant splice junctions
with annotations. [STDOUT]
-v STR Output file containing variants annotated as splice
relevant (VCF format).
-j STR Output file containing the aberrant junctions in BED12 format.
-s INT Strandness mode
XS, use XS tags provided by aligner; RF, first-strand;
FR, second-strand. intron-motif, infer strand using canonical intron
motifs. REQUIRED
-C Override strand assignments by inferring based on
canonical motifs. Does not need to be specified if passing '-s
intron-motif'.
-t STR Tag used in bam to label strand. [XS]
-a INT Minimum anchor length. Junctions which satisfy a minimum
anchor length on both sides are reported. [8]
-m INT Minimum intron length. [70]
-M INT Maximum intron length. [500000]
-w INT Window size in b.p to identify splicing events in.
The tool identifies events in variant.start +/- w basepairs.
Default behaviour is to look at the window between
previous and next exons.
-e INT Maximum distance from the start/end of an exon
to annotate a variant as relevant to splicing, the variant
is in exonic space, i.e a coding variant. [3]
-i INT Maximum distance from the start/end of an exon
to annotate a variant as relevant to splicing, the variant
is in intronic space. [2]
-I Annotate variants in intronic space within a
transcript(not to be used with -i).
-E Annotate variants in exonic space within a
transcript(not to be used with -e).
-S Don't skip single exon transcripts.
(ほかのコマンドは割愛)
実行方法
多くのコマンドが用意されているが、ここではcis-splice-effects identify コマンド(link)を試す。このコマンドはバリアント部位近傍の非正規スプライシングジャンクションをコールすることで、スプライシングミスレギュレーションイベントを同定するために使用できる。
VCF形式のバリアントリストと、スプライシングを考慮できるアライナーで作成されたRNAseqアラインメントbamを指定する。
regtools cis-splice-effects identify -s RF -e 10 -i 10 variants.vcf.gz mapping.bam genome.fasta annotation.gtf
- -s Strandness mode XS, use XS tags provided by aligner; RF, first-strand;
FR, second-strand. intron-motif, infer strand using canonical intron
motifs. REQUIRED - -e Maximum distance from the start/end of an exon to annotate a variant as relevant to splicing, the variant is in exonic space, i.e a coding variant. [3]
- -i Maximum distance from the start/end of an exon to annotate a variant as relevant to splicing, the variant is in intronic space. [2]
結果はBED6形式で標準出力される。ファイルに書き出すには"-o output"をつける。
マニュアルより
- cis-splice-effects associateコマンドは、スプライシングミスレギュレーションイベントを同定するために使用できる。このコマンドはcis-splice-effects identifyと似ているが、RNAアラインメントのBAMファイルの代わりにjunctions extractのBED出力を取る。
- cis-ase identifyコマンドは対立遺伝子特異的発現イベントを同定するために使用される。このコマンドは生殖細胞系列バリアントと体細胞バリアントのリストをVCF形式で受け取る。このモジュールには、RNAアラインメントのBAMと、DNAリードのアライメントBAMも必要である。体細胞変異部位近傍でアレル特異的発現を示す多型を同定する。
- junctions extractコマンドは、RNAseq BAMファイルからエクソンとエクソンのジャンクションを抽出するために使用できる。出力はBED12形式のBEDファイル。HISAT2、TopHat2、STAR、kallisto、minimap2からのアラインメントと、TopHatから生成されたjunctions.bedファイルとエクソン-エクソンのジャンクションを比較することで、このコマンドはテストされている。
- regtools junctions annotate コマンドは、既知の転写産物構造に関して、観察されたジャンクションにアノテーションを付ける。既知の転写産物構造は、Ensembl/RefSeq/UCSCなどの標準的な遺伝子アノテーションデータベースの1つから取得したGTFファイルの形式で受け付ける。アノテーションの目的は、新規/特異なジャンクションの同定を助けることである。
- regtools variants annotateコマンドは、興味のあるバリアントに興味のあるアノテーションを付けるために使用できる。例えば、スプライシング機構に影響を与える領域に位置するバリアントをアノテーションする。
引用
RegTools: Integrated analysis of genomic and transcriptomic data for the discovery of splicing variants in cancer
Kelsy C. Cotto, Yang-Yang Feng, Avinash Ramu, Zachary L. Skidmore, Jason Kunisaki, Megan Richters, Sharon Freshour, Yiing Lin, William C. Chapman, Ravindra Uppaluri, Ramaswamy Govindan, Obi L. Griffith, Malachi Griffith
bioRxiv, Posted April 08, 2021