macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

スプライシングに変化を与えるバリアントを発見するためのスケーラブルなツール Spliceogen

 

インシリコ予測ツールは、シススプライシングモチーフを形成または破壊するバリアントを同定するために不可欠である。しかし、スプライシングモチーフを変化させるバリアントをゲノム規模で発見するための選択肢は限られている。Spliceogenは、スプライシングモチーフ予測に最適なモデル:MaxEntScan、GeneSplicer、ESRseq、Branchpointer、からの予測を統合した、拡張性の高いパイプラインである(https://github.com/VCCRI/Spliceogen)。SpliceogenはVCF/BED入力を受け付けるコマンドラインツールとして利用可能で、一塩基変異(SNVs)とインデルの両方を扱うことができる。また、Gencodeで注釈されたマルチエキソン転写産物内の全てのゲノム位置で考えられるSNVを網羅した、予測スコア付きSNVデータベースも利用できる。

 

インストール

macosでテストした(macstudioのmacos12.6使用)。

依存

#bedtoolsが必要
#Development/install from source

git clone https://github.com/VCCRI/Spliceogen.git
cd Spliceogen/

> ./RUN.sh

$ ./RUN.sh  -h

Usage:

------

3 required args:

1)  -input path/to/VCF/input/file(s).VCF

        Note: multiple input files are accepted "eg. -input *.vcf"

        Note: deprecated v1.0 tags "inputVCF" and "inputBED" are still accepted

2)  -gtf path/to/annotation.gtf

3)  -fasta path/to/genome.fa

optional arg:

4)  -branchpointer hgXX

        OR

    -branchpointerIndels hgXX

        Note: user must specify hg19 or hg38

 

テストラン

VCFとGTF、fastaファイルを指定する。VCFの代わりに、カスタムのタブ区切りフォーマット(chr start ref alt)も使用できる。gzip圧縮したGTF/VCF/TSVファイルも使用できる。

cd Spliceogen/
./RUN.sh -input toy/toy.vcf -gtf toy/toy.gtf -fasta toy/toy.fa

 

テストランの出力ファイルはoutputディレクトリに作成される。_outファイルは、ANNOVAR6のバリアントアノテーションに適したフォーマットで、すべてのバリアントのすべてのスコアを含んでいる。いくつかの追加ファイルは、最も破壊的であると同定されたバリアントの予測値を、降順にランク付けして示している。

output/

 

toy.vcf_out.txt

標準的な染色体/開始順の昇順でソートされた、全てのバリアントで生成された全てのスコア

 

toy.vcf_withinSS.txt

アノテーションされたスプライスサイトと重複する全てのvariantが含まれる。重複するスプライスサイトは、exonIDと"_donor "または"_acceptor "で示される。バリアントはdonLossPとaccLossPの最大値でソートされ、アクセプター/ドナーのスプライスサイトを破壊する可能性が最も高いバリアントがこのファイルの先頭に表示される。

toy.vcf_ssGain.txt

既存のスプライスサイトの外側で、ドナーまたはアクセプターモチーフを作ることが予測されるバリアントが含まれている。

 

実際のランでもVCF、fastaファイル、GTFファイルを指定する。レポジトリのrootで実行する。

./RUN.sh -input path/to/variant/file(s) -fasta path/to/hgXX.fa -gtf path/to/annotation.gtf

 

その他

  • レポジトリではGencodeの管理していGRCh38.p13のGTFとfastaファイルが使用されています。実際の解析に使う場合、レポジトリからアクセスすると早いと思います。
  • 予測値は230万variant/compute hourの速度で生成され、ピーク時のメモリ使用量は500MB以下と非常に高速。

引用

Spliceogen: an integrative, scalable tool for the discovery of splice-altering variants 
Steven Monger, Michael Troup, Eddie Ip, Sally L Dunwoodie, Eleni Giannoulatou

Bioinformatics, Volume 35, Issue 21, 1 November 2019, Pages 4405–4407