macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

融合遺伝子とキメラ転写産物を検出する ChimPipe

 キメラtranscriptsは、ゲノム中の異なる2つ以上の遺伝子に由来する配列を有する転写産物であり[論文より ref.1]、ゲノムまたは転写レベルでいくつかの異なる生物学的メカニズムによって説明することができる。ガンとの歴史的関係については、最もよく知られているメカニズムはゲノム再編成である。このプロセスは、生殖系列ゲノムにおいて、そして癌ゲノムにおいて、遠く離れた同じ方向にある2つの遺伝子を互いに近接させる。このようにして作出された融合遺伝子は、タンパク質または転写産物として有害な役割を果たす可能性がある[ref.1,2]。ガンにおけるキメラの既知の役割以外に、正常細胞または腫瘍細胞でキメラ形成を説明できる他の転写機構もある:ポリメラーゼリードスルーおよびトランススプライシング[ref.1]。

 その名前で示されるように、ポリメラーゼのリードスルーは、ポリメラーゼが1つの遺伝子を次の遺伝子に読み込み、2つの隣接する遺伝子の間にキメラを作成するときに起こる。当初、例外であると考えられていたこの機構は、EST(発現配列タグ)およびcDNA(相補的DNA)の大量のコレクションが利用可能になりゲノムにマッピングされ、そしてENCODE (Encyclopedia of DNA Elements)コンソーシアムが注釈付きタンパク質コード遺伝子に関連するトランスクリプトームを系統的に調査した[ref.6-9]結果、哺乳動物に広く広がっていることが判明している[ref.3-5]。隣接する遺伝子のエキソン間、好ましくは上流(5 ')遺伝子の最後から2番目のエキソンと下流(3')遺伝子の第2エキソンとの間でリードスルーが起こり、両親のドメインを含む新しいタンパク質が得られる。それゆえ、種のプロテオーム多様性を増加させる[ref.1,3,4,10,11]。それらは脊椎動物においても大部分保存されており[ref.11,12]、親遺伝子の一方または両方の発現を調節する方法となりうる[ref.12]。

 トランススプライシングは、よく知られているシススプライシングとは異なり、核の3次元(3D)空間で近くに存在し、同じ"transcription factory"に属すると考えられる2つの異なるプレメッセンジャーRNA(プレmRNA)分子間で起こるスプライシング機構である。 2つのプレmRNAが2つの異なる遺伝子に由来する場合、転写キメラが生成される[ref.1,13-16]。したがって、2つの連結された遺伝子は、ゲノムの遠区離れた位置に存在することができるが、キメラ接合部は正規のスプライス部位を有さなければならない。当初、トリパノソーマに限定されると考えられていたが、いくつかの研究で、根底にあるゲノム再編成の証拠なしに、異なる染色体または鎖上の遺伝子の間にキメラを発見して以来、ヒト研究で関心を集めている[ref.13,14,16]。 1つの仮説は、正常細胞で起こるこのようなトランススプライシングされた転写産物がゲノムリアレンジメントを引き起こし、それが(異なる機構を介して)より多くのこのようなトランススプライシング転写産物を生成し、最終的に腫瘍形成に至ることである[ref.13]。

 

(3段落省略) 

 最先端のキメラ検出プログラムは、通常、(1)キメラリードのためのマッピングおよびフィルタリング、(2)キメラ接合部検出、および(3)キメラアセンブリおよびフィルタリングの3つのステップを含む。これらは、ゲノム(そして場合によってはトランスクリプトーム)にリードをマッピングし、キメラ検出のための2種類の情報を利用する(1) discordant paired-end (PE) reads、すなわちペアエンドのペアがアノテーション上の遺伝子構造と一致しないマップ、例えば異なるクロモソーム間にマッピングされる。 (2) ‘split’ reads、すなわちゲノムに連続的にマップされないが、ゲノムにマップするために複数のブロック(通常は2つ)に分割マッピングされる(論文 図1)。さらに、1種類または2種類のリードを使用することにより、(1) the whole paired-end アプローチ、 (2) the direct fragmentation アプローチ、そして(3) the paired-end + fragmentation アプローチ [41]の3つのアプローチをキメラジャンクション検出に取ることができる。

 これらのプログラムのベンチマーキングは、偽陽性率が高く、同じデータセットでの出力間のintersectionの割合が不十分であることを示している[ref.42,43]。他方で、これらのプログラムは、通常、ヒトのガンでの融合遺伝子検出に開発されており、従って、リードスルーイベントを常に検出することはできず、ヒト以外の種に使うこともできない。さらに、これらのプログラムは、遺伝子対ごとに複数のアイソフォームを常に予測できるとは限らず、より重要なことに、塩基対の分解能を提供し、下流の機能検証を妨げる。これらの問題に対処するために、著者らはノーマルと腫瘍の両方からのイルミナペアエンドRNA-seqデータからキメラ転写産物および融合遺伝子の両方を確実に検出する、ペアエンド + フラグメンテーションアプローチおよび厳格なフィルターセットを使用するモジュラー法であるChimPipeを提示する(以下略) 。

 

ChimPipeに関するツイート。

 

マニュアル

https://chimpipe.readthedocs.io/en/latest/

 

インストール

依存

  • 64-bit Linux System (ChimPipe is written in Bash and Awk)
  • Bedtools v2.20.1 or higher
  • Samtools v0.1.19 or higher
  • Blast v2.2.29+ or higher 

本体 Github

git clone https://github.com/Chimera-tools/ChimPipe.git
cd ChimPipe/

 > ./ChimPipe.sh 

$ ./ChimPipe.sh 

[ERROR] The mate 1 FASTQ provided does not exist. Mandatory argument --fastq_1

 

**** ChimPipe version v0.9.5 ****

 

Execute ChimPipe on one Illumina paired-end RNA-seq dataset (sample).

 

*** USAGE

 

FASTQ:

 

./ChimPipe.sh --fastq_1 <mate1_fastq> --fastq_2 <mate2_fastq> -g <genome_index> -a <annotation> -t <transcriptome_index> -k <transcriptome_keys> [OPTIONS]

 

BAM:

 

./ChimPipe.sh --bam <bam> -g <genome_index> -a <annotation> [OPTIONS]

 

*** MANDATORY 

 

* FASTQ:

 

--fastq_1 <FASTQ> First mate sequencing reads in FASTQ format. It can be gzip compressed [.gz].

--fastq_2 <FASTQ> Second mate sequencing reads in FASTQ format. It can be gzip compressed [.gz].

-g|--genome-index <GEM> Reference genome index in GEM format.

-a|--annotation <GTF> Reference gene annotation file in GTF format.                                

-t|--transcriptome-index <GEM> Annotated transcriptome index in GEM format.

-k|--transcriptome-keys <KEYS> Transcriptome to genome coordinate conversion keys.  

--sample-id <STRING> Sample identifier (output files are named according to this id).  

 

* BAM:

 

--bam <BAM> Mapped reads in BAM format. A splicing aware aligner is needed to map the reads. 

-g|--genome-index <GEM> Reference genome index in GEM format.

-a|--annotation <GTF> Reference genome annotation file in GTF format.

--sample-id <STRING> Sample identifier (the output files are named according to this id).  

 

*** [OPTIONS] can be:

 

* General: 

--threads <INTEGER> Number of threads to use. Default 1.

-o|--output-dir <PATH> Output directory. Default current working directory. 

--tmp-dir <PATH> Temporary directory. Default /tmp.

--no-cleanup Keep intermediate files. 

-h|--help Display partial usage information, only mandatory plus general arguments.

-f|--full-help Display full usage information with additional options. 

 

A complete documentation for ChimPipe can be found at: http://chimpipe.readthedocs.org/en/latest/index.html

 

ラン

テストランできるAll in one packageが準備されている(リンク) (5.2GB)。

wget http://public-docs.crg.es/rguigo/Papers/ChimPipe/ChimPipe_tutorial.tar.gz
tar -zxvf ChimPipe_tutorial.tar.gz

 

ダウンロードしたテストデータを走らせる。

cd ChimPipe_tutorial/input/

../../ChimPipe.sh --fastq_1 MCF-7_1.fastq.gz --fastq_2 MCF-7_2.fastq.gz -g Homo_sapiens.GRCh37.chromosomes.chr.M.gem \
-a gencode.v19.annotation.long.gtf -t gencode.v19.annotation.long.gtf.junctions.gem \
-k gencode.v19.annotation.long.gtf.junctions.keys --sample-id MCF-7 --threads 20 \
--similarity-gene-pairs gencode.v19.annotation.long.similarity.txt

GEMToolsのラン中に、-qのフラグ内が指定されてないとのエラーが起き他ので、本体のシェルスクリプトを開き、283行目のrun "$gemtools --loglevel $logLevel rna-pipeline -の行の手前にquality="33"の行を追加する応急処置を行ってランした。

 

引用

ChimPipe: accurate detection of fusion genes and transcription-induced chimeras from RNA-seq data.

Rodríguez-Martín B, Palumbo E, Marco-Sola S, Griebel T, Ribeca P, Alonso G, Rastrojo A, Aguado B, Guigó R, Djebali S.

BMC Genomics. 2017 Jan 3;18(1):7.