macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

mobile element を検出する Mobster

 

 転移因子(ME)は自律的にコピーしたりゲノム上を移動したりすることができるDNA配列だが、その高度に反復的な配列構造のために検出が困難である。MEは、ゲノム構造を変化させる主要な進化ドライバーであるだけでなく、機能的に重要な領域に挿入され、遺伝子の機能を破壊することで、多くのヒト疾患の病原性変異を直接的にもたらしてきた。MEは、転移の様式によって2つの異なるクラスに分類される。クラスIのレトロトランスポゾンはコピー&ペーストによってRNA中間体を経由して移動し、クラスIIのDNAトランスポゾンはDNA中間体を持ち、一般的にはカット&ペーストによって移動する。これらのエレメントを合わせてヒトゲノムの大部分を構成しており、ヒトゲノム配列の45%から69%がこれらのトランスポゾンクラスのいずれかに属すると推定されている[ref.3, 4]。

 現在のところ、ヒトゲノム上で活性な、あるいは「ホット」なMEはわずかしか存在していないが、そのすべてがレトロトランスポゾンクラスに属し、自律型のL1ファミリー(6kb、50万コピー)、非自律型のAluファミリー(300bp、100万コピー)、SVAファミリー(2kb、3000コピー)などが含まれている。これらのMEファミリーは、DNAの新しい領域への挿入、DNAの形質転換、エクソンのシャッフル、加工された疑似遺伝子の生成などにより、ゲノム構造を変化させ続けている。転座の古代の遺物であっても、その配列の相同性が不均等なクロスオーバーを引き起こし、2つのMEコピー間でDNAの欠失や重複を引き起こす可能性があるため、ゲノムの変異に大きく貢献している。

 ME転移は、生殖細胞内または初期胚発生期にしばしば起こる。ヒトにおける最初のME挿入(MEI)は、血友病Aの2人の患者において、FVIII遺伝子のエクソン14に発見された[ref.10]。それ以来、90以上のMEIが発見されており、そのうち60個のAluエレメントの挿入、25個のL1sの挿入、7個のSVAの挿入が含まれている[ref.8]。さらに、MEはがんの発生に関与していることが知られており、いくつかの研究[ref.11-13]で腫瘍特異的なMEIイベントが発見されている。

 多型MEI(pMEI)を同定するために、ターゲットおよび次世代シークエンシング(NGS)解析の両方が開発されてきた。ヒトのNGSデータ中のpMEIを計算で検出しようとするこれまでの試みは、一般的に、pMEIを同定するために、不一致リードペアまたはクリップされたリードを使用する。HormozdiariらはVariationHunterを改良して多型のAlu挿入を特徴づけるようにした[ref.14]。一方、EwingとKazazianは多型のL1挿入を検出するためのパイプラインを開発した[ref.15]。Tea [ref.13]とRetroSeq [ref.16]は、MEIイベントのブレークポイントを微調整するために、不一致ペアに加えてクリップされたリードを使用することができる。最後に、Stewartらによる未発表のパイプラインでは、ペアエンドのIlluminaデータのペアエンドアプローチ[ref.17]に加えて、より長い454リードのpMEIを検出するためスプリットリード法を使用する。

 我々(本著者ら)は、WGSとWESの両方のデータにおいて、高精度でアクティブな非リファレンスMEIを検出することができるMobsterと名付けられた新しい方法を提示する。さらに、この手法は特定のMEIイベントのファミリーに限定されることなく、すべてのアクティブなMEIイベントのファミリーを検出することができる。この手法は、公開されているヒトのデータセットや、カバレッジの異なるシミュレーションデータにおいて、既存のツールを凌駕している。次に、ペアエンドWGSデータセット、ペアエンドWESデータセット、シングルエンドWESデータセットを含む様々なNGSデータタイプにMobsterを適用し、PCRバリデーションを行った。

 

インストール

ubuntu18.04LTSでテストした。

本体 Github

 

#bioconda (link)
conda create -n mobster-env -c bioconda -y mobster
conda activate mobster-env 

mobster -h

$ mobster -h

##########################

#MOBSTER                 #

##########################

Version: 0.2.4

Author: Djie Tjwan Thung

 

Predict non-reference Mobile Element Insertion (MEI) events using one properties file.

-properties [properties]

-in [input .bam file]. This value will override corresponding value in properties file. Multiple BAM files may be specified if seperated by a comma

-out [output prefix]. This value will override corresponding value in properties file.

-sn [sample name]. This value will override corresponding value in properties file. Multiple sample names may be specified if seperated by a comma

Default mapping tool: unspecified

0 [main] INFO Mobster  - Invalid arguments. Please try again.

 

 

実行方法

1サンプル。bamを指定する。

mobster \
-properties Mobster_latest.properties \
-in input.bam \
-sn test_sample \
-out mobster_test

 

複数サンプル

#family trio
mobster
\
-properties Mobster_latest.properties \
-in A1_child.bam,A1_father.bam,A1_mother.bam \
-sn A1_child,A1_father,A1_mother \
-out A1_trio_mobster

引用

Mobster: accurate detection of mobile element insertions in next generation sequencing data

Thung DT, de Ligt J, Vissers LE, Steehouwer M, Kroon M, de Vries P, Slagboom EP, Ye K, Veltman JA, Hehir-Kwa JY

Genome Biol. 2014;15(10):488.