macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

ハイスループットシーケンシングデータから既知のヒトキメラ配列を迅速かつ正確に同定する ChiTaH

 

 融合遺伝子やキメラは、通常、2つの異なる遺伝子からの配列で構成されている。このような融合配列のキメラRNAは、しばしばガンのドライバーとして機能する。このようなドライバーfusionを特定することは、診断や治療に重要である。DNA-SeqやRNA-Seqなどの次世代シーケンス技術の登場と、適切な計算ツールの開発により、腫瘍内のキメラを世界中で同定することが可能になった。しかし、20以上の計算手法を検証した結果、キメラ予測の感度、特異性、ジャンクションリードの正確な定量化の点で、これらの手法には限界があることが分かった。そこで著者らは、ChiTaH(Chimeric Transcripts from High-Throughput Sequencing data)と呼ばれる、初めての「リファレンスベース」のアプローチを開発した。ChiTaHは、43,466個の非冗長な既知のヒトキメラをリファレンスデータベースとして使用して、シーケンスリードマッピングし、キメラリードを正確に識別する。ChiTaHと他の4つの手法を用いて、シミュレーションデータと実際のシーケンシングデータを用いて、ヒトのキメラを同定するベンチマークを行った。その結果、ChiTaHは、シミュレーションデータおよびシーケンシングデータから既知のヒトのキメラを最も正確かつ迅速に同定する方法であることが分かった。さらに、特にChiTaHは、K-562細胞株のバルクおよびシングルセルの両方において、BCR-ABL1キメラの不均一性を明らかにし、これを実験的に確認した。

 

インストール

依存

  • Bowtie2 -v 2.3.3.1
  • samclip
  • sambamba -v 0.6.6
  • bedtools -v 2.26.0
  • merge

Github

mamba create -n ChiTaH -y
conda activate ChiTaH
mamba install -c bioconda -y bowtie2=2.3.3.1
mamba install -c bioconda -y samclip
mamba install -c bioconda -y sambamba=0.6.6
mamba install -c bioconda -y bedtools=2.26.0
#さらにmergeというツール(perl)もダウンロードしてパスを通す(link)

#本体
git clone https://github.com/Rajesh-Detroja/ChiTaH.git
cd ChiTaH/

 

 

テストラン

ヒトのキメラ配列データベースをダウンロードする(Githubにリンクあり)。

configファイルを編集する。

> cat ChiTaH.txt
## Chimera options
## ---------------

threads="25"

bowtie2_index="<FULL_PATH>/human_chimeras.fa"

chimera_bed="<FULL_PATH>/chimeras_43466.bed"
chimera_ANN="<FULL_PATH>/chimeras_43466.ANN"
chimera_fa="<FULL_PATH>/chimeras_43466.fa"

1depth="5"

 

続いてテストデータのfastq(16.3GB)をダウンロードして(Githubにリンクあり)、ChiTaHを実行する。

bash ChiTaH.sh -1 .R1.fastq -2 .R2.fastq -c config.txt

出力

f:id:kazumaxneo:20211203080410p:plain



 

引用

ChiTaH: a fast and accurate tool for identifying known human chimeric sequences from high-throughput sequencing data 
Rajesh Detroja,  Alessandro Gorohovski,  Olawumi Giwa,  Gideon Baum, Milana Frenkel-Morgenstern
NAR Genomics and Bioinformatics, Volume 3, Issue 4, December 2021

 

関連