融合遺伝子やキメラは、通常、2つの異なる遺伝子からの配列で構成されている。このような融合配列のキメラRNAは、しばしばガンのドライバーとして機能する。このようなドライバーfusionを特定することは、診断や治療に重要である。DNA-SeqやRNA-Seqなどの次世代シーケンス技術の登場と、適切な計算ツールの開発により、腫瘍内のキメラを世界中で同定することが可能になった。しかし、20以上の計算手法を検証した結果、キメラ予測の感度、特異性、ジャンクションリードの正確な定量化の点で、これらの手法には限界があることが分かった。そこで著者らは、ChiTaH(Chimeric Transcripts from High-Throughput Sequencing data)と呼ばれる、初めての「リファレンスベース」のアプローチを開発した。ChiTaHは、43,466個の非冗長な既知のヒトキメラをリファレンスデータベースとして使用して、シーケンスリードをマッピングし、キメラリードを正確に識別する。ChiTaHと他の4つの手法を用いて、シミュレーションデータと実際のシーケンシングデータを用いて、ヒトのキメラを同定するベンチマークを行った。その結果、ChiTaHは、シミュレーションデータおよびシーケンシングデータから既知のヒトのキメラを最も正確かつ迅速に同定する方法であることが分かった。さらに、特にChiTaHは、K-562細胞株のバルクおよびシングルセルの両方において、BCR-ABL1キメラの不均一性を明らかにし、これを実験的に確認した。
インストール
依存
- Bowtie2 -v 2.3.3.1
- samclip
- sambamba -v 0.6.6
- bedtools -v 2.26.0
- merge
mamba create -n ChiTaH -y
conda activate ChiTaH
mamba install -c bioconda -y bowtie2=2.3.3.1
mamba install -c bioconda -y samclip
mamba install -c bioconda -y sambamba=0.6.6
mamba install -c bioconda -y bedtools=2.26.0
#さらにmergeというツール(perl)もダウンロードしてパスを通す(link)
#本体
git clone https://github.com/Rajesh-Detroja/ChiTaH.git
cd ChiTaH/
テストラン
ヒトのキメラ配列データベースをダウンロードする(Githubにリンクあり)。
configファイルを編集する。
> cat ChiTaH.txt
## Chimera options
## ---------------
threads="25"
bowtie2_index="<FULL_PATH>/human_chimeras.fa"
chimera_bed="<FULL_PATH>/chimeras_43466.bed"
chimera_ANN="<FULL_PATH>/chimeras_43466.ANN"
chimera_fa="<FULL_PATH>/chimeras_43466.fa"
1depth="5"
続いてテストデータのfastq(16.3GB)をダウンロードして(Githubにリンクあり)、ChiTaHを実行する。
bash ChiTaH.sh -1 .R1.fastq -2 .R2.fastq -c config.txt
出力
引用
ChiTaH: a fast and accurate tool for identifying known human chimeric sequences from high-throughput sequencing data
Rajesh Detroja, Alessandro Gorohovski, Olawumi Giwa, Gideon Baum, Milana Frenkel-Morgenstern
NAR Genomics and Bioinformatics, Volume 3, Issue 4, December 2021
関連