転移因子は、ゲノムの重要な部分を構成し、適応メカニズムに不可欠である。表現型の変化に関連するトランスポジション現象は、自然に発生するか、挿入型の突然変異体集団で誘発される。トランスポゾンを用いた変異誘発では、複数のランダムな挿入が起こり、そのほとんどまたはすべての挿入を回復させることが、遺伝学的研究を進める上で重要になる。ゲノムの次世代シークエンスデータと適切なバイオインフォマティクスツールを用いれば、トランスポゾンの挿入部位を正確に特定することができ、それによって目的の表現型の原因となる変異の候補が得られ、さらに機能的な検証を行うことができると考えられる。
著者らは、トランスポゾン挿入部位をゲノム上で特定するための新しいバイオインフォマティクスツールITIS (Identification of Transposon Insertion Sites)を開発した。ITISは、次世代ゲノムリシークエンシングデータ(NGSデータ)、トランスポゾンの配列、および参照ゲノム配列を入力として、信頼性の高い挿入部位候補のリストと、各挿入部位の接合性情報を生成する。シミュレーションデータとMedicago truncatulaの挿入変異株に基づくケーススタディを用いて、ITISがRelocaTE、RetroSeq、TEMP、TIFなどの他の類似アルゴリズムよりも感度と特異度の点で優れた性能を発揮することを示した。ケーススタディのデータでは、複雑な植物システムであるM. truncatulaの中で、Tnt1トランスポゾンの予測された挿入部位の存在と接合性を検証することで、ITISの効率性を示した。
本研究により,ITISは表現型を引き起こすトランスポサブルエレメントの挿入を同定するためのforward genetics研究のための強固で強力なツールであることが示された。ITISは、細胞培養、細菌、酵母、昆虫、哺乳類、植物など様々なシステムに適している。
ITISは、入力として3つの配列ファイルを必要とする。(i) 参照ゲノム配列、(ii) 転移因子(TE)配列、(iii) 新規のTE挿入を含むリシークエンシングされたゲノムから生成されたペアエンド(PE)ショートリード。ITISのパイプラインの最初のステップは、ショートリードアライメントプログラムBWAを用いて、PEリードを参照ゲノム配列およびTE配列にマッピングすることである。第2ステップで、ITISはアライメントファイルを処理し、PEリードを2つのカテゴリーに分類する。両方のPEリードが参照ゲノムにマッピングされているが、TEにはマッピングされていない場合、それらはバックグラウンドPEリードとみなす。バックグラウンドPEリードは、挿入部位を決定するための情報を提供しないが、挿入遺伝子座におけるその数は、挿入遺伝子座がヘテロ接合かホモ接合かを決定するために使用される。PEリードの少なくとも1つが挿入TE配列と20bp以上重なっていれば、そのPEリードは情報量の多いPEリードとみなされる。挿入ジャンクションがどのようにカバーされているかに基づいて、informative PEリードはさらに2つのタイプに分類される。1つ目のタイプはクロスPEリードで、片方の端が参照ゲノムに完全にマッピングされ、もう片方の端が挿入TEにマッピングされている。第2のタイプは、少なくとも片方の端が参照ゲノムと挿入TEの両方の配列をカバーしているクリッピングPEリードである。クリップドPEリードは、TEが挿入された正確なヌクレオチド位置を決定するために使用される。3番目のステップとして、ITISは、informative PEリードのゲノム座標を使用して、informativenリードのクラスターを見つける。各クラスターは、TEの挿入部位の候補を示している。本物である可能性が高い挿入部位のリストを作成するために、ITISは一連のフィルターを使用して、偽の候補を破棄する。その条件は、情報提供PEリードの平均マッピング品質が少なくとも1以上であること(挿入が反復領域にないことを保証するため)、挿入周辺の平均シーケンス深度が2~300であること、サポートするPEリードの数が少なくとも3であること、挿入の両端が少なくとも1つのリードペアでサポートされていなければならないことである。次に、切り取られたPEリードを用いて、挿入の正確なゲノム上の位置を決定する。
最後に、検出された各TEの挿入について、ITISは、(挿入を持つ対立遺伝子からの)情報提供PEリードの数と(挿入を持たない対立遺伝子からの)バックグラウンドPEリードの数を用いて、挿入部位がヘテロ接合かホモ接合かの可能性を決定する。ITISは、Perlで実装されており、http://bioinformatics.psc.ac.cn/software/ITIS で自由に利用することができる。ITISは、Linux/Unixシステム上でコマンドラインから動作するスタンドアローンのソフトウェアである。
インストール
依存
- samtools (v 0.1.19)
- bwa (v 0.7.7-r441)
- bedtools (v 2.17.0)
- Bio::Perl
- blast+
- R
- IGV (Other usefull tool)
mamba create -n itis -y
conda activate itis
#依存
mamba install -c bioconda bwa blast -y
mamba install -c bioconda samtools==0.1.19 -y
mamba install -c bioconda bedtools==2.17 -y
#さらにBio::Perlも必要
mamba install -c bioconda perl-bioperl -y
git clone https://github.com/Chuan-Jiang/ITIS.git
cd ITIS/test_dir
> perl ../itis.pl
# perl ../itis.pl
USAGE:
../itis.pl
REQUIRED -g the genome sequence file in fasta format
OR -G prefix of bwa-indexed reference file ( genome + transposon)
REQUIRED -t the TE sequence file in fasta format
### (deprecated)or -T prefix of bwa-indexed transposon sequence file
REQUIRED -l the average length of fragments in library
REQUIRED -N the name of project
REQUIRED -1 the paired read file 1
REQUIRED -2 the paired read file 2
-f <gff file> if provided, ITIS will check if TE inserted in gentic or intergeneic region <deprecated>
-F <Y|N> run scripts in 'FAST' mode; It won't align all reads to reference genome,caculate the average bg depth,
and estimate if insertion is homo or heter,[default N]
## parameters used with '-F N' :
-B <bam file> use previous sorted and indexed bam file of reads aligned to reference genome
-d <Num,Num> the depth range to filter raw insertion site, [default 2,200]
-q <Num> the minimum average mapping quality of all supporting reads, [default 1]
-e <Y|N> If reference genome contains this TE or it's homolog. using blast to hard mask these sequence is required, [default N]
-a <Num> the number of bases allowed to be lost when transposing, [defualt 10]
-b <tags> minimum required number of flanking reads , in the format of /Tag=Value/Tag=Value/Tag=Value/ , the avaliable tags:
t: total supporting reads at detected insertion /t=3/
CS:clipped reads cover TE start site /CS=0/
CE:clipped reads cover TE end site /CE=0/
cs:cross reads cover TE start /cs=0/
ce:cross reads cover TE end /cs=0/
TS:total reads cover TE start /TS=1/
TE:total reads cover TE end /TE=1/
[default /t=3/TS=1/TE=1/]
-c <Num,Num,Num> cpu number for 'BWA mem', 'samtools view' and 'samtools sort', [defualt 8,2,2]
-w <Num> window size used to cluster supportting reads, [default library_length/2]
-D <Directory> use this specifed temperate directory, [default[project].[aStringOfNumbers]]
-m <Y|N> Only print out all commands to STDERR, [default N]
-h print this help message
eg: perl ../itis.pl -g genome.fa -t tnt1.fa -l 300 -N test_run -1 reads.fq1 -2 reads.fq2 -f medicago.gff3
テストラン
cd ITIS/test_dir/
tar xvzf sample_data.tar.gz
perl ../itis.pl -g rice_chr1_200k.fa -t mping.fa -l 500 -N test -1 sample.fq1 -2 sample.fq2 -e Y
- -g the genome sequence file in fasta format
- -t the TE sequence file in fasta format
- -l the average length of fragments in library
- -1 the paired read file 1
- -2 the paired read file 2
- -N the name of project
最終出力はtest.mping.filtered.bedファイル。
引用
ITIS, a bioinformatics tool for accurate identification of transposon insertion sites using next-generation sequencing data.
Jiang C, Chen C, Huang Z, Liu R, Verdier J.
BMC Bioinformatics. 2015 Mar 5;16:72. doi: 10.1186/s12859-015-0507-2.
関連
高感度
修正
148行目
$cmd = "$bwa mem -T 20 -t $cpu_bwa $index_ref $rs1_ori $rs2_ori 2>/dev/null | samtools view -@ $cpu_view -buS - | samtools sort -@ $cpu_sort - $tmp_dir/$proj.all_reads_aln_ref_and_te.sort";
$cmd = "$bwa mem -T 20 -t $cpu_bwa $index_ref $rs1_ori $rs2_ori 2>/dev/null | samtools view -@ $cpu_view -buS - | samtools sort -@ $cpu_sort - -o $tmp_dir/$proj.all_reads_aln_ref_and_te.sort.bam";
同様に172、208、223行目も修正した。