RelocaTE
RelocaTEはゲノム中のトランスポゾンを検出する手法。トランスポゾンの配列を入力してランする。 検出するトランスポゾンの配列、ターゲット配列、などがわかっていないと正しく機能しない。
依存するもの
- Blat
- Bowtie 1
- BioPerl
- SAMtools
- BWA Recommeded for the creation of the BAM file needed by CharacTErizer
- Blast (Legacy) formatdb and fastacmd are used for indexed sequence retrieval in an additional companion tool, ConstrucTEr, more info coming soon.
script/relocaTE.pl がTE検出ツールの本体である。
perl relocaTE.pl
-t TE FASTA File (Required).
検出したいトランスポゾン配列をfastaで定義する。マルチファスタで複数記入する事もできる。TE配列は末端の terminal inverted repeats (TIRs) [or LTR]も含めて入力してやる必要がある。また、TEのターゲットサイト (TSD) の配列についても塩基で書く必要がある。sampleデータでは">mping TSD=TTA" と3塩基書かれている。GithubのHPには、以下の例が書かれている。
-d Directory of fq files (Required).
fastqのディレクトリを指定。pairでもpairでなくても入力可能だが、paired-endならばpaired _p1.fq & _p2.fqのような名前にする。拡張子はfq、fastqに対応。
-g Reference genome fasta file (Optional).
任意だが、入力されるとTE挿入位置をコールしてくれる。入力がなければ、TEにアライメントされたリードや、TE末端でトリムされたリードの配列、トリム位置などの情報が出力される。
-e Sample identifier (Optional).
出力のID名などに使われる。
-o Output directory name (Optional).
デフォルトはoutdir_teSearch。
-1 Unique mate/pair 1 string (Optional, Recommended). mate-pairのファイル。
-2 Unique mate/pair 2 string (Optional, Recommended). mate-pairのファイル。
他にもいくつかオプションがある。例えば動作速度を上げるためにparallelで並列化するオプションなどは使えそうである。
テストランを実行する。
cd sample_relocaTE_run/
sh run_relocaTE.sh #
RelocaTE2
RelocaTE2はRelocaTEのバージョンアップ版である。RelocaTEがparallelで並列実行して他のに対し、RelocaTE2はゲノム全体のTEを1サイクルで検索する。これによって、ラージゲノムに数千飛んでいるようなTEのcopy number variationなども現実的な時間で分析できるようになったとされる。
GitHub - JinfengChen/RelocaTE2: RelocaTE2