高速な重複の検出ツール DuplicationDetector - macでインフォマティクス

　重複は、植物ゲノム構造の重要な特徴であり、単一の遺伝子、染色体の一部や全体、さらには全ゲノムを含む可能性がある [論文より ref.1]。被子植物は、それらの進化に沿って大規模な重複および複数の全ゲノム重複を受けたことが示されている[ref.2]。重複遺伝子は異なる機能を持つタンパク質を作り出す可能性がある。例えば栽培稲では、野生稲にないゲノム重複が根の抵抗性を向上させ、塩ストレス下での発芽と成長を改善した [ref.8,9]。重複の検出は複雑な作業で、従来CGH(array CGH)、FISHなどの手法が用いられていたが、近年のNGSの発展により、従来の方法と並行して低コストなシーケンシングに基づく手法も多数開発された（例えば [ref.17]）。開発された手法は、重複領域が非重複領域よりも倍数だけ多くシーケンスされることを利用した、いわゆるDepth of Coverage（DoC）のアプローチで重複を探し出す。すなわち、指定したbinサイズでゲノムを分析してカバレッジの変動を検出する。しかしながら、DoCのようなアプローチは、高精度の実験、反復（replicates）および計算リソースを必要とし、またターゲットをコントロールと比較するように設計されており、多数の個体に同時に適用することはできない。

　DuplicationDetectorは、二倍体ゲノムに過剰なヘテロ接合座（AEH）を使用することに基づく、任意の自家種の重複遺伝子や領域を簡単かつ確実に検出する新しい方法論。自家受粉（したがって、高度にホモ接合）種について、所定の間隔でヘテロ接合体の異常数に依存する。NGS SNP解析の古典的出力であるVCFファイルを使用するので大きな計算時間を必要とない（生のVCFと、参照ゲノムのGFFファイル）。

　完全な分析は3つのステップで実行される。最初のステップでは、perl スクリプトvcf_filter.plを使用して異常なヘテロ接合点を回復する。2番目のステップでは、前に選択したポイントをgenomic_interval_position.plスクリプトを使用してゲノムの一定間隔で結合する。最後のオプションのステップは、BEDtoolsのintersectBedを使用して、前のステップで得られたゲノム間隔をアノテートされたゲノムデータベースと交差させ、重複遺伝子を検出する。DuplicationDetectorは一連のシミュレーションデータでテストされ、高速かつ堅牢であることが示された。シミュレートされたデータをもとに真のイネゲノム配列を検証し、アフリカイネ（Oryza glaberrima）系統において、アジア系統（O.sativa）と比較して約200個の重複候補遺伝子を報告している。

インストール

cent OSに導入した。

依存

Linux 64bits system
Perl 5.xx
BEDtools

本体 Github

https://github.com/SouthGreenPlatform/duplicationDetector/

git clone https://github.com/SouthGreenPlatform/duplicationDetector
cd duplicationDetector/
perl duplicationDetector.pl --help

> perl duplicationDetector.pl --help

$ perl duplicationDetector.pl

Type --help for more informations

[uesaka@cyano duplicationDetector]$ perl duplicationDetector.pl --help

Usage:

duplicationDetector.pl -i VCFIn -o fileOut [-c control homozygous list -d depth -H nbHzExpected -M MQ0Expected -m missingData -s maximum size between 2 points -b minimal block size -D minimal block density -g gffFile]

control homozygous list will be ReadGroup separated by commas (ex Ind1,Ind2)

Defaults value are -d 30 -H 8 -M 0 -m 2 -D 25 -b 100 -s 1000 -c undef -g undef;

contact: gustave.djedatin-at-ird.fr

-c control homozygous list

-g gff file

-d depth

-H nbHzExpected

-M MQ0Expected

-m missingData

-s maximum size between 2 points

-b minimal block size

-D minimal block density]

Can't open perl script "duplicationDetector.pl/scripts/vcf_filter.pl": Not a directoryと出たので、duplicationDetector.plの92行目を消し、91行目をカレントパス指定に修正した。

ラン

perl duplicationDetector.pl -i input.vcf -o output

デファルトパラメータ

d 30 -H 8 -M 0 -m 2 -D 25 -b 100 -s 1000 -c undef -g undef

適切なデータがないのでテストできていません。妥当なデータが出てくれば追記します。

引用

DuplicationDetector, a light weight tool for duplication detection using NGS data

Gustave DjedatinGustave DjedatinCécile MonatStefan EngelenStefan EngelenFrancois SabotFrancois Sabot

Current Plant Biology Volumes 9–10, June 2017, Pages 23-28