cGOF-assisted アセンブリパイプライン GAAP - macでインフォマティクス

　次世代シークエンシング（NGS）技術は、近年では数万の原核生物ゲノム配列を生成し、原核生物のゲノム研究を大いに促進している。cost-effectiveで、カバレッジが高いので高品質の信頼できるデータが生成できる。しかしながら、原核生物の完全なゲノム配列の達成にはアセンブリおよびスキャフォールディングのプロセスが必要であるが、リード長の短さのために、いつも順序がないアセンブリおよびギャップが残る。効率的で信頼性の高いスキャフォールディングが、進化のプロファイルを研究する上での障害となっている[ref.1-5]。

　SOAPdenovo [ref.6]、ABySS [ref.7]、Velvet [ref.8]のようなbuild-inのアセンブリソフトウェアは、ペアエンド（PE）リードのコネクションとインサートサイズ長に依存している。アセンブリツールのパフォーマンスは、標的ゲノムのリピート領域、例えばリボソームオペロン、transposases、およびISの長さおよび豊富さによって劇的に影響される。これらの繰り返し領域は、PEリードを非ユニークなコンティグにリンクしてコンフリクトを引き起こし、最終的にアセンブリを断片化したドラフトとして残す。したがって、ディスコネクトされたscaffoldsとconitgsを方向と順序を決定するには、より多くの情報が必要となる。

　原核生物ゲノムはよく系統関係に従っているので、リファレンスゲノムはそのような場合に有用であり、したがって、reference-assisted アルゴリズムが出てきている[ref.9-13]。その中で、典型的には、AlignGraphは、closely relatedな生物のリファレンスゲノムをガイドにして、コンティグをPEリードを使ってリンクし拡張する。 Ragoutは、contigの順番を決めるために、系統関係から1つまたは複数のリファレンスゲノムを使用する。保存されたゲノム構造を有する種は、これらのアルゴリズムによく適合する。しかしながら、ゲノム構造の柔軟性は分かりにくいが、異なる種は様々なゲノム複雑性を有する可能性がある[ref.14]。系統発生からの支持を得ても、再編成が非常に集中しており、closely relatedな株は異なるゲノム構造をしている可能性があり、同じゲノム構成を有する単離株が遠く離れている株の可能性がある[14-16]。これらの研究は、ゲノム再編成が系統関係とは無関係である可能性を示唆しており、アルゴリズムが系統樹に深く依存すると、scaffoldingのリファレンスを選択する時にシステムエラーが生じる。

　原核生物ゲノムは１つの種内でも広範囲にゲノムが再編成することことがあり得るが、コア遺伝子は必須では遺伝子よりもゲノムのポジションの点ではより安定である。我々のこれまでの研究でcGOF（core-gene-defined genome organizational framework）と定義されている種のコアゲノムは、保存された秩序を持って垂直に遺伝する遺伝子を構成する、 i.e.世代間でシンテシーを維持し、また全ゲノムまたは大きなセグメントで順序を維持する[ref.16]。対照的に、ゲノム中の他の遺伝子、すなわちdispensableな遺伝子は、水平遺伝子伝達の対象であり、しばしばそれらのゲノム中の位置を変化させる。コア遺伝子とdispensableな遺伝子との間の位置保存の不一致から、cGOFに従ってcontigを順序づけるscaffoldingのアルゴリズムが考えられる。このようにして、10の大腸菌単離株のゲノムをFinishingさせた。これらの株では、著者らがcGOFに基づいて予測したscaffoldsとコンティグのすべての隣接関係は、PEリードによって強く支持されない場合PCRを用いてverifyされた[ref.16]。

　ここでは、cGOFに基づいたアルゴリズムであるプログラムGAAP（cGOF-assisted assembly pipeline）を実装する。リファレンスゲノム選択から始めるのではなく、scaffoldingのためにpangenomic法を用いて順序が保存されたcGOF遺伝子を抽出し、また近接ギャップ間の接続を拡張するPEリードで補足する。これによって、種のcGOFセグメントより少ない断片数のドラフトを得ることができる。GAAPは、最も一般的で矛盾のないセグメント置換に従ってScaffoldsの順序を示唆し、したがって環状アセンブリを達成する。Pseudoゲノムが構築されれば、その株のDNAが利用可能であれば、PCRによってさらに検証することができる。ゲノム再編成の生物学的特徴は種特異的であるので、原核生物種は、cGOFパターンに従って3つのカテゴリーに分類することができる：単一セグメント、対称、および非対称多セグメントcGOF [ref.16]。ここでは、GAAPとRagout、MeDuSa、およびAlignGraphの他3つのリファレンスアシストプログラムを比較し、多様なゲノムサイズ、複雑さ、cGOFの3つのカテゴリーすべてで、empiricalなデータとシミュレーションデータの両方についてGAAPが並列した性能を達成することを示す。

The framework of GAAP. HPより。

GAAPに関するツイート

インストール

Python version of 2.7 or above
Bowtie2 and BLAT are required（Before start, put Bowtie2 and BLAT to your $PATH）
PGAP (http://sourceforge.net/projects/pgap/) is recommended to produce gene cluster file, which is needed to run cGOF identification

HPよりダウンロードする。テストデータもダウンロードできる。

http://gaap.big.ac.cn/#download

> python cgof_identification.py -h

$ python cgof_identification.py -h

usage: cgof_identification.py [-h] [-s SEGMENT_LENGTH] [-o OUTPUT_DIR]

NAME CLUSTER_FILE PTT_DIR REFERENCE_FILE

DNA Processor:

This program will generate 2 output file. Each file name is starts with Job name.

Output files:

[JOB].output.freq Frequency Result

[JOB].output.fasta Segments DNA Sequence

positional arguments:

NAME Job name, will affect output file name.

CLUSTER_FILE Cluster file name.

PTT_DIR .ptt files path.

REFERENCE_FILE Reference file, .nuc file.

optional arguments:

-h, --help show this help message and exit

-s SEGMENT_LENGTH, --segment-length SEGMENT_LENGTH

Min segment length default is 2.

-o OUTPUT_DIR, --output-dir OUTPUT_DIR

Output directory default is current directory.

——

>python scaffolding.py -h

$ python scaffolding.py -h

usage: scaffolding.py [-h] [-r R] [-m MAX_INSERT] [-n MIN_INSERT]

[-s SCAFFOLD_SIZE] [-o BLAT_OUTPUT] [-c]

READS_1 READS_2 SCAFFILDS_FASTA GOF_FASTA

SEGMENT_FREQUENCY OUTPUT_DIR

cGOF-assisted assembly pipeline

positional arguments:

READS_1 fa1/fq1

READS_2 fa2/fq2

SCAFFILDS_FASTA Scaffolds fasta file

GOF_FASTA GOF fasta output file

SEGMENT_FREQUENCY Segment frequency output file name

OUTPUT_DIR Output directory

optional arguments:

-h, --help show this help message and exit

-r R Number BP to filter for READS_1 and READS_2

-m MAX_INSERT, --max-insert MAX_INSERT

Max insert, default is 600

-n MIN_INSERT, --min-insert MIN_INSERT

Min insert, default is 300

-s SCAFFOLD_SIZE, --scaffold-size SCAFFOLD_SIZE

Scaffold size, default is 300

-o BLAT_OUTPUT, --blat-output BLAT_OUTPUT

Blat processor output file name, default is blat-

output

-c, --clean Clean output temporary files.

実行方法

GAAPは、2つのツールで構成されている。
1）cGOF_identification：cGOFセグメントの順序をリファレンスから抽出する。
2）Scaffolding：cGOFsの遺伝子のセグメントを使用し、ターゲットコンティグのScaffoldingを実行する。

PGAP (pan-genomes analysis pipeline) （紹介）を使ってクラスターファイルを作成する。準備できたらテストデータを分析する。

cd examples/Saureus/
python cgof_identification.py -s 10 -o output/ \
sau sau_gene.cluster ptt_dir/ NC_002745.nuc


python scaffolding.py -m 550 -n 450 -s 300 -o sau -c sau_1.fa sau_2.fa sau_scafseq.fa output/sau.output.fasta output/sau.output.freq output/

引用

GAAP: Genome-organization-framework-Assisted Assembly Pipeline for prokaryotic genomes

Lina Yuan, Yang Yu, Yanmin Zhu, Yulai Li, Changqing Li, Rujiao Li, Qin Ma, Gilman Kit-Hang Siu, Jun Yu, Taijiao Jiang, Jingfa Xiao, Yu Kang

BMC Genomics. 2017; 18(Suppl 1): 952.