複数のロングリードドラフトアセンブリを使って連続性の高いアセンブリを得る GALA

　高品質のゲノムアセンブリは、遺伝学や医学研究の分野で幅広く応用されている。しかし、現在のワークフローでは、ギャップのない染色体スケールのアセンブリを実現することは非常に困難である。ここでは、preliminaryなアセンブリやキメラを含む生データからミスアセンブリを識別し、染色体スケールのリンケージグループにデータを分割する多層コンピュータグラフを用いた、chromosome-by-chromosomeなアセンブリ戦略を提案する。各リンケージグループの後続の独立したアセンブリは、通常、既存のワークフローを悩ませるミスアセンブリエラーから解放されたギャップフリーアセンブリを生成する。この柔軟なフレームワークは、Pacbio、Nanopore、Hi-C、遺伝地図などの様々な技術からのデータを統合して、ギャップフリーな染色体スケールのアセンブリを生成することも可能である。GALAを用いて、公開されているデータセットからPacbioとNanoporeのシーケンスデータを組み合わせてC.elegansとA.thalianaのゲノムをde novoでアセンブルした。また、ヒトゲノムの2本の染色体をギャップフリーで組み立てることで、GALAの適用性を実証した。さらに、GALAはPacbioのhigh-fidelityなロングリードに対しても有望な性能を示した。この方法は、複数のデータソースと複数の計算ツールを用いてゲノムを簡単にアセンブルすることができ、de novoゲノムアセンブル技術の適用の障壁を克服することができる。

インストール

condaを使ってpython2.7の仮想環境を作ってテストした（ホストOS; ubuntu18.04LTS）

依存

Minimap2
bwa
samtools
python2.7
canu

Github

conda create -n gala python=2.7 -y
conda activate gala
conda install -c bioconda minimap2 bwa samtools canu -y

git clone https://github.com/ganlab/gala.git
cd gala/
#必要ならパスを通す
sudo ./install

> gala -h

$ gala -h

usage: gala -h [options] <draft_names & paths> <fa/fq> <reads> <platform>

GALA Gap-free Long-reads Assembler

positional arguments:

draft_names Draft names and paths [required]

input_file input type (fq/fa) [required]

reads raw/corrected reads [required]

sequencing_platform pacbio-raw pacbio-corrected nanopore-raw nanopore-

corrected [required]

optional arguments:

-h, --help show this help message and exit

-a [ASSEMBLER [ASSEMBLER ...]]

Chr-by_Chr assembler (canu flye miniasm) [default

canu]

-b Alignment block length [default 5000]

-p Alignment identity percentage [default 70%]

-l lowest number of misassemblies indecator [default 1]

-c Shortest contig length [default 5000]

-k Mis-assembly block [default 175]

It is better to extend the misassembly block in case of

unpolished assemblies or expected mis-assemblies

in highly repetative regions (5000-10000)

-q Mapping quality [default 20]

-f Output files name [default gathering]

-t cut on a threshold passed by -u [default False]

-u threshold cut value [default 3]

-o output files path [default current directory]

-v, --version show program's version number and exit

実行方法

一括して行うモードと、１プロセスごとに進めるモードがある。一括して行うにはgalaコマンドを使う。

ドラフトアセンブリのリストファイルを指定する。リストは

draft_1=path/to/draft_fasta_file
draft_2=path/to/draft_fasta_file
draft_3=path/to/draft_fasta_file

のような形式になっている必要がある。リストに加え、ロングリードを指定する。ここではont-rawのロングリードを指定。

gala ./list fq ont_reads.fq nanopore-raw

sequencing_platform pacbio-raw | pacbio-corrected | nanopore-raw | nanopore-corrected [required]

エラーになる。ランできるようになったら追記します。パフォーマンスについてはプレプリント表１や図３で少し触れられています。

引用

GALA: gap-free chromosome-scale assembly with long reads

Mohamed Awad, Xiangchao Gan

bioRxiv, Posted May 16, 2020

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

複数のロングリードドラフトアセンブリを使って連続性の高いアセンブリを得る GALA