高品質のゲノムアセンブリは、遺伝学や医学研究の分野で幅広く応用されている。しかし、現在のワークフローでは、ギャップのない染色体スケールのアセンブリを実現することは非常に困難である。ここでは、preliminaryなアセンブリやキメラを含む生データからミスアセンブリを識別し、染色体スケールのリンケージグループにデータを分割する多層コンピュータグラフを用いた、chromosome-by-chromosomeなアセンブリ戦略を提案する。各リンケージグループの後続の独立したアセンブリは、通常、既存のワークフローを悩ませるミスアセンブリエラーから解放されたギャップフリーアセンブリを生成する。この柔軟なフレームワークは、Pacbio、Nanopore、Hi-C、遺伝地図などの様々な技術からのデータを統合して、ギャップフリーな染色体スケールのアセンブリを生成することも可能である。GALAを用いて、公開されているデータセットからPacbioとNanoporeのシーケンスデータを組み合わせてC.elegansとA.thalianaのゲノムをde novoでアセンブルした。また、ヒトゲノムの2本の染色体をギャップフリーで組み立てることで、GALAの適用性を実証した。さらに、GALAはPacbioのhigh-fidelityなロングリードに対しても有望な性能を示した。この方法は、複数のデータソースと複数の計算ツールを用いてゲノムを簡単にアセンブルすることができ、de novoゲノムアセンブル技術の適用の障壁を克服することができる。
インストール
condaを使ってpython2.7の仮想環境を作ってテストした(ホストOS; ubuntu18.04LTS)
依存
- Minimap2
- bwa
- samtools
- python2.7
- canu
conda create -n gala python=2.7 -y
conda activate gala
conda install -c bioconda minimap2 bwa samtools canu -y
git clone https://github.com/ganlab/gala.git
cd gala/
#必要ならパスを通す
sudo ./install
> gala -h
$ gala -h
usage: gala -h [options] <draft_names & paths> <fa/fq> <reads> <platform>
GALA Gap-free Long-reads Assembler
positional arguments:
draft_names Draft names and paths [required]
input_file input type (fq/fa) [required]
reads raw/corrected reads [required]
sequencing_platform pacbio-raw pacbio-corrected nanopore-raw nanopore-
corrected [required]
optional arguments:
-h, --help show this help message and exit
-a [ASSEMBLER [ASSEMBLER ...]]
Chr-by_Chr assembler (canu flye miniasm) [default
canu]
-b Alignment block length [default 5000]
-p Alignment identity percentage [default 70%]
-l lowest number of misassemblies indecator [default 1]
-c Shortest contig length [default 5000]
-k Mis-assembly block [default 175]
It is better to extend the misassembly block in case of
unpolished assemblies or expected mis-assemblies
in highly repetative regions (5000-10000)
-q Mapping quality [default 20]
-f Output files name [default gathering]
-t cut on a threshold passed by -u [default False]
-u threshold cut value [default 3]
-o output files path [default current directory]
-v, --version show program's version number and exit
実行方法
一括して行うモードと、1プロセスごとに進めるモードがある。一括して行うにはgalaコマンドを使う。
ドラフトアセンブリのリストファイルを指定する。リストは
draft_1=path/to/draft_fasta_file
draft_2=path/to/draft_fasta_file
draft_3=path/to/draft_fasta_file
のような形式になっている必要がある。リストに加え、ロングリードを指定する。ここではont-rawのロングリードを指定。
gala ./list fq ont_reads.fq nanopore-raw
- sequencing_platform pacbio-raw | pacbio-corrected | nanopore-raw | nanopore-corrected [required]
エラーになる。ランできるようになったら追記します。パフォーマンスについてはプレプリント表1や図3で少し触れられています。
引用
GALA: gap-free chromosome-scale assembly with long reads
Mohamed Awad, Xiangchao Gan
bioRxiv, Posted May 16, 2020
関連