macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

複数のロングリードドラフトアセンブリを使って連続性の高いアセンブリを得る GALA

 

 高品質のゲノムアセンブリは、遺伝学や医学研究の分野で幅広く応用されている。しかし、現在のワークフローでは、ギャップのない染色体スケールのアセンブリを実現することは非常に困難である。ここでは、preliminaryなアセンブリやキメラを含む生データからミスアセンブリを識別し、染色体スケールのリンケージグループにデータを分割する多層コンピュータグラフを用いた、chromosome-by-chromosomeなアセンブリ戦略を提案する。各リンケージグループの後続の独立したアセンブリは、通常、既存のワークフローを悩ませるミスアセンブリエラーから解放されたギャップフリーアセンブリを生成する。この柔軟なフレームワークは、Pacbio、Nanopore、Hi-C、遺伝地図などの様々な技術からのデータを統合して、ギャップフリーな染色体スケールのアセンブリを生成することも可能である。GALAを用いて、公開されているデータセットからPacbioとNanoporeのシーケンスデータを組み合わせてC.elegansとA.thalianaのゲノムをde novoでアセンブルした。また、ヒトゲノムの2本の染色体をギャップフリーで組み立てることで、GALAの適用性を実証した。さらに、GALAはPacbioのhigh-fidelityなロングリードに対しても有望な性能を示した。この方法は、複数のデータソースと複数の計算ツールを用いてゲノムを簡単にアセンブルすることができ、de novoゲノムアセンブル技術の適用の障壁を克服することができる。 

 

インストール

condaを使ってpython2.7の仮想環境を作ってテストした(ホストOS; ubuntu18.04LTS)

依存

  • Minimap2
  • bwa
  • samtools
  • python2.7
  • canu

Github

conda create -n gala python=2.7 -y
conda activate gala
conda install -c bioconda minimap2 bwa samtools canu -y

git clone https://github.com/ganlab/gala.git
cd gala/
#必要ならパスを通す
sudo ./install

> gala -h

$ gala -h

usage: gala -h  [options] <draft_names & paths> <fa/fq> <reads> <platform>

 

GALA Gap-free Long-reads Assembler

 

positional arguments:

  draft_names           Draft names and paths [required]

  input_file            input type (fq/fa) [required]

  reads                 raw/corrected reads [required]

  sequencing_platform   pacbio-raw pacbio-corrected nanopore-raw nanopore-

                        corrected [required]

 

optional arguments:

  -h, --help            show this help message and exit

  -a [ASSEMBLER [ASSEMBLER ...]]

                        Chr-by_Chr assembler (canu flye miniasm) [default

                        canu]

  -b Alignment block length [default 5000]

  -p Alignment identity percentage [default 70%]

  -l lowest number of misassemblies indecator [default 1]

  -c Shortest contig length [default 5000]

  -k Mis-assembly block [default 175]

It is better to extend the misassembly block in case of

unpolished assemblies or expected mis-assemblies

in highly repetative regions (5000-10000)

  -q Mapping quality [default 20]

  -f Output files name [default gathering]

  -t cut on a threshold passed by -u [default False]

  -u threshold cut value [default 3]

  -o output files path [default current directory]

  -v, --version         show program's version number and exit

 

 

実行方法

一括して行うモードと、1プロセスごとに進めるモードがある。一括して行うにはgalaコマンドを使う。

ドラフトアセンブリのリストファイルを指定する。リストは

draft_1=path/to/draft_fasta_file
draft_2=path/to/draft_fasta_file
draft_3=path/to/draft_fasta_file

のような形式になっている必要がある。リストに加え、ロングリードを指定する。ここではont-rawのロングリードを指定。

gala ./list fq ont_reads.fq nanopore-raw
  • sequencing_platform   pacbio-raw pacbio-correctednanopore-raw | nanopore-corrected [required]

エラーになる。ランできるようになったら追記します。パフォーマンスについてはプレプリント表1や図3で少し触れられています。

引用

GALA: gap-free chromosome-scale assembly with long reads

Mohamed Awad, Xiangchao Gan

bioRxiv, Posted May 16, 2020

 

関連