macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

ラージゲノムにも対応したReference-assisted assemblyのツール Chromosomer

2019 11/12 コマンド修正

2020 9/15 タイトル変更

 

染色体の組み立ては、あらゆる真核生物ゲノムプロジェクトの重要な部分である。組み立てられたゲノムの数は毎年増加し、それらの多くは物理的な染色体地図に固定されている[論文より ref.1]。堅牢な黒モソームのデノボアセンブリは、異なるインサートサイズを用いたメイトペアリードだけでなく、物理的および遺伝的地図も必要とする[ref.2-4]。多数の高品質の組み立てられた「リファレンスゲノム」は、代替的なアプローチ、すなわちreference-assisted chromosome assemblyを導く。このアプローチを使用する利点は、追加のシーケンシングまたはマップ構築なしで染色体を組み立てられることにある。(一部略)密接に関連する種のゲノム情報を使用してコンティグおよびscaffoldsを推定染色体にアライメントすることにより、断片の総数が数千から数百または数十に減少し、リピート、遺伝子、単一ヌクレオチドなどの異なるゲノム特徴の注釈および分析多型、コピー数の変動、および部分的重複を単純化する。

 このアプローチの欠点は、進化的な染色体の再編成によって引き起こされる組み立てエラーが起こることにある。密接に関連した種のゲノムでさえ、標的ゲノムとのシンテニーがある程度異なる可能性がある。アーチファクトの数は、一般に、標的と参照ゲノムとの間の進化距離と相関する[ref.6]が、少なくとも哺乳類では染色体再編成の速度はほとんど時計に似ていない[ref.7,8]。 BioNano Genomics [ref.9]によって開発された単一分子次世代マッピングシステム(Irys)などのツールを使用して、標的ゲノムの物理マップが開発されれば、これらのアセンブリアーチファクトは容易に修正される。

  Bambus [ref.10]、BACCardI [ref.11]、Projector2 [ref.12]、OSLay [ref.13]、ABACAS [ref.14]、MeDuSa [ref.15]、AlignGraph [ref.16]、Ragout [ref.17] ]、SyMap [ref.18]、およびRACA [ref.19]。などのツールのほとんどは、バクテリアゲノムまたは小さなゲノム用に設計されている。例えば、ABACASはSaccharomyces cerevisiae(12.1Mbp)などの小さな真核生物のゲノムにも使用できる便利なツールである。しかしながら、ABACASは、脊椎動物種に典型的な大きなゲノムに適用するほど効率的にはスケールアップされていない。

 SyMapは、真核生物ゲノムのためのreference-assistedアセンブリを容易にするように設計された。ただし重要な制限があり、 SyMapはアラインメントフェーズにMUMmer [ref.20]またはNUCmer [ref.21]を使用し、効率的に動作するために別個のSQLデータベースを必要とし、大きなゲノムを互いにアライメントさせるのに非常に時間がかかる。

 Reference-assistedアセンブリの最も有望なアプローチは、単一の参照ゲノムの代わりに複数のリファレンスゲノムを使用することである。 RACAは、予測された染色体断片(PCF)を生成するための入力として、ターゲット、リファレンスおよびアウトグループのゲノムのアライメントを使用する[ref.19](紹介)。しかしRACAは、ゲノム断片を結合するためのメイトペアライブラリーからの追加情報も必要とし、ほとんどの新規配列決定ではそのようなライブラリーを利用できない。さらに、RACAは、染色体を組み立てるための広範な計算を必要とする。

 この論文では、ゲノム染色体のReference-assistedアセンブリを自動化する、特に大きなゲノム(1ギガ以上の塩基対)に有効なオープンソースクロスプラットフォームソフトウェアChromosomerを紹介する。Chromosomerは、アライメントする断片(コンティグまたは足場)とリファレンスゲノムとの間のアラインメントのみに基づいて染色体をドラフトし、それにより、インデックス種アセンブリの分析および注釈機会を改善する。クロモソームは、染色体の組み立てに洗練されたモデルやアルゴリズムを使用しないが、その結果は最先端のアセンブリと同等であり、さらなるゲノム解析に使用することができる。

 

f:id:kazumaxneo:20180424223107j:plain

論文より転載。ワークフロー。

 

インストール

Github

#依存
conda install -c bioconda -y EXONERATE

#bioconda (link)
conda install -c bioconda -y chromosomer

chromosomer -h

$ chromosomer -h

usage: chromosomer [-h] [-v] [-d]

                   {assemble,fragmentmap,fragmentmapstat,fragmentmapbed,transfer,fastalength,simulator}

                   ...

 

Reference-assisted chromosome assembly tool.

 

positional arguments:

  {assemble,fragmentmap,fragmentmapstat,fragmentmapbed,transfer,fastalength,simulator}

    assemble            get sequences of assembled chromosomes

    fragmentmap         construct a fragment map from alignments

    fragmentmapstat     show fragment map statistics

    fragmentmapbed      convert a fragment map to the BED format

    transfer            transfer annotated features from fragments to

                        chromosomes

    fastalength         get lengths of sequences from a FASTA file

    simulator           fragment simulator for testing purposes

 

optional arguments:

  -h, --help            show this help message and exit

  -v, --version         show program's version number and exit

  -d, --debug           show debugging messages

> chromosomer fragmentmap -h

$ chromosomer fragmentmap -h

usage: chromosomer fragmentmap [-h] [-r RATIO_THRESHOLD] [-s]

                               alignment_file gap_size fragment_lengths

                               output_map

 

Construct a fragment map from fragment alignments to reference chromosomes.

 

positional arguments:

  alignment_file        a BLAST tabular file of fragment alignments to

                        reference chromosomes

  gap_size              a size of a gap inserted between mapped fragments

  fragment_lengths      a file containing lengths of fragment sequences; it

                        can be obtained using the 'chromosomer fastalength'

                        tool

  output_map            an output fragment map file name

 

optional arguments:

  -h, --help            show this help message and exit

  -r RATIO_THRESHOLD, --ratio_threshold RATIO_THRESHOLD

                        the least ratio of two greatest fragment alignment

                        scores to determine the fragment placed to a reference

                        genome (default: 1.2)

  -s, --shrink_gaps     shrink large interfragment gaps to the specified size

                        (default: False)

chromosomer assemble -h

$ chromosomer assemble -h

usage: chromosomer assemble [-h] [-s] map fragment_fasta output_fasta

 

Get the FASTA file of assembled chromosomes.

 

positional arguments:

  map                   a fragment map file

  fragment_fasta        a FASTA file of fragment sequences to be assembled

  output_fasta          the output FASTA file of the assembled chromosome

                        sequences

 

optional arguments:

  -h, --help            show this help message and exit

  -s, --save_soft_mask  keep soft masking from the original fragment sequences

                        (default: False)

 

 

ラン

 blast+を使い、contigをリファレンスとするゲノムに対してアライメントする。

#データベース作成 
makeblastdb -in reference.fa -dbtype nucl

#blastn実行
blastn -db reference.fa -query contig.fa -outfmt 6 -evalue 1e-10 > blastn_result.txt

 

fastalengthツールを使いcontigの長さファイルを作成。(注意;コメント参照)

fastalength -f contig.fa > length_file

 

mapファイルを作成。

chromosomer fragmentmap blastn_result.txt 500 length_file output_map

 

(optional)mapファイルのstatistics。

chromosomer fragmentmapstat output_map statistics

 

(optional)bedファイル作成。IGVなどに読み込んで確認できる。

chromosomer fragmentmapbed output_map output.bed

 

アセンブルfastaを出力。

chromosomer assemble output_map contig.fa output.fa

 

使用例

https://academic.oup.com/bib/advance-article/doi/10.1093/bib/bbaa399/6082823?login=true

 

引用

Chromosomer: a reference-based genome arrangement tool for producing draft chromosome sequences.

Tamazian G, Dobrynin P, Krasheninnikova K, Komissarov A, Koepfli KP, O'Brien SJ.

Gigascience. 2016 Aug 22;5(1):38.