2019 11/12 コマンド修正
2020 9/15 タイトル変更
染色体の組み立ては、あらゆる真核生物ゲノムプロジェクトの重要な部分である。組み立てられたゲノムの数は毎年増加し、それらの多くは物理的な染色体地図に固定されている[論文より ref.1]。堅牢な黒モソームのデノボアセンブリは、異なるインサートサイズを用いたメイトペアリードだけでなく、物理的および遺伝的地図も必要とする[ref.2-4]。多数の高品質の組み立てられた「リファレンスゲノム」は、代替的なアプローチ、すなわちreference-assisted chromosome assemblyを導く。このアプローチを使用する利点は、追加のシーケンシングまたはマップ構築なしで染色体を組み立てられることにある。(一部略)密接に関連する種のゲノム情報を使用してコンティグおよびscaffoldsを推定染色体にアライメントすることにより、断片の総数が数千から数百または数十に減少し、リピート、遺伝子、単一ヌクレオチドなどの異なるゲノム特徴の注釈および分析多型、コピー数の変動、および部分的重複を単純化する。
このアプローチの欠点は、進化的な染色体の再編成によって引き起こされる組み立てエラーが起こることにある。密接に関連した種のゲノムでさえ、標的ゲノムとのシンテニーがある程度異なる可能性がある。アーチファクトの数は、一般に、標的と参照ゲノムとの間の進化距離と相関する[ref.6]が、少なくとも哺乳類では染色体再編成の速度はほとんど時計に似ていない[ref.7,8]。 BioNano Genomics [ref.9]によって開発された単一分子次世代マッピングシステム(Irys)などのツールを使用して、標的ゲノムの物理マップが開発されれば、これらのアセンブリアーチファクトは容易に修正される。
Bambus [ref.10]、BACCardI [ref.11]、Projector2 [ref.12]、OSLay [ref.13]、ABACAS [ref.14]、MeDuSa [ref.15]、AlignGraph [ref.16]、Ragout [ref.17] ]、SyMap [ref.18]、およびRACA [ref.19]。などのツールのほとんどは、バクテリアゲノムまたは小さなゲノム用に設計されている。例えば、ABACASはSaccharomyces cerevisiae(12.1Mbp)などの小さな真核生物のゲノムにも使用できる便利なツールである。しかしながら、ABACASは、脊椎動物種に典型的な大きなゲノムに適用するほど効率的にはスケールアップされていない。
SyMapは、真核生物ゲノムのためのreference-assistedアセンブリを容易にするように設計された。ただし重要な制限があり、 SyMapはアラインメントフェーズにMUMmer [ref.20]またはNUCmer [ref.21]を使用し、効率的に動作するために別個のSQLデータベースを必要とし、大きなゲノムを互いにアライメントさせるのに非常に時間がかかる。
Reference-assistedアセンブリの最も有望なアプローチは、単一の参照ゲノムの代わりに複数のリファレンスゲノムを使用することである。 RACAは、予測された染色体断片(PCF)を生成するための入力として、ターゲット、リファレンスおよびアウトグループのゲノムのアライメントを使用する[ref.19](紹介)。しかしRACAは、ゲノム断片を結合するためのメイトペアライブラリーからの追加情報も必要とし、ほとんどの新規配列決定ではそのようなライブラリーを利用できない。さらに、RACAは、染色体を組み立てるための広範な計算を必要とする。
この論文では、ゲノム染色体のReference-assistedアセンブリを自動化する、特に大きなゲノム(1ギガ以上の塩基対)に有効なオープンソースのクロスプラットフォームソフトウェアChromosomerを紹介する。Chromosomerは、アライメントする断片(コンティグまたは足場)とリファレンスゲノムとの間のアラインメントのみに基づいて染色体をドラフトし、それにより、インデックス種アセンブリの分析および注釈機会を改善する。クロモソームは、染色体の組み立てに洗練されたモデルやアルゴリズムを使用しないが、その結果は最先端のアセンブリと同等であり、さらなるゲノム解析に使用することができる。
論文より転載。ワークフロー。
インストール
#依存
conda install -c bioconda -y EXONERATE
#bioconda (link)
conda install -c bioconda -y chromosomer
> chromosomer -h
$ chromosomer -h
usage: chromosomer [-h] [-v] [-d]
{assemble,fragmentmap,fragmentmapstat,fragmentmapbed,transfer,fastalength,simulator}
...
Reference-assisted chromosome assembly tool.
positional arguments:
{assemble,fragmentmap,fragmentmapstat,fragmentmapbed,transfer,fastalength,simulator}
assemble get sequences of assembled chromosomes
fragmentmap construct a fragment map from alignments
fragmentmapstat show fragment map statistics
fragmentmapbed convert a fragment map to the BED format
transfer transfer annotated features from fragments to
chromosomes
fastalength get lengths of sequences from a FASTA file
simulator fragment simulator for testing purposes
optional arguments:
-h, --help show this help message and exit
-v, --version show program's version number and exit
-d, --debug show debugging messages
> chromosomer fragmentmap -h
$ chromosomer fragmentmap -h
usage: chromosomer fragmentmap [-h] [-r RATIO_THRESHOLD] [-s]
alignment_file gap_size fragment_lengths
output_map
Construct a fragment map from fragment alignments to reference chromosomes.
positional arguments:
alignment_file a BLAST tabular file of fragment alignments to
reference chromosomes
gap_size a size of a gap inserted between mapped fragments
fragment_lengths a file containing lengths of fragment sequences; it
can be obtained using the 'chromosomer fastalength'
tool
output_map an output fragment map file name
optional arguments:
-h, --help show this help message and exit
-r RATIO_THRESHOLD, --ratio_threshold RATIO_THRESHOLD
the least ratio of two greatest fragment alignment
scores to determine the fragment placed to a reference
genome (default: 1.2)
-s, --shrink_gaps shrink large interfragment gaps to the specified size
(default: False)
> chromosomer assemble -h
$ chromosomer assemble -h
usage: chromosomer assemble [-h] [-s] map fragment_fasta output_fasta
Get the FASTA file of assembled chromosomes.
positional arguments:
map a fragment map file
fragment_fasta a FASTA file of fragment sequences to be assembled
output_fasta the output FASTA file of the assembled chromosome
sequences
optional arguments:
-h, --help show this help message and exit
-s, --save_soft_mask keep soft masking from the original fragment sequences
(default: False)
ラン
blast+を使い、contigをリファレンスとするゲノムに対してアライメントする。
#データベース作成
makeblastdb -in reference.fa -dbtype nucl
#blastn実行
blastn -db reference.fa -query contig.fa -outfmt 6 -evalue 1e-10 > blastn_result.txt
fastalengthツールを使いcontigの長さファイルを作成。(注意;コメント参照)
fastalength -f contig.fa > length_file
mapファイルを作成。
chromosomer fragmentmap blastn_result.txt 500 length_file output_map
(optional)mapファイルのstatistics。
chromosomer fragmentmapstat output_map statistics
(optional)bedファイル作成。IGVなどに読み込んで確認できる。
chromosomer fragmentmapbed output_map output.bed
chromosomer assemble output_map contig.fa output.fa
使用例
https://academic.oup.com/bib/advance-article/doi/10.1093/bib/bbaa399/6082823?login=true
引用
Chromosomer: a reference-based genome arrangement tool for producing draft chromosome sequences.
Tamazian G, Dobrynin P, Krasheninnikova K, Komissarov A, Koepfli KP, O'Brien SJ.
Gigascience. 2016 Aug 22;5(1):38.