macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

ゲノムアセンブリと遺伝地図を統合するツール Chromonomer

 

 新しいリファレンスゲノムの配列決定とコンピュータによるアセンブリのペースは加速している。しかし、DNAシーケンシング技術やアセンブルソフトウェアツールは進化し続けているが、反復配列などのゲノムの生物学的特徴や、シーケンシングライブラリの調製に伴う分子アーティファクトは、断片的なアセンブルやキメラ状のアセンブルを引き起こす可能性がある。このような欠陥を放置しておくと、ゲノムの構造や機能の理解が進まないばかりか、最悪の場合、研究を大きく誤らせることにもなりかねない。幸いなことに、遺伝地図(特にRADseqから得られるマーカー密度の高い地図)や、近縁種から得られる保存されたオルソログ遺伝子の順序など、追加の独立した情報を統合することで、リンクされていない無秩序な断片をつなぎ合わせたり、間違って結合されたリファレンスゲノムを再構築したりすることができる。これらのプロセスを自動化するためのツールセットを紹介する。このツールは、アセンブリや遺伝地図へのあらゆる変更を追跡し、ウェブベースのグラフィカルな視覚化を用いてユーザーがこれらの変更を精査できるようになっている。Chromonomerは、ユーザーが定義したリファレンスゲノム、遺伝子マーカーのマップ、およびオプションとして保存されたシンテニー情報を用いて、染色体モデルの改良されたリファレンスゲノム、すなわち「chromonome」を構築する。Chromonomerの性能を、特性や品質レベルが異なるゲノムアセンブリや遺伝地図で実証する。

 

manual

http://catchenlab.life.illinois.edu/chromonomer/manual/#intro

マニュアルより

Chromonomerは、ゲノムアセンブリと遺伝地図を統合するために設計されたプログラムです。Chromonomerは、ローカルアセンブリの順序と比較して、遺伝地図上で順序が狂っているマーカーを識別して削除したり、遺伝地図に従って正しく組み立てられていないscaffoldsを識別して、そのscaffoldsを分割したりすることに努力します。

 

インストール

HPからダウンロードしてビルドする。

http://catchenlab.life.illinois.edu/chromonomer/

f:id:kazumaxneo:20210725002113p:plain

 

cd chromonomer_x.xx
./configure --prefix=/usr/local/bin
make -j
sudo make install

> ./chromonomer

$ ./chromonomer 

You must specify a path to the genetic map linkage group definition file.

chromonomer 1.13

chromonomer --map map_path --alns bam_path --agp agp_path --out_path out_path [--verbose] [--depth path] [--gtf path --orth_gtf path --orthologs path] [-h]

--map <path>: TSV file containing the genetic map linkage group definitions.

--alns <path>: SAM or BAM formatted alignments linking map markers to genome contigs.

--agp <path>: AGP formatted file defining scaffold layout including any assembly gaps.

--fasta <path>: optional, supply a scaffold-based FASTA that will be translated according to the integrated assembly.

 

Virtual Breakpoint Options:

--depth <path>: supply a Samtools-formatted, TSV depth-of-coverage file for use in inferring scaffold breakpoints.

--depth_stdevs <num>: number of standard deviations from the mean to call a coverage window a breakpoint (default 5 stdevs).

--depth_win_size <num>: size of sliding window to use to call mean depth of coverage (default 10Kb).

 

Ordering by conserved synteny options:

--gtf <path>: supply a GTF file describing the location of genes in the scaffold-level assembly.

--gff <path>: supply a GFF file describing the location of genes in the scaffold-level assembly (supply either GTF or GFF, not both).

--orth_gtf <path>: supply a GTF file describing the location of orthologous genes in a related assembly.

--orth_gff <path>: supply a GFF file describing the location of orthologous genes in a related assembly (supply either GTF or GFF, not both).

--orthologs <path>: supply a two-column, TSV file describing the orthologous relationships between pairs of genes contained in the two GTF files.

 

Genome Correction Options:

--rescaffold: Re-scaffold contiguous sequence based on the genetic map (will break contigs).

 

Output Options:

--out_path: path to write chromonomer output.

--verbose: turn on detailed console output for each scaffold.

--scaffold_prefix <string>: text string to use as a common naming prefix when creating new scaffolds (default 'CHRR').

--description <string>: supply a description of this chromonomer execution that will be written into the output log.

--join_gap_size <num>: number of Ns to insert in between scaffold joins (default: 100).

 

Operational Options:

--min_markers <num>: minimum number of markers required to anchor a scaffold on a particular

map node. Will not remove scaffolds only present on one node (default 2).

--allpaths_agp: The AllPaths-LG assembler produces a non-standard AGP file. This flag will change

the AGP parser to accommodate it.

--disable_splitting: do not split scaffolds. When markers indicate a conflict in where to place a scffold, do

not split the scaffold, instead place it in the integration where the majority of markers are.

 

Filtering Options:

--scaffold_wl <path>: only process scaffolds in this file.

 

HTML/PHP Options:

--data_version <string>: used to create versioned PHP files so multiple runs can be

executed and compared in the web interface.

--html_prefix <string>: any text that should be prepended onto links in the PHP output

to accommodate where they are located in the web server document root.

h,--help: display this help message.

 

 

ApacheウェブサーバでChromonomerウェブインタフェースを有効にするため、以下の内容のconfigファイル;chromonomer.confを作成。

<Directory "/usr/local/share/chromonomer/php">
Order deny,allow
Deny from all
Allow from all
Require all granted
</Directory>

Alias /chromonomer "/usr/local/share/chromonomer/php"

 

このconfigファイルを/etc/apache2/conf-available/に置く(apacheが入ってないなら"sudo apt install apache2")。さらにapache2/conf-enabled/にシンボリックリンクを張ってapacheを再起動。

sudo cp chromonomer.conf /etc/apache2/conf-available/
sudo ln -s /etc/apache2/conf-available/chromonomer.conf /etc/apache2/conf-enabled/
sudo apachectl restart

 

 

実行手順

http://catchenlab.life.illinois.edu/chromonomer/manual/#exec

1、新しく作成したリファレンスゲノムに対してマーカーをアラインメントする。

アラインメントを行うには、各マーカーの配列を含むFASTAファイルを用意する。各マーカーのIDは、遺伝地図を記述するために用意したマーカーのIDと一致していなければならない。Stacks(HP)を使用してマーカーを生成した場合、UNIXコマンドを使用してStacksカタログから各マーカーのコンセンサス配列をエクスポートできる。マーカー遺伝子のFASTAファイルが用意できたら、BWAなどのアライナーを使い、ゲノムにマッピングしてBAMファイルを作る。

 

2、遺伝地図を記述したタブ区切りのリスト、つまり地図中のマーカーとその連鎖グループおよびcentiMorganの位置を記したファイルが必要になる。Chromonomerは、Stacks( http://catchenlab.life.illinois.edu/stacks )を使用してRADデータから構築された遺伝地図を扱うように設計されているが、マーカーがゲノムにアラインメントされている遺伝地図であれば、どのようなものでも動作する。

 

3、Chromonomerの出力を格納するディレクトリを作成する。例えば、20150603。Webインターフェイスの下にも同じ名前のディレクトリを作成する。

 

4、Chromonomerを実行し、適切な入出力パスと--data_versionフラグで作成したディレクトリを指定する。例えば以下のようになる。

chromonomer -p ~/research/20150603_linkage_map.tsv \
    -o ~/research/20150603/ -s ~/research/markers.sam \
    -a ~/research/final.assembly.agp --data_version 20150603

 

引用

Chromonomer: A Tool Set for Repairing and Enhancing Assembled Genomes Through Integration of Genetic Maps and Conserved Synteny
Julian Catchen, Angel Amores, Susan Bassham

G3 (Bethesda). 2020 Nov 5;10(11):4115-4128

 

Chromonomer: a tool set for repairing and enhancing assembled genomes through integration of genetic maps and conserved synteny
Julian Catchen, Angel Amores, Susan Bassham

bioRxiv, Posted February 05, 2020

 

関連