macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

複数リファレンスゲノムを使用したコンティグのスキャホールディングツール Multi-CSAR

 

  ショートリードからゲノム配列をアセンブリするプロセスの重要なステップの一つに、ドラフトゲノム中のコンティグを順序付け、方向付けを行うスキャフォールディングがある。現在、単一のリファレンスゲノムをベースにしたいくつかのスキャフォールディングツールが開発されている。しかし、ターゲットゲノムとリファレンスゲノムの間の進化的な関係が遠い場合や、それらの間でリアレンジメントが発生する場合、スキャフォルダーがターゲットのドラフトゲノムの正しいスキャフォールドを生成するためには、単一のリファレンスゲノムだけでは十分ではない場合がある。このことは、複数のリファレンスゲノムを用いてターゲットゲノムのコンティグを順序付けして方向付けることができるスキャフォールディングツールの開発の必要性を動機付けている。

 本研究では、複数のリファレンスゲノムを用いて、ターゲットゲノムのコンティグを整列・配向させることができるスキャフォールディングツールを開発した。本研究では、ヒューリスティックな手法を用いて、複数のリファレンスゲノムを用いてドラフトゲノムを正確にスキャフォールドすることができる新しいスキャフォールドツール「Multi-CSAR」を開発した。実際のデータセットを用いた実験結果から、Multi-CSARは、感度、精度、Fスコア、ゲノムカバレッジ、NGA50、スキャフォールド数、実行時間などの多くの平均的な指標において、他の2つの複数リファレンスゲノムガイドスキャフォールディングツールであるRagoutとMeDuSaを凌駕することが示された。スタンドアロンのプログラムは https://github.com/ablab-nthu/Multi-CSAR からダウンロードできる。

 

インストール

ubuntu18.04でテストした。

依存

GIthub

#apt update && apt install php
conda install -c bioconda -hy mummer

#clone repository
git clone https://github.com/ablab-nthu/Multi-CSAR.git
cd Multi-CSAR/
php setup.php

./multi-csar.php

$ ./multi-csar.php 

Usage: multi-csar.php [option] -t <target_contigs_file> -r <references_directory> --nuc/--pro

Option:

-t <string>   Input file that contains the target draft genome in the multi-FASTA format

 

-r <string>   Input directory that contains only reference genomes in the multi-FASTA format

 

--nuc         Use NUCmer to identify markers between the target genome and each reference genome

 

--pro         Use PROmer to identify markers between the target genome and each reference genome

 

-w            Use the sequence identity-based weighting scheme

 

-o <string>   Output directory that contains all the output files (the default is ./multi-csar_out)

 

--CSAR        Keep the files generated by CSAR

 

-h            Show help message

 

 

テストラン

4つのリファレンスゲノムをガイドにしてscaffoldingを行う。

multi-csar.php -t example/Burkholderia_target.fna -r example/reference_genomes/ --nuc -o example_out

 

 

 

# SHOW CONTIG

perfect matching with 2446 nodes and 2989012 edges

    starting init...done [0.218 secs]. 0 trees

    .

done [0.218 secs]. 0 grows, 0 expands, 0 shrinks

    expands: [0.000 secs], shrinks: [0.000 secs], dual updates: [0.000 secs]

cost = -3544.0

+++ Blossom Recover +++

--- Blossom Recover ---

Multi-CSAR is DONE!

出力

ls -lh example_out/

# ls -lh example_out/

total 7.4M

-rw-r--r-- 1 root root 8.7K Jun 10 04:12 multi-csar.nuc.out

-rw-r--r-- 1 root root 6.9M Jun 10 04:12 multi-csar.nuc.out.fna

 

引用
Multi-CSAR: A Multiple Reference-Based Contig Scaffolder Using Algebraic Rearrangements

Kun-Tze Chen, Hsin-Ting Shen, Chin Lung Lu

MC Syst Biol. 2018 Dec 31;12(Suppl 9):139

 

関連