macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

アセンブリグラフを用いたメタゲノムコンティグのビニングを行う GraphBin2

 

 メタゲノムシークエンシングは、微生物群集の構造、多様性、生態を純粋な培養物を得ることなく研究することを可能にする。多くのメタゲノム研究では、メタゲノムシークエンシングから得られたリードは、最初に長いコンティグにアセンブリされ、これらのコンティグは、クラスタ内のコンティグが同じ種に由来すると予想されるコンティグのクラスタにビン分けされる。異なる種がゲノム中で共通の配列を共有している場合があるため、1つのコンティグが複数の種に属している可能性がある。しかし、既存のツールでは、コンティグのビン分けは非オーバーラップビン分けしかサポートしておらず、各コンティグは最大で1つのビン(種)に割り当てられている。本論文では、既存のツールで得られたビニング結果を改良し、コンティグを複数のビンに割り当てることができる GraphBin2 を紹介する。GraphBin2は、アセンブリグラフの接続性とカバレッジ情報を用いて、既存のコンティグのビニング結果を調整し、複数の種が共有するコンティグを推定する。シミュレーションデータと実データを用いた実験結果から、 GraphBin2は既存のツールのビニング結果を改善するだけでなく、コンティグを複数のビンに割り当てることも可能であることが示された。

 

GraphBin

 

インストール

付属のyamlファイルでcondaの仮想環境を作成してテストした(ubuntu18.04LTS)。

Github

git clone https://github.com/Vini2/GraphBin2.git
cd GraphBin2/
conda env create -f environment.yml
conda activate graphbin2

$ ./graphbin2 -h

¥usage: graphbin2 [-h] --assembler ASSEMBLER --graph GRAPH --contigs CONTIGS [--paths PATHS] [--abundance ABUNDANCE] --binned BINNED --output OUTPUT [--prefix PREFIX] [--depth DEPTH] [--threshold THRESHOLD] [--delimiter DELIMITER] [--nthreads NTHREADS]

 

GraphBin2 Help. GraphBin2 is a tool which refines the binning results obtained from existing tools and, more importantly, is able to assign contigs to multiple bins. GraphBin2 uses the connectivity and coverage information from assembly graphs to adjust existing binning

results on contigs and to infer contigs shared by multiple species.

 

optional arguments:

-h, --help show this help message and exit

--assembler ASSEMBLER

name of the assembler used (SPAdes, SGA or Flye)

--graph GRAPH path to the assembly graph file

--contigs CONTIGS path to the contigs file

--paths PATHS path to the contigs.paths file

--abundance ABUNDANCE

path to the abundance file

--binned BINNED path to the .csv file with the initial binning output from an existing tool

--output OUTPUT path to the output folder

--prefix PREFIX prefix for the output file

--depth DEPTH maximum depth for the breadth-first-search. [default: 5]

--threshold THRESHOLD

threshold for determining inconsistent vertices. [default: 1.5]

--delimiter DELIMITER

delimiter for input/output results. Supports a comma (,), a semicolon (;), a tab ($'\t'), a space (" ") and a pipe (|) [default: , (comma)]

 

 

実行方法

1、メタゲノムアセンブリとビニングを実行する(Github参照)。

 

2、graphbin2のラン。アセンブラ(metaspades、SGA, metaFlye)とコンティグ、グラフファイル、パスファイル、ビニングレポートファイルを指定する。

python graphbin2.py --assembler spades --contigs contigs.fasta --graph graph.gfa --paths paths_file.paths --binned binning_result.csv --output output_dir

 

引用

GraphBin2: Refined and Overlapped Binning of Metagenomic Contigs Using Assembly Graphs
 

Mallawaarachchi, Vijini G. ; Wickramarachchi, Anuradha S. ; Lin, Yu

DOI: 10.4230/LIPIcs.WABI.2020.8

20th International Workshop on Algorithms in Bioinformatics (WABI 2020)