macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

cBarでプラスミド配列を区別する

 

cBarでFASTAは(論文発表当時では)大規模なトレーニングデータを用いて学習されたメタゲノムなどのデータ(FASTA)中の プラスミドゲノムを区別する方法論。5量体頻度(pentamer frequencies)を元に判定を行う。入力はFASTAは配列。

 

インストール

macOSXではビルドでエラーを吐いたのでcent OSに導入。

 

cBar公式HP (ダウンロードリンクあり)

http://csbl.bmb.uga.edu/~ffzhou/cBar/

 

上記ページからダウンロードし、解凍してビルドする。

unzip cBar.1.2.zip
cd cBar.1.2/
make

テストラン 

mkdir temp #必要
./cBar.pl Synechococcus_elongatus_PCC_7942.fna output.txt

 出力。

user$ cat output.txt 

#SeqID Length Prediction

gi|81230333|ref|NC_007595.1| 46366 Plasmid

gi|81298811|ref|NC_007604.1| 2695903 Chromosome

プラスミド1つとクロモソーム1つを持つラン藻ゲノムデータを入力として、plasmidとクロモソームの配列が予測された。

 

 

ラン

 モデルシアノバクテリア(S.6803)でテスト。

#SeqID  Length  Prediction

chr     3573470 Chromosome

plasmid_pSYSA   103307  Plasmid

plasmid_pSYSG   44343   Plasmid

plasmid_pSYSM   119895  Plasmid

plasmid_pSYSX   106004  Plasmid

PCC5.2  5214    Chromosome

pCA2.4  2378    Chromosome

pCB2.4  2345    Plasmid

 5.2 kbと2.3 kbのスモールプラスミド2つはchromosomeと予測されてしまったが、他は正しい。

 

 

 

 

 

 

 

引用

cBar: a computer program to distinguish plasmid-derived from chromosome-derived sequence fragments in metagenomics data.

Zhou F, Xu Y.

Bioinformatics. 2010 Aug 15;26(16):2051-2. doi: 10.1093/bioinformatics/btq299. Epub 2010 Jun 10.