cBarは(論文発表当時では)大規模なトレーニングデータを用いて学習されたメタゲノムなどのデータ(FASTA)中の プラスミドゲノムを区別する方法論。5量体頻度(pentamer frequencies)を元に判定を行う。入力はFASTAは配列。
インストール
macOSXではビルドでエラーを吐いたのでcent OSに導入。
cBar公式HP (ダウンロードリンクあり)
http://csbl.bmb.uga.edu/~ffzhou/cBar/
上記ページからダウンロードし、解凍してビルドする。
unzip cBar.1.2.zip
cd cBar.1.2/
make
テストラン
mkdir temp #必要
./cBar.pl Synechococcus_elongatus_PCC_7942.fna output.txt
出力。
user$ cat output.txt
#SeqID Length Prediction
gi|81230333|ref|NC_007595.1| 46366 Plasmid
gi|81298811|ref|NC_007604.1| 2695903 Chromosome
プラスミド1つとクロモソーム1つを持つラン藻ゲノムデータを入力として、plasmidとクロモソームの配列が予測された。
ラン
モデルシアノバクテリアでテスト。
#SeqID Length Prediction
chr 3573470 Chromosome
plasmid_pSYSA 103307 Plasmid
plasmid_pSYSG 44343 Plasmid
plasmid_pSYSM 119895 Plasmid
plasmid_pSYSX 106004 Plasmid
PCC5.2 5214 Chromosome
pCA2.4 2378 Chromosome
pCB2.4 2345 Plasmid
5.2 kbと2.3 kbのスモールプラスミド2つはchromosomeと予測されてしまったが、他は正しい。
引用
cBar: a computer program to distinguish plasmid-derived from chromosome-derived sequence fragments in metagenomics data.
Zhou F, Xu Y.
Bioinformatics. 2010 Aug 15;26(16):2051-2. doi: 10.1093/bioinformatics/btq299. Epub 2010 Jun 10.