高スループットシーケンスを使用して細菌宿主内のプラスミドの存在とダイナミクスを研究する場合、多くの場合、シーケンスをプラスミドまたは細菌起源のものとして分類する必要がある。これは、メタゲノムシーケンスの場合に特に当てはまる。メタゲノムシーケンスには、起源が不明で長さが異なる多数のシーケンスが含まれる場合がある。どちらがプラスミド由来であるかを特定するために、メタゲノムアセンブリでコンティグを分類するという課題に焦点を当てる。プラスミドシーケンスの現在の最先端の分類器は、ニューラルネットワークベースのアルゴリズムであるPlasFlow [ref.3]である。 PlasFlowは小さなシーケンスから長いシーケンスまで分類に成功しているが、短いシーケンスでは信頼性の低い結果を生成し、メモリ制限のため非常に大きなメタゲノムシーケンスデータセットでは困難になる。ここでは、使いやすいPythonパッケージとして実装される新しいプラスミド配列分類器PlasClassを紹介する。 PlasClassは、それぞれがプラスミドおよび細菌起源のリファレンスシーケンスからサンプリングされた異なる長さの配列でトレーニングされたロジスティック回帰分類器のセットで構成されている。一連のシーケンスにPlasClassを適用する場合、適切な長さ固有の分類子が各シーケンスに使用される。
シミュレートされたデータ、バクテリア単離株、廃水のプラスミド、およびヒト腸内微生物叢サンプルでPlasClassをテストした。アセンブリの大部分のコンティグである短いシーケンスの場合、PlasClassはPlasFlowよりも優れたF1スコアを達成する。また、高速であり、使用するRAMとディスクメモリが大幅に少ない。
PlasClassはhttps://github.com/Shamir-Lab/PlasClassで提供されている。
インストール
ubuntu18.04のpython2.7環境でテストした(docker使用、ホストOSはmacos10.14)。
本体 Github
git clone https://github.com/Shamir-Lab/PlasClass.git
cd PlasClass
python setup.py install
#non virtual environment
python setup.py install --user
usage: classify_fasta.py [-h] -f FASTA [-o OUTFILE] [-p NUM_PROCESSES]
classify_fasta classifies the sequences in a fasta file as plasmid origin or
not
optional arguments:
-h, --help show this help message and exit
fasta file of the sequences to be classified (default:
None)
-o OUTFILE, --outfile OUTFILE
output file prefix (default: None)
-p NUM_PROCESSES, --num_processes NUM_PROCESSES
Number of processes to use (default: 8)
実行方法
contig配列を指定する。
python classify_fasta.py -f contig.fasta -o output -p 8
出力は配列とスコアからなるテキストになります。詳細はpreprintを読んでください。
引用
PlasClass improves plasmid sequence classification
David Pellow, Itzik Mizrahi, Ron Shamir
bioRxiv preprint first posted online Oct. 7, 2019
関連