16S rRNA遺伝子から種を絞り込む unassigner - macでインフォマティクス

　16S rRNA遺伝子はすべての細菌に存在し、その遺伝子配列は高度に保存されている。細菌の16S rRNA遺伝子の増幅と配列決定は、マイクロバイオーム研究における細菌群集の調査に用いられる一般的な方法である。しかし、ハイスループットな装置では、遺伝子全体をシークエンシングすることはできない。そのため、遺伝子の短い領域を選択して増幅・シークエンシングを行う。結果として得られる16S遺伝子の一部にまたがる配列は、標本内に存在する細菌の種類を識別するために使用することができる。例えば、ある配列は、配列の類似性に基づいて、ストレプトコッカス属に割り当てられるかもしれない。このような分類学的割り当てを行うための多くのプログラムが利用可能である。

　一般的に、16S rRNA遺伝子は細菌の種の同定には適していないと考えられている。同意するがキャッチがある：遺伝子配列は、多くの細菌種への割り当てを除外するのに適している。このソフトウェアは、16S rRNA遺伝子の部分的な配列と矛盾するすべての種の指定を除外するように設計されている。決定的に除外されない種については、配列がその種と矛盾している確率を割り当てる。このソフトウェアは最適なアサインを決定するというよりも、種を除外することを目的としているため、これをunassignerと呼ぶ。

インストール

依存

vsearch

#vsearchはcondaで導入できる。
conda install -c biocona -y vsearch

本体　Github

pip install unassigner

> unassign -h

$ unassign -h

usage: unassign [-h] [--output_dir OUTPUT_DIR]

[--type_strain_fasta TYPE_STRAIN_FASTA] [--num_cpus NUM_CPUS]

[--verbose]

query_fasta

positional arguments:

query_fasta Query sequences FASTA file

optional arguments:

-h, --help show this help message and exit

--output_dir OUTPUT_DIR

Output directory (default: basename of query sequences

FASTA file, plus '_unassigned')

--type_strain_fasta TYPE_STRAIN_FASTA

Type strain sequences FASTA file (default:

unassigner_species.fasta). If the default file is not

found, sequences are downloaded and re-formatted

automatically.

--num_cpus NUM_CPUS Number of CPUs to use during sequence aligment

(default: use all the CPUs)

--verbose Activate verbose mode.

実行方法

FASTA配列を指定する。実行時はネットに繋がっている必要がある。

unassign input.fasta

出力ディレクトリ

f:id:kazumaxneo:20201001234545p:plain

algorithm_output.tsv（E.coli 16S rRNAを使用）

f:id:kazumaxneo:20201001234618p:plain

手元にゲノムしかない場合、Barrnap（紹介）で16S rRNAを取り出して指定すればよい。

引用

Github

https://github.com/kylebittinger/unassigner