16SリボソームRNA遺伝子は、生物学において最も研究されている遺伝子の一つである。この16SリボソームRNAの重要性は、細菌や古細菌の系統学や分類学上の解明に広く応用されていることによる。実際、16SリボソームRNAは、ほとんどすべてのバクテリアや古細菌に存在し、多くの有用な特性に加え、低い変異率が特徴にある。16SリボソームRNAは、9つの超可変領域から構成されており、ハイスループットシーケンシング技術を用いた同定や、メタバーコーディング研究などのコミュニティ研究では、これらの領域が一般的にターゲットとなる。残念ながら、超可変領域は、すべての細菌の分類学上の分解能が同じではない。このため、特定の研究で対象とする最適な超可変領域を決定するために、事前にインシリコ解析を行う必要がある。しかし、著者らの知る限り、16S rRNAシーケンスデータから超可変領域を抽出するプライマーベースの自動化されたオープンソースツールは存在しない。ここでは、埋め込まれたプライマーまたはユーザーに与えられたプライマーに基づいて、目的の超可変領域を効率的に抽出するHyperExを紹介する。HyperExは、正確なペアワイズシーケンスアラインメントのためのMyersアルゴリズムを実装している。HyperExは、オペレーティングシステムに依存しないRustコマンドラインツールとして、MITライセンスの下、https://github.com/Ebedthan/hyperex および https://crates.io から自由に入手することができる。
インストール
cargoでインストールできなかったので、リリースよりプリビルドされたバイナリをダウンロードしてテストした。
cargo install hyperex
#From source
git clone https://github.com/Ebedthan/hyperex.git
cd hyperex
cargo build --release
cargo test
> ./hyperex -h
実行方法
16SrRNAの配列を指定する。gzip圧縮ファイルにも対応している。
hyperex file.fa
出力
hyperex_out.gff
hyperex_out.fa
logも出力される。
可変領域を指定する。
hyperex --region v3v4 file.fa.xz
引用
HyperEx: A Tool to Extract Hypervariable Regions from 16S rRNA Sequencing Data
Anicet Ebou, Dominique Koua, Adolphe Zeze
bioRxiv, Posted September 05, 2021