ISエレメントは、原核生物のゲノムの中で最も小さく、最も多く存在する mobile elementsである。ISエレメントは、ゲノムの構成や進化に重要な役割を果たしていることが示されている。宿主ゲノムにおけるISエレメントの機能をよりよく理解するためには、効果的な検出およびアノテーションツールがあることが望ましい。この必要性は、急速に増加しているゲノムおよびメタゲノムデータを考慮すると、さらに重要になる。ISエレメントの検出とアノテーションのための既存のツールは、通常、既知のISファミリーのデータベースとの配列の類似性を比較することに基づいている。そのため、遠く離れた場所にある新規のISエレメントを発見する能力は限られている。
本論文では、トランスポザーゼの触媒ドメインから組み立てられた隠れマルコフモデルのプロファイルに基づいたソフトウェアツールdigISを紹介する。digISは、手動で精査されたアノテーションを持つデータセットでテストしたところ、既知のISエレメントを検出するのに非常に良い性能を示した。digISの主な貢献は、適度な偽陽性のレベルを維持しながら、遠方にある推定上の新規ISエレメントを検出する能力にある。このカテゴリーでは、特に古細菌やバクテリアのゲノムの大規模なデータセットでテストした場合、既存のツールよりも優れている。
digISは、人手により精査されたプロファイル隠れマルコフモデルに基づく新しいアプローチを用いたソフトウェアツールであり、遠隔地にあるISエレメントや推定上の新規ISエレメントを検出することができる。digISは既知のISエレメントも見つけることができるが、主に新規のISエレメントを見つけることに興味のある科学者に利用されることを期待している。このツールは https://github.com/janka2012/digIS で公開されている。
Githubより
digISは、原核生物ゲノム中の挿入配列を検出するためのコマンドラインツールである。digISはPython3で開発されており、HMMER v3.3, BLAST, Biopythonライブラリなどの外部ツールを利用している。digISは入力として、FASTA形式のゲノム配列(コンティグ、完全にアセンブリされた原核生物ゲノム、その他のDNA配列など)を受け付ける。オプションとして、ユーザーは、与えられた入力配列に対するGenBankアノテーションファイルを提供することもできる。このアノテーションは、後に同定されたISエレメントの分類を改善するために使用される。
まず、個々のISファミリーのTpase触媒ドメインに対応する、手動でキュレーションされたpHMMのライブラリを構築した。配列の情報源としてISfinderデータベースを使用し、各pHMMについてノイズカットオフ閾値を特定した。そして、digISの検索パイプラインは以下のようにして動作する。
1、入力された核酸配列全体をアミノ酸配列(6フレーム全て)に翻訳する。
2、翻訳された配列を、手動でキュレーションされたpHMMを用いて検索する。
3、見つかったヒットは、シードと呼ばれ、ドメインビットスコアとe-valueでフィルタリングされる。一定の距離内で重なり合っているものや追従しているものはマージされる。
4、各シードを既知のISエレメントのデータベース(ISfinder)と照合し、最もヒットしたものに合わせてゲノム上の位置を拡張する。
5、拡張されたシードは、ノイズカットオフスコアと長さによってフィルタリングされる。同じISエレメントに対応する重複は削除される。
6、残った拡張シードは、配列の類似性とGenBankアノテーション(あれば)に基づいて分類され、その品質が評価される。
7、最後に、分類された出力をCSVとGFF3の形式でレポートする。
インストール
公開されているdocker imageを使ってランした。
#docker (dockerhub link)
docker pull janka2012/digis
テストラン
ここではdockerイメージからランできるラッパースクリプトを使用する。
ゲノムのfastaと、任意でゲノムのgenbankファイル(.gb)を指定する。
git clone https://github.com/janka2012/digIS.git
cd digIS/
sh digis_docker_wrapper.sh -i data/test_data/NC_002608.fasta -g data/test_data/NC_002608.gb -o outdir
出力
results/NC_002608.csv
(フォーマットの詳細はGithub参照)
実際のランでもfastaとgenbankファイル(任意)を指定する。
sh digis_docker_wrapper.sh -i ref.fasta -g ref.gbff -o outdir
引用
digIS: towards detecting distant and putative novel insertion sequence elements in prokaryotic genomes
Janka Puterová & Tomáš Martínek
BMC Bioinformatics volume 22, Article number: 258 (2021)