macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

ゲノム中のISエレメントを探す ISEScan

 

 ISEScanは、ゲノム中のIS(Insertion Sequence)エレメントを同定するためのPythonパイプラインである。完全なISエレメントを報告するか、完全なISエレメントと部分的なISエレメントの両方を報告するかのオプションがある。メテゲノムアセンブリに含まれるISエレメントの同定に使用する場合は、完全なISエレメントと部分的なISエレメントの両方を報告してみるのも良いかもしれない。ISEScanはデフォルトで完全なISエレメントと部分的なISエレメントの両方をレポートする。

 ISEScanはPython3で開発されている。1) ゲノム(またはメタゲノム)をfasta形式でスキャンし、2) ゲノムをプロテオームに予測/翻訳(FragGeneScanを使用)し、3) トランスポザーゼのあらかじめ構築されたpHMM(プロファイル隠れマルコフモデル)をプロテオームと照らし合わせて検索する(ISEScanに同梱されている2つのファイル、cluster.faa.hmmとcluster.single.faa)。 4) 次に、文献やデータベースで報告されている既知のISエレメントに共通する特徴に基づいて、同定されたトランスポザーゼ遺伝子を完全なIS(Insertion Sequence)エレメントに拡張し、5) 最後に、同定されたISエレメントをいくつかの結果ファイル(例えば、ISエレメントのリストを含むファイル、fasta形式のISエレメント配列を含むファイル、GFF3形式のアノテーションファイル)で報告する。

 

インストール

ubuntu18.04LTS でテストした。

Github

#conda、ここでは高速なmambaを使う (anaconda)
mamba install -c bioconda isescan -y

isescan.py -h

$ isescan.py -h

usage: isescan [-h] [--version] [--removeShortIS] [--no-FragGeneScan]

[--nthread NTHREAD] seqfile path2proteome path2hmm

 

ISEScan is a python pipeline to identify Insertion Sequence elements

(both complete and incomplete IS elements) in genom. A typical

invocation would be:

python3 isescan.py seqfile proteome hmm

 

- If you want isescan to report only complete IS elements, you need to

set command line option --removeShortIS.

 

positional arguments:

  seqfile            sequence file in fasta format

  path2proteome      directory where proteome (each line corresponds

to a protein sequence database translated from a genome) files will be

placed

  path2hmm           directory where the results of hmmsearch will be placed

 

optional arguments:

  -h, --help         show this help message and exit

  --version          show program's version number and exit

  --removeShortIS    remove incomplete (partial) IS elements which

include IS element with length < 400 or single copy IS element without

perfect TIR.

  --no-FragGeneScan  use the annotated protein sequences in NCBI

GenBank file (.gbk which must be in the same folder with genome

sequence file), instead of the protein sequences predicted/translated

by FragGeneScan. (Experimental feature!)

  --nthread NTHREAD  number of CPU cores used for FragGeneScan and

hmmer. By default one will be used.

 

 

実行方法

 ゲノムのfastaファイルを指定する。

isescan.py --nthread 12 input.fna proteome hmm
  • --nthread   number of CPU cores used for FragGeneScan and hmmer. By default one will be used. 

出力

f:id:kazumaxneo:20210222163410p:plain

  • xxx.fna.sum: 各ISファミリーのISコピーの要約
  • xxx.fna.raw: ISコピーの詳細、1行に1つのコピー
  • xxx.fna.gff: 各ISコピーとそのTIRのリスト、gff3フォーマット
  • xxx.fna.is.fna:各ISコピーのDNA配列、fasta形式
  • xxx.fna.orf.fna: 各ISコピーに含まれるTpase遺伝子(転移酵素遺伝子)のDNA配列、fasta形式
  • xxx.fna.orf.faa: 各ISコピーに含まれるTpaseのアミノ酸配列、fasta形式 

 

レポジトリにはxargsを使って複数のゲノムを順番に調べていく例が記載されています。確認してください。

引用

ISEScan: automated identification of insertion sequence elements in prokaryotic genomes
Zhiqun Xie, Haixu Tang
Bioinformatics, Volume 33, Issue 21, 01 November 2017, Pages 3340–3347