macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

InterProScan 6

 

InterProScan 6のβ版が公開されているので使い方を確認します。nextflowに対応し、大規模データにもスケールすることがアナウンスされています。

 

 

インストール

依存

  • Nextflow 24.10.04 or later
    A container runtime. The currently supported are:
  • Docker
  • SingularityCE
  • Apptainer

Github

 

テストラン

-r 6.0.0-betaをつけて実行する(最新かどうかレポジトリを確認する)。-profile testでテストランとなる。--datadirでDBのパスを指定する(下を参照)。

nextflow run ebi-pf-team/interproscan6 \
  -r 6.0.0-beta \
  -profile docker,test \
  --datadir data \
--interpro latest \
  --globus

InterProScanを実行するには前もってDBをダウンロードしておく必要がある(前回のInterProScan5参照)。持ってない場合、"--interpro latest"のオプションを指定すると、ラン前に最新バージョンのInterProデータベースが自動を取得して使用できる(カレントにdata/ができる)。このオプションをつけるとInterProのデータがEMBL-EBIのFTPサーバーから取得されるが、FTPサーバーがメンテナンス中だったりネットワークの問題があると接続できないことがある。"--globus"もつけてランすると、通常のFTPやHTTPより安定してDBをダウンロードできる(Globusは大規模な科学データの転送に特化した高速かつ安全な転送プロトコル)。

DBのダウンロードも含めて数十分かかった。以下の4つが出力される。

  • test.faa.gff3: annotations in GFF3 format
  • test.faa.json: Full annotations in JSON format
  • test.faa.tsv: Tabular summary of matches (TSV format)
  • test.faa.xml: Full annotations in XML format

 

実際に自分の配列をアノテーションするには、"--input"でタンパク質配列のfastaを指定する。DBは--datadirでDBのパスを指定する。まだテストランをしていなくて持っていなければ、上の例のように"--interpro latest"をつける( --globusも)。

nextflow run ebi-pf-team/interproscan6 \
  -r 6.0.0-beta \
  -profile docker \
  --datadir data \
--input proteins.faa

proteins.faa.gff3とproteins.faa.tsv、proteins.faa.xmlが出力される。バクテリアの4000個のproteinを含むfastaを指定すると6分ほどかかった(xeon E5 v4 2680)。

 

出力例

input.faa.tsv

 

その他

引用

InterProScan 5: genome-scale protein function classification 

Philip Jones, David Binns, Hsin-Yu Chang, Matthew Fraser, Weizhong Li, Craig McAnulla, Hamish McWilliam, John Maslen, Alex Mitchell, Gift Nuka, Sebastien Pesseat, Antony F. Quinn, Amaia Sangrador-Vegas, Maxim Scheremetjew, Siew-Yit Yong, Rodrigo Lopez, Sarah Hunter

Bioinformatics, Volume 30, Issue 9, May 2014, Pages 1236–1240

 

関連