InterProScan 6のβ版が公開されているので使い方を確認します。nextflowに対応し、大規模データにもスケールすることがアナウンスされています。
InterProScan 6 (beta) is here 🎉
— InterPro (@InterProDB) August 8, 2025
A Nextflow-powered, containerised overhaul for scalable, reproducible protein annotation—decoupled software/data, automated data handling, and smoother runs across HPC and cloud.
Feedback welcome!https://t.co/EoMN4SOBq0 pic.twitter.com/KXnR2ViTeP
インストール
依存
- Nextflow 24.10.04 or later
A container runtime. The currently supported are: - Docker
- SingularityCE
- Apptainer
テストラン
-r 6.0.0-betaをつけて実行する(最新かどうかレポジトリを確認する)。-profile testでテストランとなる。--datadirでDBのパスを指定する(下を参照)。
nextflow run ebi-pf-team/interproscan6 \
-r 6.0.0-beta \
-profile docker,test \
--datadir data \
--interpro latest \
--globus
InterProScanを実行するには前もってDBをダウンロードしておく必要がある(前回のInterProScan5参照)。持ってない場合、"--interpro latest"のオプションを指定すると、ラン前に最新バージョンのInterProデータベースが自動を取得して使用できる(カレントにdata/ができる)。このオプションをつけるとInterProのデータがEMBL-EBIのFTPサーバーから取得されるが、FTPサーバーがメンテナンス中だったりネットワークの問題があると接続できないことがある。"--globus"もつけてランすると、通常のFTPやHTTPより安定してDBをダウンロードできる(Globusは大規模な科学データの転送に特化した高速かつ安全な転送プロトコル)。

DBのダウンロードも含めて数十分かかった。以下の4つが出力される。
- test.faa.gff3: annotations in GFF3 format
- test.faa.json: Full annotations in JSON format
- test.faa.tsv: Tabular summary of matches (TSV format)
- test.faa.xml: Full annotations in XML format
実際に自分の配列をアノテーションするには、"--input"でタンパク質配列のfastaを指定する。DBは--datadirでDBのパスを指定する。まだテストランをしていなくて持っていなければ、上の例のように"--interpro latest"をつける( --globusも)。
nextflow run ebi-pf-team/interproscan6 \
-r 6.0.0-beta \
-profile docker \
--datadir data \
--input proteins.faa
proteins.faa.gff3とproteins.faa.tsv、proteins.faa.xmlが出力される。バクテリアの4000個のproteinを含むfastaを指定すると6分ほどかかった(xeon E5 v4 2680)。
出力例

input.faa.tsv

その他
- 塩基配列の場合は"--nucleic"をつける。
- "--goterms --pathways"をつけるとGO termとパスウェイアノテーションも付与できる。
- "--applications"でアノテーションDBを指定することで、PfamやDeepTMHMM、SMART、天然変性タンパク質のドメイン向けのMobiDB-liteなど特定のDBだけ使ってアノテーションを付与することもできる。全リストはレポジトリの表を参照。
引用
InterProScan 5: genome-scale protein function classification
Philip Jones, David Binns, Hsin-Yu Chang, Matthew Fraser, Weizhong Li, Craig McAnulla, Hamish McWilliam, John Maslen, Alex Mitchell, Gift Nuka, Sebastien Pesseat, Antony F. Quinn, Amaia Sangrador-Vegas, Maxim Scheremetjew, Siew-Yit Yong, Rodrigo Lopez, Sarah Hunter
Bioinformatics, Volume 30, Issue 9, May 2014, Pages 1236–1240
関連