macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

アンサンブル学習による病原性配列の正確で高感度な機能スクリーニングを行う SeqScreen

2022/06/23 論文引用

2023/04/3 関連論文へのリンク

 

 現代の卓上DNA合成技術と新興病原体への関心の高まりにより、懸念される病原体に対するオリゴヌクレオチドのスクリーニングの重要性が高まっている。しかし、オリゴヌクレオチドの正確で高感度な特性評価は、現在の技術やオントロジーベースのツールの多くにとって未解決の課題となっている。この問題を解決するために、著者らはSeqScreenという新しいソフトウェアを開発した。このソフトウェアは、Functions of Sequences of Concern (FunSoC)と呼ばれる、個々のタンパク質の病原性を示す微生物の病原性に特化した新しい機能ラベルを用いて、短いDNA配列を正確かつ高感度に特性評価することができる。アンサンブル機械学習モデルは、これらのキュレーションを学習した後、不均衡なマルチクラスおよびマルチラベル分類タスクを介して、FunSoCで配列を高精度にラベル付けできることを示している。以上のことから、SeqScreenは、ゲノムおよびメタゲノムデータセットから機能的に情報を得た病原体の特性評価の新しいパラダイムへの第一歩となる。SeqScreenはオープンソースで、www.gitlab.com/treangenlab/seqscreen から自由にダウンロードすることができる。

 

wiki

https://gitlab.com/treangenlab/seqscreen/-/wikis/home

 

f:id:kazumaxneo:20210604003655p:plain

GitLabより転載

 

インストール

  • SeqScreenはLinuxサーバー(Ubuntu 18.04、Red Hat Enterprise Linux 7)で開発・テストされている。bioconda経由でSeqScreenをインストールして実行するか、DockerまたはSingularity経由でSeqScreenバイオコンテナをインストールして実行することが推奨されている。
  • SeqScreen実行のために利用可能な128-256GBのRAMが必要。
  • インストールプロセスのために、インターネットに接続されたLinuxサーバー上に220GBのフリーディスクスペース、出力ファイルのサイズと数に応じて変動する300GBのディスクスペースが必要。

Github

#conda (link)
mamba create -n seqscreen
conda activate seqscreen
mamba install -c bioconda seqscreen -y

seqscreen

$ seqscreen

CAPSULE EXCEPTION: Could not parse version: 11.0.9.1-internal while

processing attribute Min-Java-Version: 1.8.0 (for stack trace, run

with -Dcapsule.log=verbose)

USAGE: java <options> -jar

../../../../../home/kazu/miniconda3/envs/seqscreen/share/nextflow/dist/21.04.0/nextflow-21.04.0-one.jar

 

Actions:

  capsule.version - Prints the capsule and application versions.

  capsule.modes - Prints all available capsule modes.

  capsule.jvms - Prints a list of all JVM installations found.

  capsule.help - Prints this help message.

  capsule.tree - Prints the capsule's dependency tree.

  capsule.resolve - Downloads all un-cached dependencies.

 

Options:

  capsule.mode=<value> - Picks the capsule mode to run.

  capsule.reset - Resets the capsule cache before launching. The

capsule to be re-extracted (if applicable), and other possibly cached

files will be recreated.

  capsule.log=<value> (default: quiet) - Picks a log level. Must be

one of none, quiet, verbose, or debug.

  capsule.java.home=<value> - Sets the location of the Java home (JVM

installation directory) to use; If 'current' forces the use of the JVM

that launched the capsule.

  capsule.java.cmd=<value> - Sets the path to the Java executable to use.

  capsule.jvm.args=<value> - Sets additional JVM arguments to use when

running the application.

  capsule.local=<value> - Sets the path of the local Maven repository to use.

 

 

データベース

データベースバージョン21.06では、解凍前で140GBほどある。

https://gitlab.com/treangenlab/seqscreen/-/wikis/02.-SeqScreen-Dependencies

wget https://obj.umiacs.umd.edu/seqscreen/SeqScreenDB_21.6.tar.gz
tar -xvf SeqScreenDB_21.6.tar.gz

解凍するとSeqScreenDB_21.4/というディレクトリ名になる。

 

 

実行方法

Fastモード(デフォルト)とセンシティブモードがある。Fastモードでは、SeqScreenはより高速なランタイム分析を行えるが、より高いメモリ要件と潜在的に低い感度というトレードオフがある。センシティブモードでは、より詳細でセンシティブな結果を提供するために、BLASTと追加のツールで分析される(Sensitiveモードは、slurmのようなワークロードマネージャーを介してマルチノードクラスタ上で実行されることを想定されている)。

 

Fastモードのラン

seqscreen --fasta input.fasta --databases SeqScreenDB_21.4 --working /Path/to/output_directory

センシティブモードは”--sensitive” をつける。

 

singularityを使用

singularity exec -B ${PWD}/:/tmp seqscreen_1.6.2--hdfd78af_0.sif seqscreen --fasta /tmp/example_data/input_seqs.fasta --databases /tmp/SeqScreenDB_21.4/ --working /tmp/example_seqs --threads 10

 

原因不明のエラーが出て最後までランできなかった。

引用

SeqScreen: Accurate and Sensitive Functional Screening of Pathogenic Sequences via Ensemble Learning
Advait Balaji, Bryce Kille, Anthony D. Kappell, Gene D. Godbold, Madeline Diep, R. A. Leo Elworth, Zhiqin Qian, Dreycey Albin, Daniel J. Nasko, Nidhi Shah, Mihai Pop, Santiago Segarra, Krista L. Ternus, Todd J. Treangen

bioRxiv, Posted May 04, 2021

 

2022/06/23

SeqScreen: accurate and sensitive functional screening of pathogenic sequences via ensemble learning
Advait Balaji, Bryce Kille, Anthony D. Kappell, Gene D. Godbold, Madeline Diep, R. A. Leo Elworth, Zhiqin Qian, Dreycey Albin, Daniel J. Nasko, Nidhi Shah, Mihai Pop, Santiago Segarra, Krista L. Ternus & Todd J. Treangen 
Genome Biology volume 23, Article number: 133 (2022) 

 

追記

病原体配列の探索において、SeqScreenはBLASTベースの方法よりも安定して正しい結果を出すことが報告されています。