macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

(メタ)ゲノムのARGプロファイリングを行うSnakemakeパイプライン ARGprofiler

 

 メタゲノム解析は、抗菌薬耐性遺伝子(ARG)の機能や分布を理解する上で非常に有用である。しかし、研究の比較可能性を確保するために、標準化された再現可能なワークフローが必要である。現在の選択肢には、それぞれ特定の目的を念頭に設計された様々なツールや参照データベースが含まれているからである。本研究では、ARGの構成、分布、機能を研究するために、大量の生シーケンスリードを処理するワークフローARGprofilerを作成した。ARGprofilerは、14,078のユニークなARGからなるPanResデータベースを提供することで、どの参照データベースを使うべきかという課題に取り組んでいる。ARGprofilerのパイプラインは、遺伝子や微生物のアバンダンステーブルを作成するだけでなく、ARGextenderを用いてARGのフランキング領域を再構築するように設計されている。ARGextenderはKMAとSPAdesを組み合わせたバイオインフォマティックアプローチで、ターゲットとなるde novoアセンブリのためにリードをリクルートする。本目的はARGにあるが、パイプラインは、シーケンシングランを高速に検索・比較するためのMashスケッチも作成する。

 ARGprofilerパイプラインは、メタゲノムシーケンスデータの再利用をサポートするSnakemakeワークフローであり、簡単にインストールでき、https://github.com/genomicepidemiology/ARGprofilerから利用できる。

 

インストール

依存

  • Snakemake

Github

git clone https://github.com/genomicepidemiology/ARGprofiler.git
cd ARGprofiler/
mamba env create --name argprofiler --file rules/environment_argprofiler.yaml
coonda activate argprofiler

 

テストラン

レポジトリのルートにあるinput.jsonが認識される。

cd ARGprofiler/
snakemake --profile profile_argprofiler

input.json

run_accessionはリードシーケンスデータセットのENAのID。READ_TYPEはPAIREDまたはSINGLEのいずれかなので、2つ分のデータセット(片方はペアエンド、片方はシングルエンド)が解析対象になる。

ENAのデータがダウンロードされて解析される。

resultsに全ての結果が保存される。

results/

raw_reads/にはダウンロードしたシーケンスデータセットが格納され、trimmed_reads/にはトリミングされたシーケンスデータが格納される。kma_mOTUs/にはmOTUsデータベースを含む全てのアライメント結果ファイルが含まれ、kma_panres/にはPanResデータベースとのアライメント結果ファイルがすべて格納されている。Mash/には各シーケンスデータセットのマッシュスケッチが含まれている。画像では失敗しているが、argextenderディレクトリには、ARG周辺のゲノムフランキング領域を抽出したファイルが格納される。

 

どのサブディレクトリもシングルリードとペアリードの結果に分けて保存されている。

raw_reads/

 

論文とレポジトリより

  • 公開されていないfastqを使用したい場合、local_readsという名前のディレクトリにfastqファイルを配置する。
  • clusterのフラグを付けることでHPC環境でも実行できる。
  • 論文で書かれているが、いくつかの方法が比較検討され、最終的に、fastq-dlにとるENAからのリードのダウンロード、fastpによる前処理、KMA(紹介)による選択したmOTUs3(紹介)やPanResなどの参照配列データベースへのマッピング、この論文のために開発された目的の遺伝子周辺のゲノムフランキング領域を拡張するアセンブルツール:ARGextenderによる抗菌薬耐性遺伝子のターゲットフランキング領域のアセンブリ、Mash(紹介)によるシーケンシングリードのスケッチというフローが行われる。
  • 抗生物質、重金属、殺生物剤に対する耐性をコードする細菌遺伝子はこれまでに同定され、いくつかのデータベースにまとめられている。本著者らは、興味のあるこれらの遺伝子をPanResと名付けた単一のユニークなコレクションに集めた: ResFinder、ResFinderFG、CARD、MegaRes、AMRFinderPlus、ARGANNOT。これらのコレクションに加えて、環境および臨床サンプルからクローン化され、機能決定されたARGのセット(市販されていない抗生物質に対する耐性が確認されたもの)を使用している(CsabaPalタグ)。重金属はしばしば抗生物質耐性を共選択するため、BacMet v1.1からも手動でキュレーションされてコレクションされている。すべての検索配列はクラスタリングされてユニークな配列となっている。
  • メタゲノムde novoアセンブリは計算要求が高すぎて日常的な使用には適さないことが多い。より低い計算負荷でアセンブリを行うためにARGextenderが開発された。ARGextenderではKMA とSPAdesを再帰的に使用する。

 

コメント

r-optparseのインストールに失敗し、一部のプロセスが完了しなかった。改善出来たら追記します。

引用

ARGprofiler—a pipeline for large-scale analysis of antimicrobial resistance genes and their flanking regions in metagenomic datasets 
Hannah-Marie Martiny, Nikiforos Pyrounakis, Thomas N Petersen, Oksana Lukjančenko, Frank M Aarestrup, Philip T L C Clausen, Patrick Munk
Bioinformatics, Volume 40, Issue 3, March 2024

 

関連