macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

潜在的な病原体の検出を可能にするメタゲノムシーケンスデータ解析パイプライン TaxTriage

 

 TaxTriageは、ショートリードとロングリードの非標的DNAおよびRNAシーケンスデータの両方に対応した、包括的な病原体同定ワークフローである。リードの分類、マッピング、およびデ・ノボアセンブリのアプローチを組み合わせることで、キュレーションされた病原体との比較と健康なコホートデータからのアバンダンス予測を通じて、潜在的な病原体が同定される。Nextflow™(NF)を活用することで、柔軟なインストールオプションが利用できる。これには、NF Tower(Seqera Platform)によるクラウド展開や、外部インターネット接続なしのスタンドアロンインストールを含む多様なシステムでのローカルインストールが含まれる。最終的な分析結果は「Organism Discovery Report」にまとめられ、推定される病原体とサポートデータ(カスタム信頼度スコアを含む)が一覧表示される。Publicのインシリコ、臨床、およびアウトブレイクデータセットの評価により、期待される病原体と共感染の検出において、代替のクラウドベース処理パイプラインと類似の感度と向上した特異性を示す性能が確認された。公衆衛生と獣医学診断コミュニティの両方を支援するため、関心のあるホスト種における性能向上のためのカスタマイズオプションが組み込まれている。TaxTriageのソースコードは、https://github.com/jhuapl-bio/taxtriageで無料で利用できる。

 

マニュアルより

TaxTriageパイプラインは、公衆衛生および潜在的には臨床環境における早期警戒およびアウトブレイク調査のために、組織(ヒトまたは動物)から得られたショートまたはロングリードのメタゲノムシーケンスデータを取り込むように開発されている。目的は、非バイオインフォマティシャンでも、生のメタゲノムまたはターゲットシーケンスデータから病原体の種レベルの同定を行えるツールを提供することである。シーケンスケミストリやサンプルタイプ(例:血液と唾液など)を考慮するための特定のモジュールも開発されている。以下のステップが含まれている。

  1. 品質管理ステップ
  2. 宿主検出と除去。Minimap2がBowtie2に比べて偽陰性率がわずかに低いため、ショートリードとロングリードの両方に使用されている。重複リードの除去も行われる。
  3. Kraken2によるリードの分類。--reference_fasta FASTAファイルまたは--organisms/--organisms_fileパラメータを指定した場合はスキップ可能
  4. 「トップヒット」とされたリファレンスゲノムへのリードのマッピング
  5. リファレンス準備 。トップヒットに基づくアセンブリNCBIから取得される。ローカルのFASTAファイルを使用する場合、この部分はスキップされる。
  6. アラインメント。取得されたゲノムアセンブリに対して、すべての分類済みリード(Kraken2使用時)またはQC後の生リード(ローカルFASTAリファレンス使用時)にマッピングされる。現在は、各リードに対してベストヒットのみが割り当てられている(この制限を引き上げるパラメータを導入予定)。  現在、ショートリードとロングリードはそれぞれBowtie2とMinimap2を使ってマッピングされる。複数の研究でMinimap2はショートリードに対して高性能とされているが、分類学的・メタゲノミクス的観点からはBowtie2に劣るとの報告もあるため。
  7. 信頼度指標の生成(例:カバレッジヒストグラムとデプステキストの生成、塩基配列同一性%)
  8. 閾値カニズム
  9. デノボアセンブリアセンブリファイルを生成
  10. VCF(バリアント)ファイルを生成(bcftools/samplename.vcf.txt)  
  11. 詳細なMultiQCレポート
  12. 簡潔な最終報告書(臨床環境での使用に必要なすべてのデータ項目を含むことを意図)

 

Usage

https://github.com/jhuapl-bio/taxtriage/blob/main/docs/usage.md#important-output-locations

Troubleshooting and FAQ

https://github.com/jhuapl-bio/taxtriage/blob/main/docs/troubleshooting.md

 

インストール

依存

  • Nextflow
  • Singularity or Docker (recommended)

Github

 

テストラン

-profile testを使用する。

git clone https://github.com/jhuapl-bio/taxtriage.git
cd taxtriage/
nextflow run https://github.com/jhuapl-bio/taxtriage -r main -latest -profile test,docker -resume

テストランはイメージ取得後、数分で終了した。

 

出力例

展開

 

multiqc report(最終報告書)

 

実際のランでは、-profile testではなく-profile docker,localを使う(ローカル計算機の場合)。入力データはサンプルCSVファイルで指定するが、単一サンプルならfastqを直接指定してランすることもできる。

nextflow run https://github.com/jhuapl-bio/taxtriage \
--input samplesheet.csv \
--outdir outdir \
  -r main -latest \
--db path/to/DB --download-db \
-profile docker,mce -resume --max_memory 100GB --max_cpus 20 --outdir outdir

#single paired-end fastq
nextflow run https://github.com/jhuapl-bio/taxtriage \
-profile docker,mce \
--fastq_1 reads_R1.fastq.gz --fastq_2 reads_R2.fastq.gz \
--type blood --sample test --outdir outdir
  • fastq_1 & fastq_2 (optional - for paired end sets)
  • sample (optional) - this is the sample name you want to give. If left undefined it will default to the basename of fastq_1
  • type (optional) - sample type as defined earlier e.g. blood, stool etc. Leafing it blank will set it to "unknown"



引用

TaxTriage: An Open-Source Metagenomic Sequencing Data Analysis Pipeline Enabling Putative Pathogen Detection

Brian Merritt,  Jeremy D Ratcliff,  Stanley Ta,  Gunars Osis,  Matthew R. Mauldin, Peter M Thielen

bioRxiv, Posted July 18, 2025.

 

関連