macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

バクテリアWGSからバリアントコールと系統解析を行う自動化されたパイプライン bactmap

 

Githubより

 nf-core/bactmapは、細菌のWGSから得られたショートリードを参照配列にマッピングし、フィルタリングされたVCFファイルを作成し、VCFファイル内の高品質な位置に基づいてシュードゲノムを作成し、オプションとしてシュードゲノムのアラインメントから系統樹を作成するバイオインフォマティクスのベストプラクティス解析パイプラインである。

 パイプラインの構築には、複数の計算インフラでタスクを実行するためのワークフローツールであるNextflowを使用している。Nextflowは、Docker/Singularityコンテナを使用しているため、インストールが簡単で、結果の再現性も高くなっている。Nextflow DSL2によるパイプラインの実装では、1つのプロセスにつき1つのコンテナを使用しているため、ソフトウェアの依存関係の維持・更新が非常に容易になっている。可能な限り、これらのプロセスは nf-core/modules に提出され、そこからインストールされる。これは、すべての nf-core パイプラインと Nextflow コミュニティのすべての人が利用できるようにするためである。

 リリース時には、自動化された継続的統合テストにより、AWSクラウド・インフラストラクチャ上のフルサイズのデータセットでパイプラインが実行される。これにより、パイプラインがAWS上で動作すること、実世界のデータセット上で動作するための適切なリソース配分のデフォルト設定がなされていること、パイプラインのリリースと他の分析ソースとの間でベンチマークを行うために結果を永続的に保存することが可能になる。フルサイズのテストで得られた結果は、nf-coreのウェブサイトで見ることができる。

 

パイプラインは以下のステップで構成されている。

  • 参照用fastaファイルのBWAインデックス
  • 品質とアダプター配列のためのfastpによるリードのトリミング(オプション)
  • ゲノムサイズの推定(mash sketch)
  • fastqファイルのダウンサンプリング(オプション)(Rasusa)
  • バリアントコール
  • リードのマッピング (BWA mem)
  • アラインメントソートとインデックス (SAMtools)
  • バリアントコールとフィルタリング(BCFtools)
  • フィルタリングしたbcfをシュードゲノムfastaに変換(vcf2pseudogenome.py)
  • サンプル配列の品質を確認した上で、fastaファイルを連結して擬似ゲノムからアライメントを作成(calculate_fraction_of_non_GATC_bases.py)
  • 組換え除去(オプション)(Gubbins)
  • アラインメントからバリアントサイトを抽出(SNP-sites)
  • 系統樹作成(オプション)

 - 高速/低精度
近傍結合 RapidNJ
近似最尤法 (FastTree2)
 - 遅い/より正確な最尤法
IQ-TREE
RAxML-NG

 

 

 

レポジトリ

 

ubuntu18.04LTSでprodile dockerをテストした。

 

 

テストラン

nextflow run nf-core/bactmap -profile test,docker

 profileはdocker/singularity/podman/shifter/charliecloud/conda/instituteが用意されている。

出力 

f:id:kazumaxneo:20210623095625p:plain

一部のフォルダを表示

f:id:kazumaxneo:20210623095800p:plain

pseudogenomeはVCFからリファレンスを改変することで出力される。


 

実行方法

サンプルシートの入力
パイプラインを実行する前に、実験で使用するサンプルに関する情報を含むSamplesheetファイルを作成する必要がある。サンプルシートはカンマで区切られたファイルで、3列でヘッダー行を持っていなければならない。

f:id:kazumaxneo:20210623203417p:plain

 

シートが準備できたらランする。シートとリファレンスfastaファイルを指定する。ここでは-rでバージョン1.0.0(link)を指定している。

nextflow run nf-core/bactmap --input sheet.csv --reference ref.fasta -profile docker

 

引用

https://github.com/nf-core/bactmap

 

The nf-core framework for community-curated bioinformatics pipelines.

Philip Ewels, Alexander Peltzer, Sven Fillinger, Harshil Patel, Johannes Alneberg, Andreas Wilm, Maxime Ulysse Garcia, Paolo Di Tommaso & Sven Nahnsen.

Nat Biotechnol. 2020 Feb 13. doi: 10.1038/s41587-020-0439-x.