macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

メタゲノムから抗生物質耐性情報を検出する NastyBugs

 

 

 病原性細菌の薬剤耐性(Antimicrobial resistance: AMR)は、世界中の公衆衛生上の脅威となっている。最も重要なのは、近年数が増えている多剤耐性(MDR)菌である(論文より ref.1)。これらの病原体の周知の例には、メチシリン耐性黄色ブドウ球菌MRSA)、バンコマイシン耐性黄色ブドウ球菌、拡張スペクトルβ-ラクタマーゼ、およびバンコマイシン耐性腸球菌が含まれる。 MRSAは、外科病院、産科病院、老人ホームなどでよく出現する。MRSAが発生した病院や養護施設では、罹患率や死亡率が高苦なる(ref.2)。患者がMDR感染しているかどうか判定する現在の方法は、異なる抗生物質存在下で患者由来の試料を培養することができることに基づいている(ref.3)。これは数日から数週間かかることがあるゆっくりしたプロセスであり、適切な抗生物質を時間内に受け取れない危険性が高くなる。

 バクテリアがAMRを獲得するメカニズムはいくつか知られている。一般的なメカニズムの1つに水平遺伝転写(HGT)があり、これはプラスミド、ファージ、トランスポゾン、およびインテグロンにより介在される(ref,4)。第2の主要なメカニズムは、抗生物質結合部位の変化をもたらすことができるバクテリアクロモソーム遺伝子のSNPが含まれる(ref,5)。

 マイクロバイオームの高スループット全ゲノムシーケンシング(WGS)は、ヒトの腸のような複雑な微生物群を研究するための最先端の方法である。 WGSは、rawデータセットを大量に作り出す。このデータセットは、特定の患者にとって最も効果的で最も効率的な治療戦略を臨床医に導くために迅速かつ効率的に処理する必要がある。しかし、NCBI Sequence Read Archive(SRA)や他の公共のデータセットから大規模なメタゲノミクスデータセットのAMRゲノムシグネチャを見つけるための迅速で再利用可能な再現性のあるスケーラブルなパイプラインを提供できる、単純で臨床的に適用可能なバイオインフォマティクス手法はまだ欠けている。このようなパイプラインは、学部学生など、この分析のクラウドソーシングにも使用できる。抗生物質使用のための効率的な戦略を決定することの問題は、現代の抗生物質療法および予防の要となるものである(ref.6)。

 ここ数年、completeなゲノムとメタゲノム両方からAMR検出できるさまざまな論文とツールが開発された。 AMRゲノムシグネチャの既存の検出方法には、ResFinder(ref.7)、PointFinder(ref.8)(紹介)、SSTAR(ref.9)(紹介)、DeepARG(ref.10)、ARIBA(ref.11)(紹介)、ResCap(ref.12)があるy。別のアプローチは、GalaxyベースのパイプラインAmr ++である。全ての検出方法は、既知のAMRゲノムシグネチャーのコレクションの入手可能性に依存する。次いで、これらのシグネチャを直接検索するか、または新規AMR遺伝子/遺伝子座の検出のためにモデルを生成する。最も更新された手動で選抜されたデータベースの1つは、Comprehensive Antibiotic Resistance Database(CARD)(ref.13)である。 ResFinder、ARG-ANNOT(ref.14)、MegaRES(ref.15)などがある。これらのツールの中には、使いやすいWebインターフェイスを提供し、FASTAとFASTQの両方のファイルを入力として使用するものもあるが、コマンドラインの機能は使用しない。さらに、これらの解決策は普遍的ではない。 ResFinderはHGT媒介抵抗性のみを検索し、後継のPointFinderは染色体点突然変異に起因するAMRのみを探索する。既存のソリューションの他の欠点には、大規模なデータセットや複数のrawシーケンスファイルを扱うことができないこと、スピードの遅さ、メタゲノムデータの扱いが悪いことなどがある。

 このプロジェクトの第一の目的は、MDR感染患者の迅速な診断と迅速な治療のための信頼できるシステムの設計である。システムの中心には、SRAショットガンシーケンシング(メタゲノミクスを含む)データセットのAMRゲノムシグネチャを見つけるための、再利用可能で、再現性があり、スケーラブルで、相互運用可能なワークフローがある。この作業を容易にするために、公衆衛生上重要な病原性細菌についてはRefSeqのみをリファレンスゲノムとして使用したが、パイプラインは他の微生物、ウイルス、および真菌のデータベースを含むように拡張することができる。その結果、NastyBugsは、臨床医による賢明な薬物選択と学術環境でのより迅速な研究の両方を可能にする、メタゲノムサンプルにどのような種類の薬剤耐性が存在するのかを特定する新しいプログラムとなっている。 NastyBugsは、2017年8月に National Center of Biotechnology Information のHackathonwiki)で作成されたフレームワークである。

 

分析は、3つのステップからなる:1)宿主(ヒト)シーケンシングデータ除去; 2)薬剤耐性シグネチャー同定; 3)バクテリアの同定および特徴付け。 ステップ2および3は並行して実施した。 入力データは、目的のメタゲノムのSRAアクセッション番号(ERRまたはSRR)である。 別のオプションは、ローカルストレージからのFASTQファイルを使用することである。

 

 

f:id:kazumaxneo:20180704133228j:plain

Githubより転載。

 

NastyBugsに関するツイート。

 

インストール

依存

本体 Github

docker pull stevetsa/docker-magicblast

 

 

ラン

一部のフローは自動化されており、main.shを叩くだけ実行できる。

main.sh <options> -S SRA -o output_directory

Githubでは全プロセスが公開されているので、ここでは1ステップずつ手動で進める。

 

ここでは紹介されている解析フローを試す。

1、GRCh38をNCBIからダウンロードする。 

f:id:kazumaxneo:20180719120846j:plain

  

2、 majicblast index

majicblast(紹介)のリファレンスデータベース作成。dockerコンテナを立ち上げホスト側からジョブを投げる。ホストの共有ディレクトリは/Users/user/Documents/docker_share/とした。

docker run --rm -it -v /Users/user/Documents/docker_share/:/home/ stevetsa/docker-magicblast \
makeblastdb -in /home/GRCh38_latest_genomic.fna -dbtype nucl -parse_seqids -out /home/human

 

3、majicblast mapping

メタゲノムデータは、オーサーらも使っているERR1600439(ヒト糞便由来)を使う。ダウンロードは必要ない。

Illumina MiSeq paired end sequencing - SRA - NCBI

 ヒトゲノムGRCh38にSRAデータをマッピングする。同じくホスト側からジョブを投げる。スレッド数は最高12。

docker run --rm -it -v /Users/user/Documents/docker_share/:/home/ stevetsa/docker-magicblast \
magicblast13 -sra ERR1600439 -db /home/human -num_threads 12 -score 50 -penalty -3 -out /home/mapped.sam
  •  -score   Cutoff score for accepting alignments. Can be expressed as a number or a function of read length: L,b,a for a * length + b ( Default = `20')

  •  -penalty   Penalty for a nucleotide mismatch (Default = `-4')

magicblastは、-sra <ID>を指定するとNCBI SRAから直接そのIDのデータをダウンロードしてマッピングを行う。dockerイメージにはmagicblast13とmagicblastという2つの実行ファイルがある(バージョン違い?)。ローカルにダウンロードしてから実行する例はこちらを参照。

 

4、filtering

humanゲノムにマッピングされたリードを除く。オリジナルのワークフローでは、その後、短いリードをfastx-toolkitのfastx_clipperで捨てている。fastx-toolkitについてはbioinformaticsのHPに詳しく載っています(リンク)。

samtools fasta -f 4 mapped.sam -1 ERR1600439_1.fasta -2 ERR1600439_2.fasta -0 ERR1600439_read0.fasta
# ERR1600439_1.fa、 ERR1600439_2.fa、ERR1600439_read0.faが出力される。


fastx_clipper ERR1600439_1.fa -o ERR1600439_1_clean.fa
fastx_clipper ERR1600439_2.fa -o ERR1600439_2_clean.fa
  •  -f   only include reads with all of the FLAGs in INT present [0]

 

5、Refseqゲノムのダウンロード (optional)

コンプリートなゲノムのダウンロード(紹介)。

wget ftp://ftp.ncbi.nlm.nih.gov/genomes/genbank/bacteria/assembly_summary.txt 
awk -F '\t' '{if($12=="Complete Genome") print $20}' assembly_summary.txt > assembly_summary_complete_genomes.txt
mkdir bacteria_genome
for next in $(cat assembly_summary_complete_genomes.txt); do wget -P bacteria_genome "$next"/*genomic.fna.gz; done
#2018年7月時点で30867 genome

cd bacteria_genome/
#解凍
find . -type f | xargs gunzip #大量にファイルがあるため
#マージ
find . -type f -name "*fna" | xargs cat > ../all_complete_bacteria.fna
#移動
cd ../

 majicblastデータベースの作成

#majicblastのindex作成
docker run --rm -it -v /Users/user/Documents/docker_share/:/home/ stevetsa/docker-magicblast \
makeblastdb -in /home/all_complete_bacteria.fna -dbtype nucl -parse_seqids -out /home/refseq
  •  -parse_seqids Option to parse seqid for FASTA input if set, for all other input types seqids are parsed automatically
  • -title Title for BLAST database Default = input file name provided to -in argument

 

6、RefSeqから16S RNAを探す。

docker run --rm -it -v /Users/user/Documents/docker_share/:/home/ stevetsa/docker-magicblast \
magicblast -infmt fasta -query /home/ERR1600439_1_clean.fa -query_mate /home/ERR1600439_2_clean.fa -num_threads 12 -score 50 -penalty -3 -out /home/refseq_mapped.sam -db /home/refseq

 

  

 

引用

NastyBugs: A simple method for extracting antimicrobial resistance information from metagenomes

Hsinyi Tsang, Matthew Moss, Greg Fedewa, Sharif Farag, Daniel Quang, Alexey V. Rakov

F1000Research, 6, 1971, 2017, doi: 10.12688/f1000research.12781.

https://f1000research.com/articles/6-1971/v1