抗生物質耐性遺伝子のde brujin graphを出力する metacherchant

　抗生物質に対する微生物の抵抗性（抗生物質耐性、AR）の広がりは、世界的な医療問題である。多剤耐性の病原性微生物は特に危険性が高い。 AMR（O'Neill、2016）の報告書によれば、AR関連死亡者の負担は、2050年までに年間1000万人、世界的な経済的負担は100兆ドルに増加すると予測されている。耐性拡大に寄与する主な要因は、抗生物質の広範な医療利用および農業利用である（Rolain、2013）。

　ヒト腸内微生物叢はARの貯留庫である（Sommer et al、2009）。抗生物質治療の間、微生物と抵抗性物質の組成は大きく変化する可能性がある（Shashkova et al、2016; Wright、2007）。特定の遺伝子は、抗生物質に対する耐性を介してその担体微生物の利点を与えるため、豊富に増加し得る。一部は、水平移動によって他の細菌種に伝染する可能性がある。それらが消費された物質自体に抵抗性を与えない場合、そのような遺伝子を持つ同じmobile elementの共局在化のために、普及が起こり得る。同時に、他の遺伝子の存在は、薬物作用に起因するキャリアの減少した割合のために枯渇する可能性がある。

　腸内微生物叢内の遺伝子の水平伝達（HGT）のために、抗生物質を消費する世界人口の被験体の数によって増幅される抵抗性の増加は、病原性微生物が人体に生息する抵抗性共生微生物から遺伝的抵抗決定因子を得る機会を強く増加させる。したがって、抗生物質摂取中およびその後の抵抗力動態の同定ならびにヒトの腸内でのAR伝達の機序の同定は、現実のものである。

　世界中の集団における腸内抵抗性のメタゲノム分析は、抗生物質の使用および社会経済的要因に関連する医療の全国的な特徴が、抵抗性組成物ならびに環境からの補充の程度に反映されることを示した（Forslund et al、2013; Pehrsson et al、2016）。興味深いことに、抗生物質（Rampelli et al、2015）へのアクセスを持たない孤立した集団の腸のメタゲノムにおいても有意なレベルのARdeterminantsが検出され、微生物世界におけるAR伝達の性質を示唆した。

　個々のバクテリアゲノムの単離およびシークエンシングによって遺伝子レベルのAR決定因子を調べることができる（Dai et al、2016）。しかしながら、最新の技術でも、腸内微生物のわずかな割合しか培養することができない。一方、各ショットガンヒト腸内メタゲノムは、潜在的にコミュニティに存在するすべての主要な種についての情報を含んでおり、孤立した系統の配列決定から利用可能なデータを予測することを可能にする。個々のAR遺伝子またはオペロンのゲノム状況（環境）を探索することによって、AR遺伝子（Yarygin et al、2017a、b）の相対的存在量をより詳細なレベルで分析できる。この作業への一般的なアプローチには、メタゲノムデノボアセンブリおよびコンティグのその後の分析が含まれる。 AR遺伝子はコンティグ中で同定され、ゲノム内の遺伝子の位置とその遺伝子周辺のmobile elementsの組成を同定するためにゲノムを分析する。

　このようなシナリオは、遺伝子がメタゲノム内の単一の種に存在し、ゲノムにおいて正確に1回生じる場合にうまく機能する。しかしながら、ゲノムがいくつかのAR遺伝子コピーを含むことができるという事実に加えて、腸内微生物細菌叢は、亜種レベルの多様性、すなわち多様なゲノムを有する単一種の複数の亜種を示すことが知られている（Greenblum et al、2015）。さらに、単一被験者の腸内微生物叢内では、遺伝子が同時にいくつかの種に存在する可能性があり、抗生物質の影響下で活性化する可能性がある（Crémetet al、2012; Gorenら、2010）。言及された条件は、通常のメタゲノム集合の間、線状コンティグがゲノムリピートに対応する位置で終了する可能性があり、AR遺伝子の実際のゲノムコンテキストの単純すぎるコンセンサスイメージしか提供しないことを示唆している。そのような簡略化された表現は、環境を正しく評価することを可能にせず、したがって種の同定を妨げ、AR遺伝子のドナーおよびそれぞれのアクセプターを妨害する。In vivoでのAR進化のより正確な再構成技術は、患者に対する抵抗プロファイリングの効率および最適な抗生物質治療スキームの選択を改善する。グローバルヘルスケアの観点からは、それは抵抗性の広がりおよびその制御の重要な傾向の追跡を容易にするであろう。

　この論文ではMetaCherchantを紹介する。これは、local de Bruijn graphアセンブリに基づいた、メタゲノミックデータから抗生物質耐性遺伝子のゲノム環境をグラフの形で抽出するアルゴリズムである。このアルゴリズムは、いくつかのシミュレーションデータおよび公開データセットで検証され、抗生物質療法を受けたヘリコバクターピロリ患者の腸内微生物叢の新しい「ショットガン」メタゲノムにも適用された。MetaCherchantは、メタゲノムデータを用いてバクテリアのゲノム内の耐性遺伝子を有する可動要素の再構成を可能にする。差動モードにおけるMetaCherchantの適用は、抗生物質治療の結果として起こったmobile element内の可能性のある耐性遺伝子伝達の証拠を示唆する特定のgraph構造を生成した。 MetaCherchantは、メタゲノムデータを基にしたin vivoでの抵抗伝達ダイナミクスの洞察を研究者に提供する有望なツールである。

インストール

依存

JRE 1.6 or higher

本体　Github

https://github.com/ctlab/metacherchant

git clone https://github.com/ctlab/metacherchant.git
cd metacherchant/out/

#metacherchant.shに実行権をつける
chmod +x metacherchant*

> ./metacherchant.sh

$ ./metacherchant.sh --help-all

Tool: environment-finder

Description: Finds graphic environment for many genomic sequences in given metagenomic reads

Input parameters (all):

-k, --k <arg> k-mer size (MANDATORY)

-i, --reads <args> FASTQ, BINQ, FASTA reads (optional, default: [])

--seq <arg> FASTA file with sequences (MANDATORY)

-o, --output <arg> output directory (MANDATORY)

--maxkmers <arg> maximum number of k-mers in created subgraph (optional)

--maxradius <arg> maximum distance in k-mers from starting gene (optional)

--coverage <arg> minimum depth of k-mers to consider (optional, default: 1)

--bothdirs run graph search in both directions from starting sequence (optional)

--chunklength <arg> minimum node length for BLAST search (optional, default: 1)

--forcehash force k-mer hashing (even for k <= 31) (optional)

--hash <arg> hash function to use: poly or fnv1a (optional, default: poly)

--threads <arg> how many java threads to use (optional, default: 32)

--trim trim all not maximal paths? (optional)

Launch options (all):

-ts, --tools print available tools (optional)

-t, --tool <arg> set certain tool to run (optional, default: environment-finder)

-m, --memory <arg> memory to use (for example: 1500M, 4G, etc.) (optional, default: 2 Gb)

-p, --available-processors <arg> available processors (optional, default: all (24))

-w, --work-dir <arg> working directory (optional, default: workDir)

-c, --continue continue the previous run from last succeed stage, saved in working directory (optional)

--force force run with rewriting old results (optional)

-s, --start <arg> first force run stage (with rewriting old results) (optional)

-f, --finish <arg> stop after running this stage (optional)

-ea, --enable-assertions enable assertions (optional, default: assertions disabled)

-v, --verbose enable debug output (optional)

-h, --help print short help message (optional)

-ha, --help-all print full help message (optional)

ラン

ターゲットゲノムのfastaとシーケンスリード（fastq or fasta)を指定してランする。

 ./metacherchant.sh --tool environment-finder -k 31 -c 5 -m 15000M --threads 20 --seq target_reference.fa --reads fastq_dir/*fq --maxkmers=100000 --output output_dir

-k the size of k-mer used in de Bruijn graph.
-c the minimum coverage threshold for a k-mer to be included in the graph.
--seq a FASTA file with the target nucleotide sequences, for each of which a genomic environment will be built.
--reads list of all input files with metagenomic reads separated by space. FASTA and FASTQ formats are supported.
--output output folder.
--work-dir working directory with intermediate files and logs.
--maxkmers maximum allowed number of distinct k-mers present in the resulting genomic environment.
--bothdirs flag setting the BFS (breadth-first search) algorithm to make 1 bidirectional pass from the target sequence. If this flag is not set, BFS makes two one-directional passes.
--chunklength minimum length of a contracted graph node to be included in output FASTA file for further analysis.
--threads how many java threads to use (optional, default: 32)