単離バクテリアゲノムのアセンブリ、アノテーション、比較ゲノム解析を行う高度に自動化されたパイプライン ASA3P

2020 3/22 ツイート、関連ツールリンク追記

2020 3/25 コメント追記

2020 3/26 誤字修正

2020 5/12 インストール追記

　1977年に、DNAシーケンスがフレデリックサンガーによってサイエンスコミュニティに導入された[ref.1]。それ以来、DNAシーケンスは、ジデオキシチェーンターミネーションから数百万の短いDNAフラグメントのハイスループットシーケンス、そして最終的にDNA１分子のリアルタイムシーケンスに至るまでの長い道のりを歩んできた[ref.2,3]。いわゆる次世代シーケンシング（NGS）と第三世代シーケンシングの技術により、時間とコストが大幅に削減され、公的に利用可能なゲノムが爆発的に増加した。 1995年に、M. genitaliumとH. influenzaeの最初の細菌ゲノムが公開された[ref.4,5]。現在（2020年）、NCBI RefSeqデータベースリリース93には、54,854の異なる細菌ゲノムが含まれている[ref.6]。 NGSテクノロジーの成熟により、細菌の全ゲノムシーケンス（WGS）の骨の折れる作業は単純なルーチン[ref.7]に変わり、今日では数時間以内に実行可能になった[ref.8]。

　シーケンシングプロセスはもはや制限要因ではないため、焦点は単一ゲノムのより深い分析、および例えば細菌集団の多様性と遺伝的景観を促進する遺伝的メカニズムを解明するため、臨床から単離された菌を比較ゲノムで解析する[ref.9]。細菌を包括的に特徴付けることは、環境微生物学および医学微生物学を含む多くの応用分野で望ましい必須の課題になっている[ref.10]。最近の世界的な多剤耐性菌の急増により、適切な対策を講じなければ、2050年には抗菌剤耐性菌のみの感染により毎年最大1,000万人が死亡する可能性がある[ref.11]。したがって、多数の細菌ゲノムのシーケンシングとタイムリーな特性評価は、アウトブレイク検出の成功、新しい病原菌の適切なサーベイランス、抗生物質耐性遺伝子の広がりのサーベイランスのための重要な要素である[ref.12]。比較分析により、病原性および抗生物質耐性菌の蔓延を防ぐための新規治療薬ターゲットの特定につながる可能性がある[ref.13-16]。

　微生物ゲノムシーケンシングのための別の非常に有望で重要な応用分野は、現代のバイオテクノロジーである。基礎となるゲノム機構のより深い知識により、遺伝子および細菌ゲノム全体の遺伝子工学は、複雑な化学物質生産[ref.17]、価値のある薬物の合成、およびバイオ燃料[ref.21]、毒素および廃棄物の除染および分解[ref.22,23]、ならびに腐食保護[ref.24]など、膨大な用途を持つ生物化学工場に遺伝子を変換するための不可欠なツールとなっている[ref.18-20]。

　現在、WGSの技術的障壁が低下したため、ゲノミクスは最終的にビッグデータサイエンス[ref.25]に変わり、新しい問題と課題を誘発した[ref.26]。これらの開発に対応するには、以下の問題に関して継続的な努力が必要であると考えている。

a）Automation：手動分析を繰り返すと時間がかかり、エラーが発生しやすくなる。よく知られている「繰り返さない」というマントラと、パレートの法則に従って、科学者はデータ処理タスクを繰り返すことなく、データ分析の興味深い有望な側面に集中できるはずである。

b）Standard operating procedures (SOPs)：高スループットのデータ作成と生物情報ツールの複雑な組み合わせの世界では、再現性と比較可能性の両方を向上させ維持するためにSOPが不可欠である[ref.27, pubmed]。

c）Scalability：利用可能なデータに対応するために、バイオインフォマティクスソフトウェアは最新のコンピューティングテクノロジーを活用する必要がある。e.g. マルチスレッドとクラウドコンピューティングなど。

　これらの問題に対処するために、近年、NCBI Prokaryotic Genome Annotation Pipeline (PGAPのこと)[ref.6]、RAST [ref.28]、およびPATRIC [ref.29]など、原核生物ゲノムの自動アノテーションおよび分析のためのいくつかの主要なプラットフォームが進化した。 3つすべてが高度なゲノム解析とアノテーションパイプラインを提供し、アノテーション品質の点で事実上のコミュニティ標準を提示している。さらに、いくつかのオフラインアノテーションツール、たとえばProkka [ref.30]は、前述のオンラインツールの主要な欠点に対処するために公開されている。つまり、ローカルコンピュータまたはon-premises（wiki）のクラウドコンピューティング環境では実行できない。ただし、細菌のWGSデータの包括的な分析は、アノテーションだけのプロセスに限定されず、生データのシーケンス技術に依存する前処理とその後の特性評価ステップも必要である。細菌分離株およびコホートの分析は近い将来多くの応用分野で標準的な方法となるため、洗練されたローカルアセンブリ、アノテーション、および高レベルの分析パイプラインの需要は絶えず高まっている。さらに、DNAシーケンスにポータブルデバイスを使用すると、分析がセントラルのソフトウェアインストールから分散型オフラインツールまたはスケーラブルなクラウドソリューションに移行すると考えられる。著者の知る限り、現在、前述のすべての問題に対処するバイオインフォマティクスソフトウェアツールは公開されていない。このボトルネックを克服するために、 closely related細菌な単離株のアセンブリ、アノテーション付け、および高レベル分析のための自動でスケーラブルなソフトウェアパイプラインであるASA3Pを導入する。

　ASA3Pは、Java 仮想マシン用の動的スクリプト言語であるGroovy（http://groovy-lang.org）のモジュラーコマンドラインツールとして実装されている。幅広い細菌属、シーケンシング技術、およびシーケンシングの深さで可能な限り最高の結果を達成するために、ASA3Pは、リーンでスケーラブルな実装の観点から利用可能かつ適用可能な場合はいつでも、公開された高性能のバイオインフォマティクスツールを組み込み、利用する。パイプラインは、より専門的な分析の前処理ツールとしても使用されることを意図しているため、設計によりユーザーが調整可能なパラメーターを提供しないため、堅牢なSOPの実装が容易になる。したがって、使用される各ツールは、コミュニティのベストプラクティスと知識（論文S1 table）に従ってパラメーター化される。

　データ生成に使用されたシーケンステクノロジーに応じて、ASA3Pは適切なツールとパラメーターを自動的に選択する。各ツールにどのツールが選択されたかの説明は、S2表に記載されている。意味的に、パイプラインのワークフローは4つの段階に分かれている（論文図1）。最初の必須ステージA（論文図1A）では、提供された入力データが処理され、アノテーション付きゲノムが作成される。したがって、生のシーケンシングリードはFastQC（https://github.com/s-andrews/FastQC)、FastQ Screen（https://www.bioinformatics.babraham.ac.uk/projects/fastq_screen）、 Trimmomatic [ref.31]およびFiltlong（https://github.com/rrwick/Filtlong）で品質管理される。フィルタリングされたリードは、イルミナのシーケンシングリードの場合はSPAdes [ref.32]、Pacific Bioscience（PacBio）の場合はHGAP 4 [ref.33]、Oxford Nanopore Technology（ONT）の場合はUnicycler [ref.34]を介してそれぞれアセンブリされる。イルミナとONTのリードのハイブリッドアセンブリも、Unicyclerを介して実行される。アセンブリされたゲノムにProkka [ref.30]でアノテーションを付ける前に、コンティグは再参照され、マルチリファレンススキャフォールダーMeDuSa [ref.35]を介して順序付けられる。後続のシュードゲノムのアノテーションのために、ASA3Pは、ビニングされたRefSeqゲノム[ref.6]に基づくカスタム属固有のデータベースと、特殊なタンパク質データベース、つまりCARD [ref.36]およびVFDB [ref.37]を使用する。公開または外部で分析されたゲノムを統合するために、ASA3Pは、コンティグ、スキャホールド、アノテーション付きゲノムなど、さまざまなタイプの前処理されたデータを組み込むことができる。

After ~2 months being offline due to a severe cyberattack #JLUoffline our "all-in-one" local & cloud bacterial analysis pipeline ASA³P
(https://t.co/dC7IO9bqGn) is finally available again for download - we moved everything to Zenodo: https://t.co/cpNIkrvoyv #binfie #bacteria #ngs
— Oliver Schwengers (@oschwengers1) 2020年1月22日

Check out this new #Software article from Schwengers et al: "ASA3P: An automatic and scalable analysis pipeline for bacteria" https://t.co/vSUvLHTsrS pic.twitter.com/mMwzP8YVMU
— PLOS Comp Biol (@PLOSCompBiol) 2020年3月9日

Githubより転載

インストール

本体　Github

サンプル数が200以下のスモールデータセットの場合、解析の再現性とツール全体の可搬性を考えてdockerイメージを利用することが提案されている。

#dockerhub (link)ここではlatestではなくテストランの:v1.2.2を入れる。
docker pull oschwengers/asap:v1.2.2

#2020 5/12追記
#test runで一部サンプルのみエラーが出たため、2020 5/12時点のlatestに変更した。
docker pull oschwengers/asap:latest

テストラン

１、データベースの準備。圧縮状態で71GBほどあるので注意。

（コメント；途中でdisconnectして何回かダウンロードに失敗しました。バイト指定での再開はできなかったため、太い回線で１０回ほど自動で繰り返し、ようやくダウンロードできました。）

wget https://zenodo.org/record/3606300/files/asap.tar.gz?download=1
tar -xzf asap.tar.gz?download=1
rm asap.tar.gz

wget https://zenodo.org/record/3606761/files/example-lmonocytogenes-4.tar.gz?download=1
tar -xzf example-lmonocytogenes-4.tar.gz?download=1
rm example-lmonocytogenes-4.tar.gz

２、実行。docker用のラッパースクリプトが同梱されているので、それをランする。

asap/asap-docker.sh -p example-lmonocytogenes-4/

-p mandatory: path to the actual project directory (containing config.xls and data directory)

指定したテストデータディレクトリexample-lmonocytogenes-4/は、ラン前で以下のようになっている。

f:id:kazumaxneo:20200322001950p:plain

Githubに解説があるが、example-lmonocytogenes-4/は以下のようなディレクトリ構造になっている（図はGihtubから）。

f:id:kazumaxneo:20200322002211p:plain

config.xlsは2つのシートからなる。GithubのPDFマニュアルに詳細があるが、シート;Projectではプロジェクト名、ユーザー名、リファレンスゲノムファイル名などを記載する。

f:id:kazumaxneo:20200322002631p:plain

シート；Strainsではシーケンシングデータの種類（illumina、pacbio、ONTに対応）、fastqファイル名などを記載する。

f:id:kazumaxneo:20200322002635p:plain

出力

f:id:kazumaxneo:20200322003238p:plain

report

f:id:kazumaxneo:20200322003351p:plain

assembly

f:id:kazumaxneo:20200322003431p:plain

annotation

f:id:kazumaxneo:20200322003438p:plain

taxonomic classification

f:id:kazumaxneo:20200322003550p:plain

MLST

f:id:kazumaxneo:20200322003553p:plain

Antibiotic Resistances

f:id:kazumaxneo:20200322003827p:plain

Reference Mapping

f:id:kazumaxneo:20200322003832p:plain

SNP Detection

f:id:kazumaxneo:20200322003843p:plain

Core/Pan Genome

f:id:kazumaxneo:20200322003849p:plain

f:id:kazumaxneo:20200322003854p:plain

Phylogeny

f:id:kazumaxneo:20200322003855p:plain

それぞれのレポートは、左上（または右上）のDashboardボタンからグラフにして見ることができるようになっている。下はアセンブリ結果。

f:id:kazumaxneo:20200322004343p:plain

数百、数千のバクテリアの分析のため、ASA3PはSGEの計算機クラスタでも最低限の手間で導入、利用できるようになっている。詳細はGIhtubで確認して下さい。

引用

ASA3P: An automatic and scalable pipeline for the assembly, annotation and higher level analysis of closely related bacterial isolates
Oliver Schwengers , Andreas Hoek, Moritz Fritzenwanker, Linda Falgenhauer, Torsten Hain, Trinad Chakraborty , Alexander Goesmann
PLOS Computational Biology , Published: March 5, 2020

https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1007134