macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

ウィルス分類器 viruses_classifier

 

 次世代シーケンシング(NGS)の台頭により、メタゲノムは微生物生態学におけるゴールドスタンダードとなった。その限界、主にウイルス間の普遍的なマーカー遺伝子の欠如にもかかわらず、ウイルスメタゲノミクスはウイルス発見のための主要なツールとなっている(ref.1)。メタゲノムアプローチにより、培養を必要とせずにウイルスの発見が可能になっている。他方、明確に特定された宿主 - ウイルス共培養物の欠如は、新たに発見されたウイルスの宿主の同定を妨げる。この制限を回避するために、いくつかの実験方法が詳しく説明されている。例えば、溶菌性ファージは、自然界からフォスミドの使用によって発見され、それらの宿主にアサインされるかもしれない。選択したファージはphageFISHを使用している宿主と関連している可能性があるが、この方法では宿主遺伝子マーカー配列の予備知識が必要になる(ref.3)。別のアプローチ、ウイルスタギングは、蛍光染料での染色およびフローサイトメトリー選別を用いてWTウイルスをそれらの宿主と結び付けるが、培養可能な宿主に限定される(ref.4)。

 ウイルス - 宿主を連鎖させるプロセスは、ウエットの実験技術のみならずバ​​イオインフォマティックツールでも実行できる。バクテリアゲノムのプロファージの検索に焦点を絞ったツール、たとえばPhaster(ref.5)、PhiSpy(ref.6)、Phage_Finder (ref.7)、Prophinder (ref.8)などがある。この場合、ファージ - 宿主の関係は明らかであるが、このアプローチは、ゲノムが、いくつかの生活環段階において宿主に組み込まれ、そしてその宿主が既にシーケンシングされているファージに限定される。したがって、ファージの宿主を予測するための他の多くの計算手法が存在する。宿主を門、綱、目、科、属、および種のレベルで予測するための計算方法は、Edwards et al(ref.9)によって広範に検討され、ベンチマークされている。以下の主題が評価の対象となった。いくつかの宿主ゲノムフラグメントのファージによる獲得、CRISPRシステムにおける以前のウイルス感染のサイン、ならびに宿主およびファージのオリゴヌクレオチドプロファイルの比較から生じる相同性。後に、Zhangら(ref.10)は、配列シグネチャとしてオリゴヌクレオチド頻度を使用して、属レベルでファージの宿主を予測するいくつかの機械学習アプローチ、- ロジスティック回帰、サポートベクターマシン、ランダムフォレスト、ガウスナイーブベイズ、およびベルヌーイナイーブベイズ、の適用に成功したことを報告した 。ファージと宿主のオリゴヌクレオチドプロファイルを比較することは、Ahlgren et al(ref.11)によるより洗練された類似性測度の適用によって活用された。ファージ - 宿主関係の調査の他に、メタゲノムデータにおけるウイルスシグナルの検出のためのツールが利用可能であり、VirSorter(ref.12)(紹介)、VirFinder(ref.13)、およびMARVEL(ref.14)、次第に拡張されている。

 前述のアプローチは宿主 - ファージの関係を調べるために適用された(我々(ほん著者ら)の研究ではバクテリアアーキアに感染するウイルスを指すために「ファージ」という用語を使う)が、真核生物ウイルスの宿主を推論する問題はあまり研究されていない。 2010年にKapoor et alが3つの新しいPicornaのようなウイルスの発見を報告して、それらの宿主分類群を推論する新しい方法を発表した。彼らがヌクレオチド組成分析(NCA)と名付けた技術は、異なる宿主に感染するウイルス間のヌクレオチド組成の違いを利用する。ウイルスは、それらのモノ ヌクレオチド およびジヌクレオチド頻度ならびにジヌクレオチドバイアスによって表された。バイアスは、観察されたジヌクレオチドの頻度と、期待される頻度、これは2つの構成モノヌクレオチドの頻度を掛けることによって決定する、の比として評価された。判別分析を使用して、96%の予測精度で哺乳類、植物、昆虫に感染しているウイルスを識別することができた(ref.15)。この方法の適用は、巨大なウイルスグループではあるものの1つに限定されていたが、科学界の関心を集め、その後いくつかの(主にssRNA)真核生物ウイルスの宿主を推論するために類似の方法が適用された(ref.16-21)。残念なことにオーサーらは新たにシーケンシングされたウイルス宿主の分類群を予測する試みを強化できるツールをリリースしていない。ウイルス宿主を予測する際に、異なる機械学習、アライメント、アライメントフリーのk-merスペクトラムの相違に基づくアプローチを調査したグループもあるが、それらの研究は一部のグループのウイルスに限定されていた(ref.11, 22, 23, 2)。

 本著者らは最初により一般的な質問に答え、ファージと非ファージを区別できる分類器を開発することを目的とした。著者らの知る限り、現在知られている分類群を構成するウイルスは、真核生物またはバクテリア/アーキアのいずれかに感染するが、両方のグループに感染することはない。したがって、この作業はBLASTアライメント(ref.26)を単独で使用することで簡単に思えるかもしれない。しかしながら、高度に多様性のあるウイルスは、以前にシーケンシングされたウイルスとの配列類似性を欠く可能性があり、そして新たなウイルス属が依然として発見されている(例えばPandoravirus)。さらに、さまざまな生物学的材料、例えば糞便サンプルはファージと真核生物ウイルス(ref.15)を含んでいるので、サンプルの起源は新しくシーケンシングされたウイルスがファージであるかどうかを決定するのに役立たない。ここでは、この点で役立つ新しいツールを紹介する。 Host Taxon Predictor(HTP)は、標的グループのウイルスという意味での万能ツールであり、ウイルスが真核生物に感染するのかバクテリア/アーキアに感染するのかを非常に高い精度で予測することができる。 HTPのソースコードhttps://github.com/wojciech-galan/viruses_classifierにある。

 研究の過程において、ウイルスヌクレオチド配列は単純な配列シグネチャ(モノヌクレオチド 、ジヌクレオチド絶対頻度およびジ ヌクレオチド 、トリヌクレオチド相対頻度)および核酸のタイプ(DNA, RNA)によって表された。ウイルス宿主の分類群を予測するために、4つの教師ありの機械学習法が使用された。(以下略)

 HTPは、メタゲノム研究で得られた長いコンティグに似ている全長配列または部分配列のいずれでもうまく機能する。残念なことに、HTPは短いコンティグやシーケンスリードに似た短いサブシーケンスに対してはパフォーマンスが弱い。

 

インストール

依存

kNN classifier may not work on 32-bit python, so stick to the 64-bit one. Also, all of the classifiers were trained with a distinct version of scikit-learn, and may not work for the newer/older ones.

  • Python = 2.7
  • NumPy >= 1.8.2
  • SciPy >= 0.13.3
  • scikit-learn = 0.19.2

本体 Github

pip install git+https://github.com/wojciech-galan/viruses_classifier.git

> viruses_classifier -h

$ viruses_classifier -h

usage: viruses_classifier [-h] [--nucleic_acid {DNA,RNA,dna,rna}]

                          [--classifier {SVC,kNN,QDA,LR,svc,knn,qda,lr}]

                          [--probas]

                          sequence

 

positional arguments:

  sequence              sequence in plaintext

 

optional arguments:

  -h, --help            show this help message and exit

  --nucleic_acid {DNA,RNA,dna,rna}

                        nucleic acid: either DNA or RNA

  --classifier {SVC,kNN,QDA,LR,svc,knn,qda,lr}

                        classifier: SVC, kNN, QDA or LR

  --probas, -p

 

 

実行方法

ウィルスゲノムのfastaファイル、またはplan textを指定する。

viruses_classifier raw_or_FASTA-formatted_sequence_file --nucleic_acid rna --classifier qda
  • --nucleic_acid    nucleic acid: either DNA or RNA
  • --classifier    classifier: SVC, kNN, QDA or LR

出力

$ viruses_classifier virus.fasta --nucleic_acid DNA --classifier qda

phage

 

引用

Host Taxon Predictor - A Tool for Predicting Taxon of the Host of a Newly Discovered Virus
Wojciech Gałan, Maciej Bąk, Małgorzata Jakubowska
Scientific Reports volume 9, Article number: 3436 (2019)