macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

(ウィルス) コドンを考慮し、フレームシフトエラーに強いアライメントツール VIRULIGN

 

 多くのウイルス性病原体、特にRNAウイルスは、宿主内および宿主間で急速に進化しており、変化する状態への適応のマーカーがそれらのゲノムにおいて検出され得る(Lemeyら、2006)。ウイルス遺伝子型からの構造、機能および表現型予測は、ウイルス感染の薬物設計、診断および臨床管理の進歩を促進した(論文より Houldcroft et al、2017; PybusおよびRambaut、2009; Theys et al、2015)。ウイルスの遺伝子データは、進化の歴史や能動的な疫学的サーベイランスの推論にも必要不可欠である(Dellicour et al、2018; Hadfield et al、2018; Libin et al、2017)。しかしながら、遺伝子型依存性の適用は、基礎となる配列アライメントの質に強く影響される。

 ウイルス配列をアライメントさせるプロセスは、それらの広範な遺伝的多様性および頻繁な挿入および欠失によってチャレンジングになり、その結果、多数のアラインメントソフトウェアが異なる目的および用途で存在する。近年、ウイルスの集団を研究するためシーケンシングリードをマッピングおよびアセンブルするためのアライナーは、近年著しく進歩している(Posada-Cespedes et al。、2017)。ウィルスコンセンサスまたはサンガーシーケンシングリードをアライメントさせるアルゴリズムは、ペアワイズまたは複数アラインメントをもたらし、時間の経過とともに進歩が少なくなった。しかしながら、そのようなアライメントは、公衆衛生および診断の様々な側面にとって重要である。

 ウイルス遺伝子またはゲノム配列のマルチプルシーケンスアライメント(MSA)は、MAFFT、MUSCLEまたはClustal Omega(Edgar、2004; Katoh and Standley、2013; Sievers et al、2011)などの漸進的反復アプローチによって構築されることが多い。これらの発見的方法は、フレームシフトエラーを緩和する能力が低く、シーケンスデータのノイズに敏感であり得る。これは、タンパク質配列を正しいオープンリーディングフレーム(ORF)で分析する必要がある場合に有害である(例えば系統発生または薬剤耐性変異検出におけるコドン置換モデル使用時)。あるいは、リファレンス配列ガイドでのアラインメントプロセスこれらの制限を克服することができ得る(Tzou et al、2017)。しかしながら、あまりアノテーションされていないリファレンス配列の使用は、アライメントを阻害する。さらに、データセット内の劣った配列はMSA結果に大きな影響を及ぼし、自動拒絶によMSAプロセスを抑制することにより、アライメントの再現性および品質がさらに改善される。

 著書らは、closely relatedなウイルスのタンパク質コード配列のため、高速かつリファレンスガイドかつコドン訂正およびアノテーションを行うツールVIRULIGNを開発した。VIRULIGNはクロスプラットフォームGNU / LinuxUnixMacOSWindows)で使いやすいコマンドラインアプリケーションである。 VIRULIGNは、実験的に示されているように(論文のセクション5参照)、アルゴリズムの計算上の複雑さを分析して(論文のセクション4参照)、計算効率の良い方法で大規模な配列データセットを扱うことができる。単一のORFでは、VIRULIGNのアラインメントアルゴリズムは、遺伝子順序が保存されたclosely relatedなウイルスゲノムを前提に設計されているので、1塩基置換から生じるコドン異常のアライメントを訂正できる。

(以下略)

 

チュートリアル

GitHub - rega-cev/virulign-tutorial

 

f:id:kazumaxneo:20181114162751p:plain

VIRULIGN operates by aligning each target sequence (i.e., t in T) of the input file codon-correctly against the reference sequence (r). Subsequently a multiple sequence alignment MSA(r,T) is constructed based on all codon-correct (cc) pairwise aligned target sequences A_{cc}(r,t). チュートリアルより

 

VIRULIGNに関するツイート

 

インストール

mac os 10.12のanaconda2.4.3環境でテストした。

依存

Github

リリース(link)より実行ファイルをダウンロードする。

>./virulig

$ ./virulign

Usage: virulign [reference.fasta orf-description.xml] sequences.fasta

Optional parameters (first option will be the default):

  --exportKind [Mutations PairwiseAlignments GlobalAlignment PositionTable MutationTable]

  --exportAlphabet [AminoAcids Nucleotides]

  --exportWithInsertions [yes no]

  --exportReferenceSequence [no yes]

  --gapExtensionPenalty doubleValue=>3.3

  --gapOpenPenalty doubleValue=>10.0

  --maxFrameShifts intValue=>3

  --progress [no yes]

  --nt-debug directory

Output: The alignment will be printed to standard out and any progress or error messages will be printed to the standard error. This output can be redirected to files, e.g.:

   virulign ref.xml sequence.fasta > alignment.mutations 2> alignment.err

 

 

テストラン

データの準備

git clone https://github.com/rega-cev/virulign-tutorial.git
cd virulign-tutorial/examples-alignments/DENV/

デングウイルス、ジカウィルス、HIVのデータセットになっている。ここではデングウイルスのデータセットを使い、virulignを実行する。 デングウイルスは1つだけコード領域を持つ(NCBI nucletide)。チュートアリルのデータはDengue Virus Variation Database (link) [Hatcher et al, 2017]の3539のゲノムデータ(全領域)がmulti-fastaで集められている。

 

 virulignのランにはリファレンスfastaとターゲットシーケンシングのfastaを指定する。ユーザー指定の方法(--exportKind)で、リファレンスとデータセットのアライメントが行われる。例えばglobal alignmentモードで実行 (wiki)。

virulign NC_001477.fasta denv-1.fasta --exportKind GlobalAlignment > alignment
  • --exportKind [Mutations | PairwiseAlignments | GlobalAlignment | PositionTable | MutationTable]

アライメントパラメータはオプションをつけることで変更できる。また--exportAlphabet Nucleotides をつけることで、defaultではアミノ酸に翻訳して出力だが、塩基出力に変更できる。

 

またはPairwise Alignmentsモードで実行(それぞれの2配列間でアライメント)

virulign NC_001477.fasta denv-1.fasta --exportKind PairwiseAlignments > alignment

 

変異情報のテーブルを出力

virulign NC_001477.fasta denv-1.fasta --exportKind MutationTable > mutation

#またはmutations
virulign NC_001477.fasta denv-1.fasta --exportKind Mutations > mutation

 

 

XMLを使うとアノテーションができるようですが、genbankXMLは直接扱えず、カスタムXML形式に変換する必要があるようです。そのコマンドも配布されていますが、詳細はチュートリアルで確認して下さい(GitHub - rega-cev/virulign-tutorial)。HIVxmlはreferenceに準備されています。

https://github.com/rega-cev/virulign/tree/master/references

引用

VIRULIGN: fast codon-correct alignment and annotation of viral genomes

Libin P, Deforche K, Abecasis AB, Theys K

Bioinformatics. 2018 Oct 8

参考

チュートリアルでは、別のアライメントツールとも比較して、実行時間、フレームシフトエラーに対する訂正精度を簡単に議論しています。使っているのは、本ツール、mafft、muscle、Clustal Omegaで、以下のようにコマンドを打っています。

#本ツール
virulign NC_001477.fasta denv-1.fasta \
--exportKind GlobalAlignment \
--exportAlphabet Nucleotides > denv-1-virulign.fasta

#mafftの場合
mafft --auto denv-1.fasta > denv-1-mafft.fasta

#muscleの場合
muscle -maxiters 1 -diags -in denv-1.fasta -out denv-1-muscle.fasta

#Clustal Omega の場合
clustalo --auto -i denv-1.fasta -o denv-1-clustalo.fasta