macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

   アンプリコンシーケンスのエラー率を見積もり変異を検出する NGS-eval

 

 微生物遺伝マーカー(MGMs)は、系統分類およびtaxonomy分析で広く使用されている遺伝子または他のDNA配列である。そのような分析に適したMGMsの特性は、比較的保存された配列組成(論文より ref.2)と同様に、種を越えたそれらの普遍的な存在である。真核生物のために最も一般的に使用されるMGMには、内部転写されたスペーサー領域(ref.3)および18SリボソームRNA(rRNA)遺伝子(ref.4)、ならびに原核生物の場合、16Sおよび23S rRNA遺伝子間のスペーサー領域とこれらの遺伝子そのものとなる(ref.6)。MGMのクローニングと(部分的な)配列決定に頼っていた初期の研究では制限が多かったが、最近のNGS技術は、海水(ref.9)および土壌(ref.10)などの微生物群集の環境サンプルおよび他のサンプルのコミュニティ構造を決定するための標準的な方法となった(一部略)。

 MGM(19,20,27)のために特別に開発されたものを含む、ハイスループットシーケンシングデータ(ref.26)のエラー訂正を行う多数のツールが存在する。しかし、エラー率計算の方法は限られているだけである。 オーサーらの知る限りでは、MGMのリードを使いシークエンシングエラーを推定するために現在利用できる唯一の計算ツールはmothur(29)のseq.errorコマンドだけである。このツールでは、マーカー遺伝子(例えば、16S rDNA)配列にアライメントされる。次に、重なり合う領域に入らないリードの先頭と末尾はアーチファクトとみなされ、エラー率推定前にトリミングされる。これは望ましくない影響をもたらす可能性がある。視覚化は提供されていないので、エラー率を洞察することは困難である。

 変異型のコールおよび一塩基多型発見(ref.30〜32)のための既存の方法が存在する。しかし、これらのツールは、全ゲノムショットガンデータを用いた単一生物研究における希少変異体の重要性を決定することに主に焦点を当てている。ここでは、著者らの目的は異なる。著者らは、エラー率に影響を及ぼす可能性のある微生物群集試料中のMGMの共通の変異体を探している(まれな変種は通常、エラー率の精度に影響しないことに注意する)。開発されたNGS-evalは、各参照配列上のエラーの頻度を視覚化することによって共通変異体の同定を容易にする。これにより、ユーザはこの頻度を予想されるエラー率と比較し、変異体配列の存在に起因するのかどうかを判定することが可能になる。

 WebサーバーNGS-evalは、リードとそのリファレンス配列の違いを探り新しい変異を検出する。本ツールは環境シーケンシングの分野で最も適しているが、あらゆる種類のマーカーベースのシーケンシング出力にも使用できる。

 

 

マニュアル

http://ibi.vu.nl/programs/ngsevalwww/info.php

  

webサーバーでできることは以下のように説明されている。

  • アンプリコンシーケンスの変異体を見つけ、シークエンシングエラー率を計算する。そのために参照配列とサンプルを入力する必要がある。
  • 参照シーケンスごとにエラーデータを対話形式でプロットする。
  • プロットやデータをエクスポートしたり、データをダウンローできる。
  • シーケンスエラーのデータをダウンロードする。
  • コンセンサス配列(リファレンスとアンプリコンベースのNGSリードから計算される)をダウンロードする。

 

ラン

webサーバーが提供されている。

f:id:kazumaxneo:20180320181950j:plain

参照配列とNGSデータを指定する。NGSデータはペアエンドのfastqのどちらかを指定するが、interlace形式でも対応している。NGSの全データは解析できないので、ランダムサンプリングしてgzで圧縮し、合計1-20MBのファイルサイズになるようにする。フォワードおよびリバースプライマーを記載すれば、in silico PCRを使用してリファレンスをトリミングできる。
Truncation lengthを指定すれば、参照配列)は指定された長さに切り捨てられる。

 

 

ランの進捗はプログレスバーで表示される。

f:id:kazumaxneo:20180320180814j:plain

出力はInteractive graphsとdownloadできるファイルの2種類がある。Interactive graphsでは、カバレッジ、変異などを分析できる。Logarithmic scaleにチェックをいれておけばY軸がlog表示になり、弱い変異も見やすくなる。

挿入と欠失を表示。

f:id:kazumaxneo:20180320210327j:plain

塩基置換を表示。

f:id:kazumaxneo:20180320210408j:plain

 一番下のdownloadのデータでは、シーケンスエラー頻度の詳細や、コンセンサス配列のレポートも入手できる。

 

引用

NGS-eval: NGS Error analysis and novel sequence VAriant detection tooL.

May A, Abeln S, Buijs MJ, Heringa J, Crielaard W, Brandt BW.

Nucleic Acids Res. 2015 Jul 1;43(W1):W301-5.