最近のシーケンシング技術とアプリケーションの進歩は、次世代シーケンシング(NGS)のリードをリファレンスゲノムにアラインさせる方法(リードマッピング)の急速な成長につながっている。2015年半ばまでに、100種類近くのマッパーが利用可能になったが、すべてのマッパーが特定のアプリケーションやデータセットに等しく適しているわけではない。可能性のあるオプションの数が多く、また、可能性のあるパラメータ設定の数がさらに多いため、与えられたデータセットに最も適切なマッパーを選択することは困難である。その結果、ほとんどのユーザーは一般的に、最適化されたアプローチと比較して非常に悪い結果になった場合でも、いくつかの一般的なアルゴリズムのうちの1つのデフォルトの最適化されていないパラメータに頼ることになる。これは、カバレッジの低下、突然変異またはヘテロ接合率の低下、対立遺伝子特異的発現の誤った決定、またはその他のアーチファクトなど、その後の解析に大きなバイアスをもたらす可能性がある。
これまでの研究は、特定のシナリオ(例えば、SNPのコール、または特定のシーケンシングマシンからのデータ)または選択された生物のためのマッパーのベンチマークに焦点を当ててきた。これらの調査は、特定の作業のための貴重なリソースではあるが、ほとんどの場合、デフォルトのパラメータとソフトウェアのバージョンのみを使用して実行され、公開される頃には古くなっている可能性がある。さらに重要なことに、これらの評価は、その研究で使用されているデータタイプやゲノムを把握していない場合があり、これらのデータタイプやゲノムは実質的に異なる特性を持っている可能性がある。与えられたマッパーに最適なパラメータ設定を選択するためには、マッパーだけでなくデータに関する深い知識が必要である。これは非常に複雑な作業であり、多くの場合、ソフトウェアのオーサーでさえ、与えられたデータセットに対して自分のソフトウェアを最適化する方法を十分に理解していないことがある。
GCATのようなマッパーとそのパラメータ設定を選択するためのガイダンスを提供する最近の取り組みは、ヒトのデータに焦点を当てている[ref.8]。GCATはヒトゲノムのシミュレーションリードをホストするオンラインリソースで、ユーザーはダウンロードして独自の解析パイプラインを使用して解析することができる。その後、結果をアップロードし、ゴールドスタンダードと比較することができる。解析のパラメータ設定は、コミュニティの利益のために任意で公開されている。しかし、すべての研究者がヒトゲノムを扱うわけではなく、代わりに多くの研究者が、SNP率、エラー率、リード長、リファレンスゲノムの品質、GC含量や反復領域などのリファレンス配列の複雑さなど、ゲノムとリードの特性が著しく異なるという課題に直面しており、これらはすべてマッパーがリードをアラインメントする能力に影響を与えている[ref.3]。例えば、一部のマッパーはヒトのリファレンスゲノムにリードを効率的にマッピングするのに対し、不完全なコンティグや断片化されたコンティグを含むデノボアセンブルゲノムのドラフトに適用した場合、それらのマッパーはあまり適切ではないかもしれない。いずれにしても、マッパーのパラメータの選択はデータの特性に依存する。
ここでは、ユーザが個々の実験のコアとなる特性を考慮して、最適なマッパーとパラメータを決定するのを支援する手法であるTeaserを紹介する。Teaserは、リードデータをシミュレーションし、パラメータ設定のアンサンブルの下で多くの一般的なマッピングツールを実行し、結果を評価して図示する。Teaserは、特にラン固有のエラーモードやシーケンスバイアスなどのシミュレーションが困難な特性を考慮して、本物のNGSリードのマッピングを最適化するために使用することもできる。Teaserの実行時間は短いため、ユーザーは多くの異なるシナリオを評価することができる。さらに、Teaserは非常に柔軟性が高く、以下のようなことが簡単にできる。(1) マッパーのカタログの拡張、(2) マッパーのパラメータのカスタマイズ、(3) 独自のシミュレーションの提供、または設定済みのシミュレーション手法のリストからの選択、(4) マッパーの評価の微調整。Teaserは、正しくマッピングされたリードの割合、1秒あたりの正しくマッピングされたリードの割合、精度とリコール、Fメジャー(精度とリコールの調和平均)、最大メモリ使用量、実行時間など、実験から得られたいくつかの統計情報を提供する。最終的に、Teaserは、一般的なWebブラウザを使用して閲覧できるインタラクティブな数値を含むHTMLベースのレポートを生成する。Teaserは、ウェブアプリケーション(teaser.cibiv.univie.ac.at)、仮想マシンイメージ、スタンドアロン版(github.com/Cibiv/Teaser)としてオープンソースで提供されている。
https://github.com/Cibiv/Teaser/wiki/Web-Browser-Interface
インストール
#build image
docker build -t teaser_git .
#run
docker run -v $(pwd):/teaser -it teaser_git "/usr/bin/teaser_shell.sh"
#test run
./teaser.py example_ecoli.yaml
#サーバーをスタート
./server.py
#dockerhubにイメージも上がっている
docker pull bariso56/teaser
http://teaser.cibiv.univie.ac.at にアクセスする。
example report (link)
bowtie2、BWAの3つのアラインメントコマンド、NGMが使われている。ゲノムは
ヒト、マウス、ショウジョウバエ。
ユーザーがマッパーとゲノムやパラメータを選択して マッパーを動作させ、シミュレーションすることもできます。ただし発表からかなりの時間が経っています。web版は動作しないかもしれません。
Start a mapper benchmarkを選ぶ。
ゲノム、マッパー、ライブラリやマッピング条件、計算リソースの上限使用量などパラメータを指定して進める。
引用
Teaser: Individualized benchmarking and optimization of read mapping results for NGS data
Moritz Smolka, Philipp Rescheneder, Michael C. Schatz, Arndt von Haeseler & Fritz J. Sedlazeck
Genome Biology volume 16, Article number: 235 (2015)