macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

ノーマライズしてVCF間の比較時のバイアスを減らす BAN

 

 Variant Call Format(VCF)は、遺伝的変異および遺伝子型に関する情報を格納するためのタブ区切りのテキスト形式である(論文より Petr et al、2011)。 VCFファイル中の変異のレコードは、リファレンスDNA配列を試料DNAのシーケンスに変換する情報を記憶する。最も簡単な形式では、各バリアントレコードには、リファレンス(POS)に変更を加えなければならない位置と、 リファレンス(REF)に存在するサブシーケンスの2つのサブシーケンスが含まれる。 2つは、サンプルの配列(ALT)を作成するために他の部分配列を置き換える代替の配列である。実際、VCFファイルは、リファレンス配列とサンプル配列との間の関係のテキスト記述であり、一方、参照配列への試料配列のアライメントは、その関係の図式表現である。シーケンスはいくつかの方法で整列できるため、複数のVCFファイルで同じサンプルシーケンスをさまざまな方法で表現できる。そのようなVCFファイルは、異なる種類のバリアントを含んでいても、暗黙的に同等と見なされる。(一部略 論文の図1(リンク)を使った説明)。

 2つのVCFファイルを比較する場合、バリアントの標準化された表現が欠如していることが問題となる。 VCF比較の1つの重要なアプリケーションは、バリアントコールワークフローの評価と査定である(Liu et al、2013; O'Rawe et al、2013; Pirooznia et al、2014)。これらのワークフローは、Mapping、Alignment Filtering、Variant Calling、Variant Filtering(Van der Auwera et al、2013)などのいくつかのプロセスで構成されている。アルゴリズムまたはプロセスで使用されるパラメータに適用される変更は、最終出力VCFファイルに影響する。最終的なVCFファイルは前のすべてのプロセスの精度を反映しているため、最終的なVCFファイルと実際のセットとを比較して、どれほど類似しているかを確認する必要がある。この類似性は、ワークフローの正確性を評価する指標と考えることができる。ただし、VCFファイル内の同じサンプルシーケンスの表現が異なるため、類似性が不明確であり、評価が難しい場合がある。

 異なるVCF比較ツールを使用して2つのVCFファイルを比較すると、比較器は同じ入力ファイルに対して同様の結果を出力することが期待されるが、各VCFファイルの何百万ものバリエーションを持つ実際のデータに暗黙的な等価性(図1のものなど)が存在するため、全一致する結果はめったに得られない。コンパレータ(comparators: 比較水準器)は、2つのバリアントセット(または2つの個別のバリアント)が同等かどうかを判断するために異なる基準を検討するため、VCFファイル間のさまざまな同値数を識別する。まったく同じセットのバリアントが表されている場合、すべての比較プログラムがそれらを識別して同様に報告する。したがって、セクション3で説明したメトリックを使用してさまざまなVCF比較ツールの出力間の不一致を測定することによって、入力VCFファイルがどれだけ正常に正規化されるかを判断できる。VCFファイルが正常に正規化されれば、暗黙の等価性がより少ない場合、低い不一致が観察される。特定のVCF正規化方法で正規化された数組のVCFファイルを比較すると、比較器間の平均不一致は、その特定のVCF正規化方法の有効性を示す。この論文では、Best Alignment Normalization(BAN)と呼ばれる新しいVCF正規化手順が導入され、これまで文献で提案されている正規化手順と比較して不一致は著しく低くなっていた。

 

 

 Variant Call Format(VCF)は、変異に関するデータを保存するために広く使用されている。バリアントコールのワークフローは、ショートリードシーケンスからの潜在的な変異を検出し、それらをVCF形式で報告する。バリアントの呼び出し元の精度を評価するには、標準のバリエーションセットを含む参照VCFファイルと出力を正しく比較することが重要になる。しかしながら、VCFファイルの比較は、個々のゲノム変異体をいくつかの異なる方法で表すことができ、また異なるソフトウェアによって独自の方法で報告されるとは限らないため、複雑な作業である。
 この論文では、より正確なVCFファイルの比較をもたらすBest Alignment Normalization(BAN)と呼ばれるVCF正規化方法を紹介している。 BANは、VCFファイルのすべてのバリエーションをリファレンスゲノムに適用してサンプルゲノムを作成し、このサンプルゲノムをリファレンスゲノムにアライメントして変異を再コールする。BANの目的は、VCF比較時に正確な結果を得ることであるため、異なるVCF比較器の出力間の不一致が少なくなるように、より良い正規化方法を定義する。

 

公式ページ

https://sites.google.com/site/banadf16/

 

Start Guide Video & How to run BAN

 

インストール

ダウンロードするには、右上のダウンロードアイコンをクリックする。

https://drive.google.com/file/d/0B-5UdOXcwlPcYWgweHhDNHJQRTA/view

マニュアルPDFもダウンロードされる。 

#解凍
tar -xvf BANv1.tar

ban.shを開き、各コマンドのパスを修正する。Bioperlとmummer2vcf_m.plはダウンロードに含まれている。以下のようにした。

f:id:kazumaxneo:20180413224946j:plain

 >  bam.sh

ban.sh

 

 

======================================

Best Alignment Normalization (BAN)

======================================

Command:               

Input fasta file name: 

Input VCF file name:   

Normalization with available phasing (Input VCF must be phased)

======================================

 

 

USAGE:

Program prep/hap/dip ref.fasta input.vcf R/P

 

 

ラン 

はじめにリファレンスのindexを作成する。.dictとfasta.faiができる。picardとsamtoolsで作ってもよい。

ban.sh prep refrence.fasta

 

haploidのVCFをノーマライズする。

ban.sh hap reference.fasta input.vcf

解析が終わると、VCFにしたがって修正されたリファレンスゲノム、正規化されたVCF、正規化されたVCFにしたがって修正されたリファレンスゲノム、そして2つの修正されたリファレンスゲノムをmummerツールの1つnucmerで比較したファイルが出力される(manual PDFにも少し記載されている。) 。

オリジナルのVCFと正規化したVCFに全く違いがなければ、最後の比較ファイルの出力はゼロバイトになる。

 

 diploidのVCFをノーマライズする。

ban.sh dip reference.fasta input.vcf

 

引用

Improved VCF normalization for accurate VCF comparison.

Bayat A, Gaëta B, Ignjatovic A, Parameswaran S

Bioinformatics. 2017 Apr 1;33(7):964-970.