macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

(ヒト向け)8つの異なるバリアントコーラーとデータベースを組み合わせてフィルタリングし、アーティファクトを除きながら高感度なバリアントコールを行う自動パイプライン appreci8

 

 Precision medicine(wiki)は、患者ケアに革命をもたらす。パーソナライズドされた治療戦略は、あらゆる患者に最も適切な治療を提供するためにますます適用されている。ガンを含む遺伝的に関連する疾患に関して個別化医療を実現する重要な側面は、突然変異の正しい決定と解釈である(Ashley、2016; Dey et al、2017)。ここ数年の間に、これは次世代シーケンシング(NGS)によってますます行われている(Park et al、2013)。

 Sangerシーケンシング(Sanger et al、1977)とは異なり、NGSは20%以下のvariant allele frequencies (VAF) を持つ変異を検出する解決策を提供する(Mohamed et al、2014)。さらに、シークエンシングはほんのわずかな時間と費用で済むため(Loman et al、2012)、選択した標的領域や患者の全エクソーム、さらには全ゲノムの解析が可能になる。

 NGSを使用する際は、有効なバリアントコール結果に頼ることができることが不可欠である。理想的には、研究において、そして特に臨床ルーチンにおいても適用される分析パイプラインは、高感度およびhigh positive predictive value(PPV)の両方を特徴としなければならない。しかしながら、全てのNGSプラットフォームは、多かれ少なかれ系統的およびランダムなシーケンシングエラーに悩まされている(Bragg et al、2013; Hoffman et al、2009; Liu et al、2012; Yeo et al、2014)。以前は、Illumina NextSeq、Ion Torrent PGM、およびRoche 454プラットフォームでシーケンスされた骨髄異形成症候群(MDS)の患者数人を含む再シーケンス実験を実施した。これらの実験では、サンプルごとに報告された真の変異とアーティファクトの数にかなりの違いがあることが明らかになった(Sandmann et al、2017)。これらの違いは、同じプラットフォーム上で2つのランを比較するときだけでなく、異なるシーケンシングプラットフォームを比較するときにも観察される。

 MDSを持つ150人以上の患者をカバーする2つのイルミナのデータセット(HiSeqとNextSeq)の分析は、異なるバリアントコーリングツールを考慮すると、バリアントコーリング結果にさらなる違いが予想されることを示した(Sandmann et al、2017)。 NGSデータ用の現在利用可能なすべてのオープンソースのバリアントコールツールを検討した。ただし、43のツールのうち8つのみが、不一致のターゲットシーケンスデータに適用された。これら8つのツールを評価したところ、2つのデータセットに存在するすべての突然変異を検出するのに単一のツールでは成功しなかったことが明らかになった。さらに、どのツールも両方のデータセットに対して sensitivity≥0.95 と PPV ≥0.95を示さなかった。

  我々(著者ら)の観察は、バリアントコールツールを比較した他の研究結果と一致している(Cornish and Guda、2015; Hwang et al、2015; Zook et al、2014)。これらの研究は、低い対立遺伝子頻度においても、高感度と高PPVを伴いながらバリアントを検出できるバリアントコールパイプラインの必要性を指摘している。さらに、パイプラインのパフォーマンスは分析されたデータセットとは無関係であるべきであり、新しい実験の場合の新しいトレーニングデータによる再キャリブレーションを含まず、Muら(2016)(pubmed)により提案された、Sangerシーケンスによる各バリアントコールの検証を含まない。 さらに、適用はnormalのコントロールがなくても可能であるべきであり、これはKalatskayaら(2017)(pubmed)によって指摘されたように一般的なシナリオである。 

 本稿では、appreci8 —a Pipeline for PREcise variant Calling Integrating 8 tools、を提示する。このパイプラインは、8つのオープンソースのバリアントコールツールを統合し、SNVとsmall indelのバリアントコールを自動的に実行する。コールは自動的に正規化され、結合され、新規のアーティファクトスコアと多型スコアに基づいてフィルタリングされる。スコアは、変異を病原性変異、多型、またはアーチファクトのいずれかとして分類する。このツールはあらゆる種類のNGSデータに適用できる。

 我々(著者ら)のパイプラインを訓練するために、著者らは、それぞれイルミナのHiSeqとNextSeqでシーケンスされた165人のMDS患者をカバーする、2組の不一致のターゲットシーケンスデータを分析した。 交差する42322 bpの標的領域が考慮された。 本パイプラインのパフォーマンスは、異なる程度でトレーニングセットとは異なる5つの独立したターゲットシーケンスデータセットを分析することでテストされた[シーケンスプラットフォーム:Illumina HiSeq、HiScanSQ、NextSeqおよびRoche 454; ターゲット領域:42322 - 958547 bp。 疾患:MDSおよび急性骨髄性白血病(AML)]。 真の変種を1%までの対立遺伝子頻度でアーティファクトから分離するAppreci8の能力が評価された。(一部略)

 バリアントコールは、8つの異なるツール、GATK 3.3-0 HaplotypeCaller(DePristo et al、2011)、Platypus 0.8.1(Rimmer et al、2014)、VarScan 2.3.9(Koboldt et al、2012)、 LoFreq 2.1.2(Wilm et al、2012)、FreeBayes 1.0.2(Garrison and Marth、2012)、SNVer 0.5.3(Wei et al、2011)、SAMtools 1.3(Li et al、2009)およびVarDict (Lai et al、2016)で自動的に実行される。コーラーごとに、デフォルトの推奨オプションが使用される。唯一の例外は、FreeBayesとSNVerの場合のVAFしきい値で、これは0.01(デフォルトは0.20、または0.25)に引き下げられる。

 結果として得られる生の出力は、すべてのオフターゲットコールを削除するためにフィルタリングされる。その後、残りのコールは結合され(論文補足セクション4を参照)、SnpEffを使用してアノテーションが付けられる(Cingolani et al、2012)。ユーザーはアノテーションを選択でき、ENSEMBL(Aken et al、2016)またはRefSeq(O’Leary et al、2016)を選べる。さらに、すべての可能な転写産物のアノテーションまたは選択した転写産物のアノテーションのみ任意に報告できる。 (一部略)

 残りのすべてのコールについて、apprec8は最初の特性セットを決定する。The number of reference reads (#REF)、the number of alternate reads (#ALT)、the depth(DP)、およびVAFである。これらの特性は、すべてのリードに対して、また順方向リードと逆方向リードに対して別々に決定される。さらに、mean base quality(PHRED値)のリファレンス用(⁠BQ_ref⁠)および alternate allele(⁠BQ_alt)が決定された。一部のツールでは、ローカルリアライメントの特定の手順が適用されるため、すべてのパラメータは、バリアントコールにすでに使用されているrawアライメントデータに基づいて決定される。決定は(それが真実であるかどうかにかかわらず)、十分なカバレッジがある場合にのみ可能であると仮定して、alternate reads(⁠#ALT⁠)<20、depth(DP)<50またはVAF <1%、を削除する。さらに、BQ_alt <15 またはBQ_diff = BQ_ref - BQ_alt> 7ですべてのコールを削除する (詳細は補足5.1節を参照)。全てのパラメータは、分析されるシーケンシングデータに応じて容易に調整できる。

 最後に、残りのコールについて2組目の特性が決定される。これらには、データベースESP 6500(http://evs.gs.washington.edu/EVS/)、1000ゲノム(The 1000 Genomes Project Consortium、2015)、dbSNP(Sherry et al、2001)(build 138 and build 138 excluding sites after 129)、ExAC(Lek et al、2015)、Cosmic(Forbes et al、2015)(CodingMuts、NonCodingVariants、CompleteExportおよびCompleteExport.fail、17.02.2016)およびClinVar(Landrum)et al、2016)(common and clinical、03.02.2016、common not known medical impact、03.02.2016)の自動チェック結果が含まれる。さらに、Provean 1.1.5(Choi et al、2012)を用いて、対応するタンパク質に対する各バリアントの影響を調べる。

(以下略) 

 

f:id:kazumaxneo:20190512200830p:plain

Overview of the analysis performed by appreci8. 論文より転載。

 

 

インストール

dockerイメージが用意されており、pullするだけで使える。

docker pull wwuimi/appreci8:latest

#スピードアップバージョン
docker pull wwuimi/appreci8:speedup

#gatk4 (Experimental appreci8 version using GATK 4.0.4.0 instead of GATK 3.3.0)
docker pull wwuimi/appreci8:gatk4

 

データベースの準備

GRCh37をリファレンスに使用している。25GBほどある。 

wget https://uni-muenster.sciebo.de/s/784Pyz8lbABLsUu/download 

.rarファイルを解凍して/home/kazu/appreci8/appreci8/に配置した。

 

実行方法

ラン時はbamのあるデータは直接指定せず、bamのあるalignmnetディレクトリを含む上位ディレクトリを指定する。上記で言えばExampleがこれに相当する。Exampleにはラン前に以下のファイルを収納しておく。

f:id:kazumaxneo:20190522120113j:plain

vcf_header.txtはvcfのヘッダー部分だけのファイルで、これはexampleからコピーして使える。またはvariant callしてヘッダだけ抜き出せば使える。

サンプル名はSampleName.txtに記入する。

> cat Example/SampleNames.txt 

$ cat Example/SampleNames.txt 

Test_01

Test_02

bamは/home/kazu/appreci8/appreci8/Example/alignmnet/に収納する。ファイル名はSampleName.txtで指定した名前と同じでないといけない。f:id:kazumaxneo:20190522115235j:plain

 そのほか、targetRegions/にターゲットのbedファイルを用意する(targetRegions.bed)。パネルシーケンスならilluminaなどのHPからキャプチャターゲゲットのbedをダウンロードして配置する。snpEff_annには既知のホットスポット変異を含むリストHotspots.txtと、分析対象の遺伝子および対応するEnsemblトランスクリプトIDを含むリストtranscripts.txtを入れる。Exampleのファイルをそのまま使用してもいいかもしれない。

snpEff_ann/

f:id:kazumaxneo:20190522120754j:plain

 

準備ができたら実行する。ラン時にはデータディレクトリ(ここでは/home/kazu/appreci8/appreci8/Example/)、ダウンロードして解凍したデータベースを指定する。さらに"id -u $USER"でユーザIDを抽出し、それを-eで指定する(rootでないとファイルのアクセス権の関係で編集できないものが出てくる)。

docker run -v /home/kazu/appreci8/appreci8/:/appreci8 -v /home/kazu/appreci8/appreci8/Example/:/data -e LOCAL_USER_ID=`id -u $USER` wwuimi/appreci8

 

様々なツールを順番に実行するため、ターゲットキャプチャのパネルシーケンシングでもランにはかなりの時間がかかる。上記のexampleデータのランには14hほどかかった(*1)。

出力。フィルタリングされたvcfはdocumentsに保存される。

f:id:kazumaxneo:20190516000901j:plain

documents

f:id:kazumaxneo:20190516000859j:plain

フィルタリングごとに異なるvcfとして出力される。最終フィルタリング結果はresults_filtered_V3.txtになる。

results_filtered_V3.txt

f:id:kazumaxneo:20190522125305j:plain

 

パラメータはdefaultで最適化されていますが、変更する場合は著者らの解説を確認してください。

https://hub.docker.com/r/wwuimi/appreci8/

引用

appreci8: a pipeline for precise variant calling integrating 8 tools
Sarah Sandmann, Mohsen Karimi, Aniek O de Graaf, Christian Rohde, Stefanie Göllner, Julian Varghese, Jan Ernsting, Gunilla Walldin, Bert A van der Reijden, Carsten Müller-Tidow Luca Malcovati, Eva Hellström-Lindberg Joop, H Jansen, Martin Dugas
Bioinformatics, Volume 34, Issue 24, 15 December 2018

 

関連

 

 

*1 xeon E5 v4 2680 x 2、128GBメモリマシン使用。