macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

大量のサンガーシーケンスやfastqを自動でクオリティフィルタリングする臨床向けツール ClinQC

 

ClinQCは、SangerおよびNGSシーケンシングデータの品質管理、フィルタリングおよびトリミングの統合パイプライン。臨床研究で数百から数千のサンプル/患者に対する サンガーのシーケンシングとNGSデータを分析し、サンプル/患者ごとに統一された分析レポートを出力する。一度に大量のサンプル(illumina、サンガー、pacbioなど)を解析して、結果を統合して出力できるのが本ツールの特徴といえる。

まず、ClinQCは、入力ファイルをFASTQフォーマットに変換し、アダプターとPCRプライマーを除去する。 次に、バーコード化されたサンプルを分離し、重複をフィルタリング、コンタミネーションおよび低品質のシーケンスを生成し、QCレポートを生成する。

 

マニュアル

https://sourceforge.net/p/clinqc/wiki/ClinQC_Manual/

 

ダウンロード

依存

Dockerイメージでも提供されている。ここではDockerイメージをダウンロードしてランする。

Dockerイメージのダウンロード 

https://sourceforge.net/p/clinqc/wiki/Virtual_Machine/

分かりにくいがリンク先のウィンドウ内左上 "Download ClinQC VM"をクリック。VirtualBoxを持ってない人は、ClunQCのマニュアルに従いOracle VM VirtualBoxと Extension Packを導入しておく。

 

立ち上げる(起動前に、余裕があればメモリとCPUの数は増やしておく)。

f:id:kazumaxneo:20180223214609j:plain

cd ~/ClinQC_v1.0

 

 

ラン

 configファイルに従い解析が行われる。コンフィグファイルとして、ClinQCOptions_Sanger、ClinQCOptions_NGS、ClinQCOptions_NGS_pacbioが用意されている。

また、サンプルの情報が記載されたターゲットファイルもランには必要となる。テストではsanger_target_file.txtとなっている。テストのsanger、illumina、pacbioそれぞれに保存されている。下のようなフォーマットとなる。

f:id:kazumaxneo:20180223223008j:plain

右端から2番目のカラムにサンガーシーケンスデータのパスが記載されている。

 

テストのサンガーシーケンスデータを解析する。

./clinqc --option-file ClinQCOptions_Sanger

テストでは2検体の解析となる。ME9は5、MEN1は36のサンガーシーケンスの統合結果となる。

f:id:kazumaxneo:20180223223919j:plain

 ME9のクオリティフィルタリング前。クオリティはつかない。

f:id:kazumaxneo:20180223224153j:plain

クオリティフィルタリング後。

f:id:kazumaxneo:20180223225317j:plain

fastqで配列も出力される。

f:id:kazumaxneo:20180223225448j:plain

 

引用

ClinQC: a tool for quality control and cleaning of Sanger and NGS data in clinical research.

BMC Bioinformatics. 2016 Feb 2;17:56. 

Pandey RV, Pabinger S, Kriegner A, Weinhäusel A.