macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

UMIタグつきraw シーケンシングリードをクラスタリングする calib

 

 次世代シーケンシングにより、シーケンシングエラーの処理を含む多くの課題が発生する大規模なゲノムデータセットが利用可能になった。これは特にガンゲノミクスに関連する。循環腫瘍DNAからの低い対立遺伝子頻度変動を検出するために使用される。ユニークな分子識別子(UMI)を有するDNA分子のバーコードタグは、シークエンシングエラーを緩和しようと試みる。 UMIタグ分子のPCRコピーは独立にシーケンシングされる。しかしながら、PCRおよびシークエンシングプロセスではエラーを生成し得る。 UMIタグ付きシーケンシングデータを分析するには、同じUMIタグ分子のPCR duplicatesからシーケンシングされたリードを単一のクラスターにグループ化することを目的とした初期クラスタリングステップが必要であり、現在のデータセットのサイズにはこのクラスタリングプロセスがリソース効率が必要である。
結果
 イルミナのような置換エラーがドミナントなシーケンシングプラットフォームによって生成されたUMIタグ付きシークエンシング実験からのペアエンドリードをクラスタリングする計算ツールであるCalibを紹介する。 Calibでのクラスタは、バーコードの類似性とリードシーケンス類似性の両方で定義されているエッジにより連結したグラフとして定義される。グラフは、 locality sensitive hashingとMinHashingテクニックを使用して効率的に構築される。 Calibのデフォルトのクラスタリングパラメータは、Calibとパッケージ化されたシミュレーションモジュールを使用して、UMIとリード長が異なるため、経験的に最適化されている。他のツールと比較して、Calibは、妥当なランタイムとメモリフットプリントを維持しながら、シミュレートされたデータに対して最高の精度を実現する。実際のデータセットでは、Calibはアライメントベースの方法よりもはるかに少ないリソースで実行され、そのクラスターは下流のコールで偽陽性の数を減らす。

 

calibに関するツイート


インストール

mac os10.14のminiconda2-4.0.5環境でテストした。

依存

本体 GIthub

git clone https://github.com/vpc-ccg/calib.git calib
cd calib

#To install Calib clustering module:
make

#To install Calib error correction module:
make -C consensus/
cd ..

 > calib

$ calib 

Barcode length must be a positive integer!

Calib: Clustering without alignment using LSH and MinHashing of barcoded reads

Usage: calib [--PARAMETER VALUE]

Example: calib -f R1.fastq -r R2.fastq -o my_out. -e 1 -l 8 -m 5 -t 2 -k 4 --silent

Calib's paramters arguments:

-f --input-forward                 (type: string;   REQUIRED paramter)

-r --input-reverse                 (type: string;   REQUIRED paramter)

-o --output-prefix                 (type: string;   REQUIRED paramter)

-s --silent                        (type: no value; default: unset)

-q --no-sort                       (type: no value; default:  unset)

-l --barcode-length                (type: int;      REQUIRED paramter)

-p --ignored-sequence-prefix-length (type: int;      REQUIRED paramter)

-m --minimizer-count               (type: int;      REQUIRED paramter)

-k --kmer-size                     (type: int;      REQUIRED paramter)

-e --error-tolerance               (type: int;      REQUIRED paramter)

-t --minimizer-threshold           (type: int;      REQUIRED paramter)

-c --threads                       (type: int;      default: 1)

-h --help

 

実行方法

ペアエンドのfastqとUMIタグの長さを指定する。

calib -f pair_1.fq -r pair_2.fq -l <barcode_tag_length> -o output

タグの長さは、ペアエンドの1つのメイトのバーコードタグ長を記載する。

 

他にもPCRサイクルによるエラー導入をシミュレートするツールなどが付属しています。

引用

Alignment-free clustering of UMI tagged DNA molecules

Baraa Orabi Emre Erhan Brian McConeghy Stanislav V Volik Stephane Le Bihan Robert Bell Colin C Collins Cedric Chauve Faraz Hach

Bioinformatics, bty888, Published: 23 October 2018

 

関連ツール