次世代シーケンシングにより、シーケンシングエラーの処理を含む多くの課題が発生する大規模なゲノムデータセットが利用可能になった。これは特にガンゲノミクスに関連する。循環腫瘍DNAからの低い対立遺伝子頻度変動を検出するために使用される。ユニークな分子識別子(UMI)を有するDNA分子のバーコードタグは、シークエンシングエラーを緩和しようと試みる。 UMIタグ分子のPCRコピーは独立にシーケンシングされる。しかしながら、PCRおよびシークエンシングプロセスではエラーを生成し得る。 UMIタグ付きシーケンシングデータを分析するには、同じUMIタグ分子のPCR duplicatesからシーケンシングされたリードを単一のクラスターにグループ化することを目的とした初期クラスタリングステップが必要であり、現在のデータセットのサイズにはこのクラスタリングプロセスがリソース効率が必要である。
結果
イルミナのような置換エラーがドミナントなシーケンシングプラットフォームによって生成されたUMIタグ付きシークエンシング実験からのペアエンドリードをクラスタリングする計算ツールであるCalibを紹介する。 Calibでのクラスタは、バーコードの類似性とリードシーケンス類似性の両方で定義されているエッジにより連結したグラフとして定義される。グラフは、 locality sensitive hashingとMinHashingテクニックを使用して効率的に構築される。 Calibのデフォルトのクラスタリングパラメータは、Calibとパッケージ化されたシミュレーションモジュールを使用して、UMIとリード長が異なるため、経験的に最適化されている。他のツールと比較して、Calibは、妥当なランタイムとメモリフットプリントを維持しながら、シミュレートされたデータに対して最高の精度を実現する。実際のデータセットでは、Calibはアライメントベースの方法よりもはるかに少ないリソースで実行され、そのクラスターは下流のコールで偽陽性の数を減らす。
calibに関するツイート
インストール
mac os10.14のminiconda2-4.0.5環境でテストした。
依存
- pyfaidx
- numpy
- scipy
- scikit-learn
- biopython
- pandas
- ART Illumina (version 2.5.8)
本体 GIthub
git clone https://github.com/vpc-ccg/calib.git calib
cd calib
#To install Calib clustering module:
make
#To install Calib error correction module:
make -C consensus/
cd ..
> calib
$ calib
Barcode length must be a positive integer!
Calib: Clustering without alignment using LSH and MinHashing of barcoded reads
Usage: calib [--PARAMETER VALUE]
Example: calib -f R1.fastq -r R2.fastq -o my_out. -e 1 -l 8 -m 5 -t 2 -k 4 --silent
Calib's paramters arguments:
-f --input-forward (type: string; REQUIRED paramter)
-r --input-reverse (type: string; REQUIRED paramter)
-o --output-prefix (type: string; REQUIRED paramter)
-s --silent (type: no value; default: unset)
-q --no-sort (type: no value; default: unset)
-l --barcode-length (type: int; REQUIRED paramter)
-p --ignored-sequence-prefix-length (type: int; REQUIRED paramter)
-m --minimizer-count (type: int; REQUIRED paramter)
-k --kmer-size (type: int; REQUIRED paramter)
-e --error-tolerance (type: int; REQUIRED paramter)
-t --minimizer-threshold (type: int; REQUIRED paramter)
-c --threads (type: int; default: 1)
-h --help
実行方法
ペアエンドのfastqとUMIタグの長さを指定する。
calib -f pair_1.fq -r pair_2.fq -l <barcode_tag_length> -o output
タグの長さは、ペアエンドの1つのメイトのバーコードタグ長を記載する。
他にもPCRサイクルによるエラー導入をシミュレートするツールなどが付属しています。
引用
Alignment-free clustering of UMI tagged DNA molecules
Baraa Orabi Emre Erhan Brian McConeghy Stanislav V Volik Stephane Le Bihan Robert Bell Colin C Collins Cedric Chauve Faraz Hach
Bioinformatics, bty888, Published: 23 October 2018
関連ツール