ハッシングは、配列アラインメント、ゲノムおよびトランスクリプトームアセンブリ、 k -mer計数および誤り訂正を含む、多くのバイオインフォマティクスアプリケーションにおける索引付け、照会および迅速類似性検索に広く使用されている。 したがって、ハッシュ操作を迅速化することは、バイオインフォマティクスアプリケーションをより迅速かつ効率的にするために、現場に大きな影響を与えるであろう。 結果 :DNA / RNA配列を処理するために調整されたハッシングアルゴリズムntHashを提示する。 入力シーケンス内の隣接するk -merのハッシュ値を計算する際に最適だろう。典型的なユースケースで最も優れた選択肢よりも1桁高速である。
公式ページ
http://www.bcgsc.ca/platform/bioinfo/software/nthash
インストール
本体は公式、またはGithubからクローンする。
#テストスイートをビルド
git clone https://github.com/bcgsc/ntHash.git
cd ntHash/
./autogen.sh
./configure
make
sudo make install
>nttest
実行方法
ランダムに生成されたデータセットに対して、ブルームフィルタデータ構造を用いた様々なハッシュメソッドの均一性を評価する。genes.faに長さ 5,000,000bpの遺伝子 100個をリファレンスとして格納する。長さ250bpの4,000,000個のリードをクエリとしてファイルreads.faに保存する。32スレッド指定。
nttest --uniformity --input -q4000000 -l250 -t100 -g5000000 -j32 genes.fa reads.fa
- -k the length of k-mer used for runtime test hashing `[50]`
- -h the number of generated hashes for each k-mer `[1]`
- -q number of queries in query file
- -l length of reads in query file
- -t number of sequences in reference file
- -g length of reference sequence
- -i generate random query and reference files
- -j number of threads to run uniformity test `[1]`
- REF_FILE the reference file name
- QUERY_FILE the query file name
引用
ntHash: recursive nucleotide hashing
Mohamadi H, Chu J, Vandervalk BP, Birol I.
Bioinformatics. 2016 Nov 15;32(22):3492-3494.
*version2の論文も公開されています。