塩基をハッシング（ハッシュ化）する ntHash

ハッシングは、配列アラインメント、ゲノムおよびトランスクリプトームアセンブリ、 k -mer計数および誤り訂正を含む、多くのバイオインフォマティクスアプリケーションにおける索引付け、照会および迅速類似性検索に広く使用されている。したがって、ハッシュ操作を迅速化することは、バイオインフォマティクスアプリケーションをより迅速かつ効率的にするために、現場に大きな影響を与えるであろう。結果：DNA / RNA配列を処理するために調整されたハッシングアルゴリズムntHashを提示する。入力シーケンス内の隣接するk -merのハッシュ値を計算する際に最適だろう。典型的なユースケースで最も優れた選択肢よりも1桁高速である。

公式ページ

http://www.bcgsc.ca/platform/bioinfo/software/nthash

インストール

本体は公式、またはGithubからクローンする。

Github

#テストスイートをビルド
git clone https://github.com/bcgsc/ntHash.git
cd ntHash/
./autogen.sh
./configure
make
sudo make install

>nttest

実行方法

ランダムに生成されたデータセットに対して、ブルームフィルタデータ構造を用いた様々なハッシュメソッドの均一性を評価する。genes.faに長さ 5,000,000bpの遺伝子 100個をリファレンスとして格納する。長さ250bpの4,000,000個のリードをクエリとしてファイルreads.faに保存する。32スレッド指定。

nttest --uniformity --input -q4000000 -l250 -t100 -g5000000 -j32 genes.fa reads.fa

-k the length of k-mer used for runtime test hashing `[50]`
-h the number of generated hashes for each k-mer `[1]`
-q number of queries in query file
-l length of reads in query file
-t number of sequences in reference file
-g length of reference sequence
-i generate random query and reference files
-j number of threads to run uniformity test `[1]`
REF_FILE the reference file name
QUERY_FILE the query file name

引用

ntHash: recursive nucleotide hashing

Mohamadi H, Chu J, Vandervalk BP, Birol I.

Bioinformatics. 2016 Nov 15;32(22):3492-3494.

*version2の論文も公開されています。

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

塩基をハッシング（ハッシュ化）する ntHash