macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

DNAバーコード間の距離を計算する DiStats

 

ドイツ・バーコード・オブ・ライフ・キャンペーンの一環として、3500以上のクモ形類標本が収集され、分析された。これはドイツで記録されているクモ相の約60%、ハルクモ相の70%以上に相当する。圧倒的多数の種がDNAバーコーディングによって容易に同定できた。最も近い種間の距離の中央値はクモで約9%、ハ虫類で約13%で、95%のケースで種内距離はそれぞれ2.5%と8%以下であり、種内中央値は0.3%と0.2%であった。しかし、20種近くのクモ、特にリュウグウノツカイ科のクモはDNAバーコーディングでは分離できなかった(多くのクモは明確な形態的差異を示すが)。また、顕著に高い種間距離がさらに多くのケースで見つかり、いくつかのケースでは隠蔽種を示唆した。新しいプログラムを紹介する: DiStatsはDNAバーコードのリリース基準を満たすために必要な統計量を計算する。さらに、幅広い分類群(クモ類以外も含む)に有用な新しい汎用COIプライマーが紹介されている。

 

DiStatsは入力FASTAファイル中の全配列の距離統計量を計算する。

 

HP

https://bonn.leibniz-lib.de/en/research/research-centres-and-groups/distats

 

インストール

標準のperlライブラリで動作する。

Github

https://github.com/mptrsen/distats

git clone https://github.com/mptrsen/distats.git
cd distats/
perl distats.pl

> perl distats.pl

$ perl distats.pl 

 

USAGE: perl distats.pl [OPTIONS] FASTA_FILE (.fasta) OUTPUTFILE (.txt or .csv)

Options:

  --real_values   original results with endless decimal places, no option: results in percent with two decimal places

  --distance=X    use different distance matrix X. Possible values are 'p' and 'k2p'. Default: 'p'

  --num_threads=N use N threads for calculating the distance matrix

  --nosubspecies  do not treat subspecies as separate species; they are merged into one species

  --print_dist_matrix print distance matrix into a file

 

 

実行方法

multi-fastaファイルと出力ファイル名を指定する。配列は、前もって整列された同じ長さの塩基配列アラインメントを含むFASTAファイルでないといけない。

ヘッダーは以下のフォーマットでなければならない: >Genus_species|Sequence0001、すなわち、最初に属名と種名をアンダースコアで区切り、パイプの後に一意な配列識別子(ユニークな通し番号など)が必要。

>Drosophila_melanogaster|Sequence0001
ctctatatttaatatttggggtttggtcagctataatagggactgctataagagtattaa
ttcgaatagaattaggaaatcctgggagattgttaggagatgatcatttatataatgtta
tagttactgctcatgcttttgtaataattttttttatagtaataccaattcttattggag
>Drosophila_yakuba|Sequence0002
ctttatatttaatatttggggtttggtcagctataatagggactgctataagagtattaa
ttcgaatagaattaggaaatcctgggagattgttacgagatgatcatttatataatgtta
tagttactgctcatgcttttgtaataattaattttatagtaataccaattcttattggag

 

準備ができたら実行する。

perl distats.pl input.fasta output

デフォルトでは、DiStatsはp距離を計算し、結果を小数点以下2桁のパーセント値で表に表示する。

 

論文より

  • このスクリプトは、各生物種の統計情報を含む表と、オプションでデータセット内のすべてのペアワイズ距離のマトリックスを生成する。
  • 1000個のCOIバーコード配列を含むアラインメントの場合、シングルスレッド(3.4GHzのプロセッサー)で解析すると約6分かかる。DiStatsのアルゴリズム複雑度(O)は約O(n2)であり、これは入力配列数(n)に応じて実行時間が指数関数的に増加することを意味する。

引用

Towards a DNA Barcode Reference Database for Spiders and Harvestmen of Germany

Jonas J. Astrin , Hubert Höfer , Jörg Spelda , Joachim Holstein , Steffen Bayer, Lars Hendrich, Bernhard A. Huber, Karl-Hinrich Kielhorn, Hans-Joachim Krammer, Martin Lemke, Juan Carlos Monje, Jérôme Morinière, Björn Rulik, Malte Petersen, Hannah Janssen, Christoph Muster

PLOS ONE, Published: September 28, 2016