macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

ベストマッチするリファレンスゲノムを探す ReferenceSeeker

2020 3/8 コメント削除、タイトル修正

 

 公共データベースで利用可能な微生物ゲノムの数は増え続けており、多くのin-silico分析、例えば 一塩基多型の検出、scaffolding、比較ゲノミクス、に必要なリファレンスゲノムの最適な選択がますます困難になってきている。 ここでは、適切なリファレンスゲノムの迅速な決定のために、候補リファレンスゲノムの高速kmerプロファイルベースのデータベース検索とその後の高度に特異的な平均ヌクレオチド同一性(ANI)値の計算を組み合わせた新しいコマンドラインツールReferenceSeekerを紹介する。ReferenceSeekerは、候補リファレンスゲノムの高速kmerプロファイルベースのデータベース検索と、その後の特定の平均ヌクレオチドの計算を組み合わせたスケーラブルな階層的アプローチに従って行われる。RefSeqデータベースに基づいた細菌、古細菌、菌類、原生動物、およびウイルスの事前構築済みデータベースがダウンロード用に提供されている。ReferenceSeekerは、Pythonで実装されたオープンソースソフトウェアである。 ソースコードとバイナリは、GNU GPL3ライセンスでhttps://github.com/oschwengers/referenceseekerから無料でダウンロードできる。

 

 ReferenceSeekerは、クエリゲノムとRefSeqからの潜在的なリファレンスゲノム候補との間のkmerベースのゲノム距離をMash(Ondov et al。2016)を使って計算する。したがって、完全なゲノムまたは「代表的なゲノム」または「参照ゲノム」と記載されているもののみが含まれる。 ReferenceSeekerは、微生物分類群、つまりバクテリア古細菌、菌類、原生動物、およびウイルスの幅広いスペクトルに対して事前に構築されたデータベースを提供する。得られた候補について、(双方向)ANI計算によってランク付けし、デフォルトのしきい値(ANI> = 95%&保存されたDNA> = 69%)を満たすゲノムを選択する。ANIと保存されたDNA値の両方のを使う理由は、マッシュ距離はclosely relatedなゲノムのANI値とよく相関するが、保存されたDNA値については同じではないということである。 kmerベースのフィンガープリント比較だけでは、たとえばkmerを含むサブシーケンスが欠如しているのか、SNPが原因でkmerが欠落しているかどうかを区別できない。 保存されたDNAの割合(DNAアイデンティティの次に)は、多くの種類の分析にとって非常に重要である。

 


 

インストール

macos10.14にてcondaの仮想環境を作ってテストした(anaconda3(python3.7))。

依存

本体 Github

#ここでは仮想環境に導入
conda create -n referenceseeker -y
conda activate referenceseeker
conda install -c conda-forge -c bioconda -c defaults referenceseeker -y

> referenceseeker -h

$ referenceseeker -h

usage: referenceseeker [--crg CRG] [--ani ANI] [--conserved-dna CONSERVED_DNA] [--unfiltered] [--bidirectional] [--help] [--version] [--verbose] [--threads THREADS] <database> <genome>

 

Rapid determination of appropriate reference genomes.

 

positional arguments:

  <database>            ReferenceSeeker database path

  <genome>              target draft genome in fasta format

 

Filter options / thresholds:

  These options control the filtering and alignment workflow.

 

  --crg CRG, -r CRG     Max number of candidate reference genomes to pass kmer prefilter (default = 100)

  --ani ANI, -a ANI     ANI threshold (default = 0.95)

  --conserved-dna CONSERVED_DNA, -c CONSERVED_DNA

                        Conserved DNA threshold (default = 0.69)

  --unfiltered, -u      Set kmer prefilter to extremely conservative values and skip species level ANI cutoffs (ANI >= 0.95 and conserved DNA >= 0.69

  --bidirectional, -b   Compute bidirectional ANI/conserved DNA values (default = False)

 

Runtime & auxiliary options:

  --help, -h            Show this help message and exit

  --version, -V         show program's version number and exit

  --verbose, -v         Print verbose information

  --threads THREADS, -t THREADS

                        Number of used threads (default = number of available CPU cores)

 

Citation:

Schwengers O., Hain T., Chakraborty T., Goesmann A. (2019)

ReferenceSeeker: rapid determination of appropriate reference genomes.

bioRxiv 863621; doi: https://doi.org/10.1101/863621

 

GitHub:

https://github.com/oschwengers/referenceseeker

 

テストラン

git clone https://github.com/oschwengers/referenceseeker.git
cd referenceseeker/tests/
referenceseeker db Salmonella_enterica_CFSAN000189.fasta

出力

#ID Mash Distance ANI Con. DNA Taxonomy ID Assembly Status Organism

GCF_000439415.1 0.00003 100.00 99.55 1173427 complete Salmonella enterica subsp. enterica serovar Bareilly str. CFSAN000189

GCF_002760915.1 0.01000 99.00 89.86 149539 complete Salmonella enterica subsp. enterica serovar Enteritidis 56-3991

GCF_900205275.1 0.01522 98.61 83.13 90370 complete Salmonella enterica subsp. enterica serovar Typhi

mash distance、ANI、taxonomy、complete genomeかどうかなどが表示される。

 

データベース

https://github.com/oschwengers/referenceseekerから構築済みrefseqゲノムデータベースをダウンロードする。ここではprotozoaを選んだ。

wget https://zenodo.org/record/3562005/files/protozoa.tar.gz?download=1
tar -xvf protozoa.tar.gz?download=1

ゲノムのfastaが収納されたprotozoaディレクトリができる。

 

実行方法

データベースとゲノムを指定する。

referenceseeker protozoa/ input_genome.fasta --ani 0.95
  • --ani   ANI threshold (default = 0.95)
  • --threads    Number of used threads (default = number of available)

 

引用

ReferenceSeeker: rapid determination of appropriate reference genomes

O. Schwengers, T. Hain, T. Chakraborty, A. Goesmann

bioRxiv, Posted December 19, 2019