2020 3/8 コメント削除、タイトル修正
公共データベースで利用可能な微生物ゲノムの数は増え続けており、多くのin-silico分析、例えば 一塩基多型の検出、scaffolding、比較ゲノミクス、に必要なリファレンスゲノムの最適な選択がますます困難になってきている。 ここでは、適切なリファレンスゲノムの迅速な決定のために、候補リファレンスゲノムの高速kmerプロファイルベースのデータベース検索とその後の高度に特異的な平均ヌクレオチド同一性(ANI)値の計算を組み合わせた新しいコマンドラインツールReferenceSeekerを紹介する。ReferenceSeekerは、候補リファレンスゲノムの高速kmerプロファイルベースのデータベース検索と、その後の特定の平均ヌクレオチドの計算を組み合わせたスケーラブルな階層的アプローチに従って行われる。RefSeqデータベースに基づいた細菌、古細菌、菌類、原生動物、およびウイルスの事前構築済みデータベースがダウンロード用に提供されている。ReferenceSeekerは、Pythonで実装されたオープンソースソフトウェアである。 ソースコードとバイナリは、GNU GPL3ライセンスでhttps://github.com/oschwengers/referenceseekerから無料でダウンロードできる。
ReferenceSeekerは、クエリゲノムとRefSeqからの潜在的なリファレンスゲノム候補との間のkmerベースのゲノム距離をMash(Ondov et al。2016)を使って計算する。したがって、完全なゲノムまたは「代表的なゲノム」または「参照ゲノム」と記載されているもののみが含まれる。 ReferenceSeekerは、微生物分類群、つまりバクテリア、古細菌、菌類、原生動物、およびウイルスの幅広いスペクトルに対して事前に構築されたデータベースを提供する。得られた候補について、(双方向)ANI計算によってランク付けし、デフォルトのしきい値(ANI> = 95%&保存されたDNA> = 69%)を満たすゲノムを選択する。ANIと保存されたDNA値の両方のを使う理由は、マッシュ距離はclosely relatedなゲノムのANI値とよく相関するが、保存されたDNA値については同じではないということである。 kmerベースのフィンガープリント比較だけでは、たとえばkmerを含むサブシーケンスが欠如しているのか、SNPが原因でkmerが欠落しているかどうかを区別できない。 保存されたDNAの割合(DNAアイデンティティの次に)は、多くの種類の分析にとって非常に重要である。
Ever asked which microbial reference genome to use?
— Oliver Schwengers (@oschwengers1) 2019年12月19日
Just released v1.4 of our tiny tool ReferenceSeeker: mash-boosted (bidirectional) ANI/conserved DNA vs #RefSeq. Available via #bioconda https://t.co/BzrVLW3rbH
インストール
macos10.14にてcondaの仮想環境を作ってテストした(anaconda3(python3.7))。
依存
- Python (3.5.2), Biopython (1.71)
- Mash (2.2) https://github.com/marbl/Mash
- MUMmer (4.0.0-beta2) https://github.com/gmarcais/mummer
本体 Github
#ここでは仮想環境に導入
conda create -n referenceseeker -y
conda activate referenceseeker
conda install -c conda-forge -c bioconda -c defaults referenceseeker -y
> referenceseeker -h
$ referenceseeker -h
usage: referenceseeker [--crg CRG] [--ani ANI] [--conserved-dna CONSERVED_DNA] [--unfiltered] [--bidirectional] [--help] [--version] [--verbose] [--threads THREADS] <database> <genome>
Rapid determination of appropriate reference genomes.
positional arguments:
<database> ReferenceSeeker database path
<genome> target draft genome in fasta format
Filter options / thresholds:
These options control the filtering and alignment workflow.
--crg CRG, -r CRG Max number of candidate reference genomes to pass kmer prefilter (default = 100)
--ani ANI, -a ANI ANI threshold (default = 0.95)
--conserved-dna CONSERVED_DNA, -c CONSERVED_DNA
Conserved DNA threshold (default = 0.69)
--unfiltered, -u Set kmer prefilter to extremely conservative values and skip species level ANI cutoffs (ANI >= 0.95 and conserved DNA >= 0.69
--bidirectional, -b Compute bidirectional ANI/conserved DNA values (default = False)
Runtime & auxiliary options:
--help, -h Show this help message and exit
--version, -V show program's version number and exit
--verbose, -v Print verbose information
--threads THREADS, -t THREADS
Number of used threads (default = number of available CPU cores)
Citation:
Schwengers O., Hain T., Chakraborty T., Goesmann A. (2019)
ReferenceSeeker: rapid determination of appropriate reference genomes.
bioRxiv 863621; doi: https://doi.org/10.1101/863621
https://github.com/oschwengers/referenceseeker
テストラン
git clone https://github.com/oschwengers/referenceseeker.git
cd referenceseeker/tests/
referenceseeker db Salmonella_enterica_CFSAN000189.fasta
出力
#ID Mash Distance ANI Con. DNA Taxonomy ID Assembly Status Organism
GCF_000439415.1 0.00003 100.00 99.55 1173427 complete Salmonella enterica subsp. enterica serovar Bareilly str. CFSAN000189
GCF_002760915.1 0.01000 99.00 89.86 149539 complete Salmonella enterica subsp. enterica serovar Enteritidis 56-3991
GCF_900205275.1 0.01522 98.61 83.13 90370 complete Salmonella enterica subsp. enterica serovar Typhi
mash distance、ANI、taxonomy、complete genomeかどうかなどが表示される。
データベース
https://github.com/oschwengers/referenceseekerから構築済みrefseqゲノムデータベースをダウンロードする。ここではprotozoaを選んだ。
wget https://zenodo.org/record/3562005/files/protozoa.tar.gz?download=1
tar -xvf protozoa.tar.gz?download=1
ゲノムのfastaが収納されたprotozoaディレクトリができる。
実行方法
データベースとゲノムを指定する。
referenceseeker protozoa/ input_genome.fasta --ani 0.95
- --ani ANI threshold (default = 0.95)
- --threads Number of used threads (default = number of available)
引用
ReferenceSeeker: rapid determination of appropriate reference genomes
O. Schwengers, T. Hain, T. Chakraborty, A. Goesmann
bioRxiv, Posted December 19, 2019
2020
Schwengers et al., (2020). ReferenceSeeker: rapid determination of appropriate reference genomes. Journal of Open Source Software, 5(46), 1994, https://doi.org/10.21105/joss.01994