macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

細菌性髄膜の原因バクテリア種をFASTA配列から検出するBMScan

 

 毎年世界で120万件が発生すると推定される細菌性髄膜炎(bacterial meningitis)は、公衆衛生上の懸念事項として残る、生命を脅かす感染症である [論文より ref.1]。数多くの病原体が細菌性髄膜炎を引き起こす可能性があり、病原体あたりの致命率や病気の有病率は地域、国、年齢によって異なる[ref.2]。細菌性髄膜炎は、一般に髄膜炎菌、肺炎連鎖球菌、リステリア菌、ヘモフィルスインフルエンザ菌および大腸菌によって引き起こされる[ref.3]。髄膜炎を引き起こすバクテリア種の同定は、症例管理および疾病監視のための重要なステップである。

 種を同定する古くからの標準はDNA-DNAハイブリダイゼーション(DDH)であり、これは2つの生物の間の距離を計算するためにDNAプール間の配列類似性に依存する技術である。 DDHでは、同種比較の伝統的なカットオフ値は70%と決定された[ref.4 link]。この方法の複雑さのために、細菌の表現型の特徴をターゲットにした種の同定方法が研究室の方法として開発されている。特定の種を確認するためには、しばしば複数の表現型を捉える方法が必要とされる。

 ゲノムデータの生成が容易になるにつれて、全ゲノム配列決定(WGS)ベースのツールが開発されており、代表的なゲノムのコレクションとの比較で種同定を行う動きが加速している。ゲノムデータが手に入ることで、それを下流の分析に利用できるという追加の利点も出てくる。これらのWGSベースの比較ツールの1つは、2つのゲノム間の相同なヌクレオチド断片を比較することによってゲノム類似性を評価するAverage Nucleotide Identity (ANI)である[ref.5]。 ANIは、原核生物種同定のためのゴールデンスタンダードな全ゲノムメソッドであると考えられている[ref.6]。 95%ANIは70%DDHに匹敵すると報告されている[ref.7]。 ANIの2つの一般的な実装は、それぞれBLASTアルゴリズム[ref.8]とMUMmerメソッド[ref.9]を使用するANI BLAST(ANIb)とANI MUMmer(ANIm)である。これらのANI法はゲノム間の遺伝的類似性を評価するための高レベルの分解能を提供するが、トレードオフは長い計算時間であり、大きなリファレンスコレクションに対して複数のゲノムをスキャンすることは不可能である。

 この限界に対処するために、遺伝的距離を推定するためのk-merベースの比較を用いて実行時間を改善することに焦点を当てたツールが開発された。これらのツールの主な例は、2つのゲノム間の距離を推定するMinHashアルゴリズムを適用するMash [ref.10]である(紹介)。彼らの論文でOndov et al. は、Mashによって推定された遺伝的距離は、およそ1-ANIと強く相関することを示した。すなわち、0.05のMash distance が0.95のANIに対応する。

 著者らは、Mashが種の描写のためにANIによって提供されたものと同等であったかどうかを調べた。次に、Mashを用いて様々な種について種特異的な閾値を確立した。最後に、著者らは、著者らの焦点となっている種、ならびにいくつかのclosely related speciesおよびsister-speciesからなる新しいゲノムコレクションを用いて、これらの閾値の正確さを検証した。これらの結果を用いて、BMScanという、ゲノム全体の類似性が系統的な種特異的な閾値を上回っている場合に、characterizeされていないクローンを著者らのコレクションに迅速かつ正確にアサインするプログラムを開発した。

 

f:id:kazumaxneo:20180915112202p:plain

BMScan Workflow: The figure above shows the workflow for a query in BMScan. The input query is an assembly file in FASTA format. 論文より転載。

 

 

BMScanに関するツイート

 

BMScanのターゲットとなるバクテリア

#### 細菌性髄膜炎を起こすバクテリア
N. meningitidis
H. influenzae
S.pneumoniae
L.monocytogenes
E.coli

#### Other Neisseria sp. of interest
N. polysaccharea
N. bergeri
N. weaveri
N. subflava
N. mucosa
N. lactamica
N. gonorrhoeae
N. elongata
N. cinerea

#### Other Haemophilus sp. of interest
H. parainfluenzae
H. parahaemolyticus
H. haemolyticus

 

インストール

本体 bitbucket

git clone https://bitbucket.org/ntopaz/bmscan.git #700MBほどあるので注意
cd bmscan/bin/

python identify_species.py -h

$ python identify_species.py -h

usage: identify_species.py [-h] [-d INDIR] [-f FILE] [-v] -o OUT [-j]

                           [-t THREADS]

 

Script for quickly determining species

 

optional arguments:

  -h, --help            show this help message and exit

  -d INDIR, --indir INDIR

                        Input Directory: Directory of FASTA files to analyze

  -f FILE, --file FILE  Tab-delimited input containing Name and File Path

                        (Name Filepath)

  -v, --verbose         verbose standard output (default = false)

  -o OUT, --out OUT     Output File name

  -j, --json            Only output json file (default = false)

  -t THREADS, --threads THREADS

                        Number of max threads to use (default=1)

 

ラン

ランするには、シーケンシングデータをアセンブリして得たFASTAを収納したディレクトリを指定する。

identify_species.py -d assenbly_dir -j -t 4 -o outpit_dir

 ジョブが終わると、指定ディレクトリに.jsonと.csvが出力される。

 

JSONビューアjqで整形表示する。

brew install jq #jqをインストール
cat output/species_analysis_1536983455.385941.json  | jq

$ cat species_analysis_1536983455.385941.json  | jq

{

  "Neisseria_meningitidis_38277.fasta": {

    "mash_results": {

      "notes": "Hit above threshold",

      "species": "Neisseria meningitidis",

      "top_hit": "M36993_HUY3701A58_cleaned.fasta",

      "score": 0.99659813,

      "source": "BML_collection",

      "mash_pval": "0",

      "mash_hash": "871/1000"

    }

  }

}

 

引用

BMScan: using whole genome similarity to rapidly and accurately identify bacterial meningitis causing species
Topaz N, Boxrud D, Retchless AC, Nichols M, Chang HY, Hu F, Wang X

BMC Infectious Diseases 201818:405