macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

統計モデルを使った倍数性推定を行う nQuire

 

 酵母や真菌などの病原性真核生物や非病原性真核生物など、様々な生物種で種内変異が起こっている。次世代シーケンサー(NGS)を用いた実験から、DNA量を測定することなく、間接的に倍数体を推定することができる。著者らは、NGSを用いて2倍体、3倍体、4倍体を区別する統計的フレームワークであるnQuireを紹介する。このコマンドラインツールは、可変部位の塩基頻度分布をガウス混合モデルを用いてモデル化し、最尤法を用いて最も妥当な倍数体モデルを選択する。nQuireは、高カバレッジの大規模ゲノムを効率的に処理し、標準入力ファイル形式を使用する。
 病原性カビ菌 Phytophthora infestans とパン酵母 Saccharomyces cerevisiae の個々のサンプルを分析してnQuire の有用性を実証した。これらの生物を用いて、倍数性判定の信頼性とシーケンスの深さとの間の依存性を示した。さらに、nQuireで生成された正規化最大対数尤度を用いて、倍数性の不均一性を持つサンプル集団の倍数性レベルを確認した。これらの正規化された値を用いて、多変量ガウス混合を用いてサンプルを3次元でクラスタリングした。S. cerevisiaeの集団から取得したクラスタ割り当てでは、96%以上のサンプルで真のploidyレベルを回復した。最後に、nQuireが染色体異数性の同定に地域的に使用できることを示す。
 nQuireは、種内変異を持つ生物を研究するための統計的枠組みを提供する。nQuireは、病原体の疫学研究、人工選択実験、核がそのまま保存されていない歴史的または古代のサンプルに有用であると思われる。C言語によるスタンドアローンLinuxコマンドラインツールとして実装されており、https://github.com/clwgg/nQuireunder MITライセンスで入手できる。

 

インストール

Github

git clone --recursive https://github.com/clwgg/nQuire
cd nQuire
make submodules
make

> ./nQuire 

Usage: ./nQuire <command> [options]

 

Main commands:

       create      -   Create bindump from bam file that subsequent

                       analysis will take as input.

       view        -   Inspect contents of bindump and apply filters

                       to it.

       histo       -   Show ASCII histogram of frequencies in bindump.

                       

       lrdmodel    -   Use the GMM to combine the fixed and free models

                       and assess the delta-log-likelihood.

       denoise     -   Use the GMMU model to detect and remove a uniform

                       baseline from the histogram.

 

other:

       modeltest   -   Use the GMM based test against the three fixed

                       models.

       estmodel    -   Use the GMM to estimate the free model.

                       

       histotest   -   Use a simple, linear regression based test against

                       the three fixed models.

 

Please run any of these commands without arguments for usage instructions.

 

For further documentation please also refer to the online manual

at https://github.com/clwgg/nQuire or the README.org file.

 

 

 

実行方法

1、bin生成

入力として .bam アライメントファイルのみを必要とする。必要な情報は、.bam アラインメントファイルからバイナリファイル(接尾辞 .bin)に抽出され、 create サブコマンドを使用して生成される。

nQuire create -b input.bam -o base

デフォルトでは、2塩基が最小0.2の頻度で分離しているサイトのみがレポートされる。最小頻度は-fフラグで調整することができる。また、-q -c オプションにより、それぞれマッピングの品質と最小カバレッジのフィルタを設定できる。デフォルトでは、Mapping Qualityの最小値は1、Minimum coverageの最小値は10に設定されている。

 

2,検査

create サブコマンドで生成されたbinファイルは、view または histo サブコマンドで視覚化して検査できる。

histo サブコマンドは、.bin ファイルに基づいてコマンドライン上に ASCII ヒストグラムを生成する。

nQuire histo base.bin

 

view サブコマンドでは、ファイル内のすべての位置でのカバレッジと塩基数を検査したり、フィルタリングして新しい .bin ファイルを生成したりできる。

nQuire view base.bin

 

3,倍数性レベルの評価

lrdmodelサブコマンドはサブコマンドmodeltestの3つの固定モデルとサブコマンドestmodelの自由モデルを混合した4つのモデルすべてを使用するフレームワークとなっている。最終的に特定の仮定での尤度は、固定モデルのδ対数尤度が高いほど最適から離れ、対応する倍数体レベルに対する支持度が低くなる(レポジトリで説明されています)。

複数のデータや複数の染色体など同時に指定できる。

nQuire lrdmodel -t <number of threads> file1.bin file21.bin ...

出力例(2倍体ゲノム)

 

仮定したpoidyレベルごとの対数尤度と、そのモデルに含まれるガウシアンの標準偏差を返す

nQuire modeltest base.bin

 

引用

nQuire: a statistical framework for ploidy estimation using next generation sequencing
Clemens L. Weiß, Marina Pais, Liliana M. Cano, Sophien Kamoun & Hernán A. Burbano 
BMC Bioinformatics volume 19, Article number: 122 (2018)