macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

バクテリア間で保存されたシンテシーブロックを探す CSBFinder

 

 ゲノミクス(ゲノム学、ゲノム科学)における重要な問題は、遺伝子がゲノム内でどのように構成されているか、どのような情報がコードされているかである(Rogozin et al、2004)。遺伝子の順序に対する選択圧がない場合、リアレンジメントの繰り返しにより遺伝子の順序はランダムになる(Huynen et al、2000; Mushegian and Koonin、1996)。それにもかかわらず、機能的に関連した遺伝子は、自然選択のためお互いに接近したままとどまるかもしれない。これらの保存された遺伝子ブロックは、文献では、"syntenies"、"conserved syntenic blocks"、または"conserved gene clusters" と呼ばれる。ここでは、複数の異なるゲノムにおいて互いに近接して位置する遺伝子群を記述するために、syntenic block (SB) という用語を使用する。異なるゲノムにおける遺伝子群の位置は、"instances"と呼ばれる。各ゲノムのsyntenic block内の遺伝子の順序が、そのインスタンスにわたって共保存される場合、シンテニーブロックは、colinear syntenic block (CSB) と表される。
 遺伝子産物の相互作用(Marsh et al、2013; Dandekar et al、1998)、水平遺伝子伝達(Danchin et al、2000)、および遺伝子産物の相互作用を含むいくつかの理由により、 (Danchin et al、2000)、複製シグナルの起源(ORI)への遺伝子近接、および特定の環境条件下での同時発現(Rocha、2008)のような、原核生物ゲノムでは、共線性シンテニックブロックは、しばしばオペロンに対応する。それらは、共転写され、同時翻訳される遺伝子である。ここで、オペロン中の共線性シンテイックブロックの選択は、多機能酵素複合体の集合(Marsh et al。、2013)または代謝経路での連続した反応のパフォーマンスに起因する可能性がある(Jackson and Yaetofsky、1973)。また、オペロン内の保存された遺伝子配列は、代謝産物の利用可能性(Plumbridge、2015)に従って、経路の異なる段階を触媒する酵素の発現を調節する、複数の転写後および翻訳後フィードバック機構の進化を示している。
 異なるゲノムにわたる共線性シンテニーブロックの同定は、比較ゲノムにおけるいくつかの問題にとって重要である。これには、タンパク質間のオペロンおよび相互作用の予測、未特徴遺伝子の機能的注釈(Kim et al、2005)、および進化の研究(Yang and Sze、2008)が含まれる。公共データベース(Benson et al、2012)を介して入手可能なアセンブリされた原核生物ゲノムは、現在、数万の範囲にあり、急速に成長している(Wattam et al、2016; Chen et al、2016)。これは、原核生物のゲノム中のシンテニーブロックを同定するための大規模なアプローチの新たな可能性を開く。

(一部略)
 一般的なシンティックブロック発見の問題(「遺伝子の発見」とも呼ばれる)は、理論的に十分に形式化され、広範に研究されている(論文の補足資料1.1節参照)。要約すると、シンセティックブロック発見のためのこれまでの研究は、リファレンスベースアプローチと非リファレンスベースアプローチの2つのカテゴリに分類することができる。非リファレンスベースのアプローチ(例えば、(Böckeret al、2009; He and Goldwasser、2005))は、入力シーケンスの1つの部分文字列として必ずしも正確な形で現れるとは限らないオーソログのコンセンサスパターンを求める。そのようなアプローチは、入力サイズの増加に伴ってサーチスペースが指数関数的に増加する。したがって、これらのアプローチは、何千ものゲノムのデータマイニングには適していない。
この問題を解決するために、リファレンスベースの遺伝子クラスターモデルが提案された(Jahn、2011)。このモデルでは、遺伝子クラスターは最適なコンセンサス遺伝子セットではなく、入力ゲノムの1つのサブストリングとして現れる遺伝子セットによって表される。この制約は、多項式で境界を定められた探索空間をもたらす。 (Jahn、2011)では、リファレンスベースモデルを使用して得られた結果は、非リファレンスベースのアプローチによって得られた結果と匹敵することが示された。このペーパーでは、スケーラビリティが主な目的の1つであるため、ここに示すモデルもリファレンスベースである。しかし、特定の単一ゲノムをリファレンスとして指定するのではなく、入力ゲノムのそれぞれからすべての可能な部分文字列を抽出する。各部分文字列はリファレンスパターンとして使用される。

 

f:id:kazumaxneo:20181023210650p:plain

The workflow of CSBFinder. Githubより

 

インストール

mac os 10.12と10.13のjava1.8環境でテストした。

Github

wget https://github.com/dinasv/CSBFinder/releases/download/v0.3.1/CSBFinder.jar

 

テストラン

Sample_input_files.zip

(ダイレクトリンク)を使う。2つデータが入っているが、それぞれ、1592バクテリアのCOG (Cluster of Orthologous Genes) を集めたファイルと、933プラスミドのCOGを集めたファイルとなっている。

f:id:kazumaxneo:20181023110748j:plain

> head input/chromosomal_genomes.fasta

 head input/chromosomal_genomes.fasta 

>Acaryochloris_marina_MBIC11017_uid58167|NC_009925

COG1051 -

X +

COG1397 +

COG4248 +

X +

X +

COG3448 -

COG4401 -

COG0616 -

——

中身はDNA配列ではなく、1592のバクテリアのクロモソームそれぞれのCOGリストになる。1列目はCOG ID、2列目はStrand(+ / -)。

 

対応するCOGのアノテーションファイルも入っている。解析時に指定することでアノテーション情報を表示できる。

> head input/cog_info.txt 

$ head input/cog_info.txt 

COG0001;Glutamate-1-semialdehyde aminotransferase;H;Coenzyme transport and metabolism;HemL;

COG0002;N-acetyl-gamma-glutamylphosphate reductase;E;Amino acid transport and metabolism;ArgC;

COG0003;Anion-transporting ATPase, ArsA/GET3 family;P;Inorganic ion transport and metabolism;ArsA;

COG0004;Ammonia channel protein AmtB;P;Inorganic ion transport and metabolism;AmtB;

COG0005;Purine nucleoside phosphorylase;F;Nucleotide transport and metabolism;XapA;

COG0006;Xaa-Pro aminopeptidase;E;Amino acid transport and metabolism;PepP;

COG0007;Uroporphyrinogen-III methylase (siroheme synthase);H;Coenzyme transport and metabolism;CysG;

COG0008;Glutamyl- or glutaminyl-tRNA synthetase;J;Translation, ribosomal structure and biogenesis;GlnS;

COG0009;tRNA A37 threonylcarbamoyladenosine synthetase subunit TsaC/SUA5/YrdC;J;Translation, ribosomal structure and biogenesis;SUA5;

COG0010;Arginase family enzyme;E;Amino acid transport and metabolism;SpeB;

 

6GB指定してCSBFinderを立ち上げる。

java -Xmx6g -jar CSBFinder.jar

f:id:kazumaxneo:20181022213336p:plain

左上のLoad input Genomeから上記でダウンロードしたchromosomal_genomes.fastaを選択し、Runボタンをクリック。

 

パラメータウィンドウが出現する。Gene ontology info fileのところは、テストデータのcog_info.txtを指定する。

f:id:kazumaxneo:20181023211321p:plain

Quprum(定足数)は、検出閾値になる。2ゲノム以上で見つかるCOGクラスターを検出したければ2にする。ここでは10insertは余分なCOG。パラメータが決まったらRunボタンをクリックして解析をスタートする。データが多いと、かなり時間がかかる(*1)。

 

分析結果。検出IDをクリックすると該当COGの並びが表示される。

f:id:kazumaxneo:20181022213916p:plain

 

f:id:kazumaxneo:20181022213919p:plain

 

cog_info.txtを読み込ませていれば右下にアノテーションも表示される。

f:id:kazumaxneo:20181023125628j:plain

 

 

COGs、NOGsの新規取得

1、COGs IDの取得

NCBI Conserved Domains Database and Resourcesにアクセスする。

https://www.ncbi.nlm.nih.gov/Structure/cdd/cdd.shtml

f:id:kazumaxneo:20181023104634j:plain

 

Batch CD-Searchにアクセスする。Batch CD-Searchは、multiple proteinをクエリーとしてconserved Domainを検索できるサービス。

f:id:kazumaxneo:20181023104334j:plain

右のメニューでCOGを選択。

f:id:kazumaxneo:20181023110134j:plain

プロテインfastaを指定してジョブをスタートする。

 

結果

f:id:kazumaxneo:20181023125732j:plain

resultsをダウンロードして、シェルかexcelなどで整形して使う。

 

または、DFASTでアノテーションをかける時に、RPSBLAST を実行することでも取得できる。

https://dfast.nig.ac.jp/dfc/

f:id:kazumaxneo:20181023213725p:plain

Enable RPSBLASTにチェックをつけて実行。結果のgenebank、またはgffから抽出する。

引用

CSBFinder: Discovery of colinear syntenic blocks across thousands of prokaryotic genomes

Svetlitsky D, Dagan T, Chalifa-Caspi V, Ziv-Ukelson M

Bioinformatics. 2018 Oct 15

 

*1

defaultでは利用可能なCPUリソースは全て使われる。テストデータではmac pro2012の 12C24T 使用で、全クラスター検出に6分くらいかかった。