macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

32のバクテリアの1万以上の機能未知遺伝子欠損の影響をまとめた Fitness Browser

注意: タイトルには 機能未知遺伝子だけ相手にしたように書いてますが、実験はゲノム全体の遺伝子をターゲットにランダムかつ網羅的に行われており、mutant phenotypeの影響を調べた遺伝子数自体は1万よりずっと多くなります。実験結果をまとめたFitness Browserデータベースには、アノテーションがついた遺伝子も含めて実験結果を閲覧、比較できるようになっています。

8/6,8/7 誤字脱字修正 

2019 6/25 Preprint追記

 

 何千もの(Thousands of)バクテリアゲノムがシーケンシングされ、数百万のタンパク質の推定アミノ酸配列が明らかにされてきた。これらのタンパク質のわずかな割合しか実験的に研究されておらず、ほとんどのタンパク質の機能は、実験的に特徴付けられたタンパク質との類似性から予測されているだけである。しかし、バクテリアタンパク質の約3分の1には、この手法でアノテーションを付ける十分な相同性を持つ機能解析済みのタンパク質が存在しない(論文より ref.1)。さらに、これらの予測はしばしば不正確であり、これは相同なタンパク質が異なる基質特異性を有する可能性があることが1つの理由である(ref,2)。このsequence-to-function のギャップは微生物学にとってますます増大する課題である。なぜなら、新しいバクテリアゲノムは常に増加する速度でシーケンシングされているが、実験によるタンパク質の機能解析のスピードは比較的遅いままであるからである(ref.1)。

 未知のタンパク質の機能を研究するための1つのアプローチは、複数の条件下での対応する遺伝子の機能喪失突然変異の結果を評価することである(ref,3,4,5,6)。突然変異の表現型を比較ゲノミクスと組み合わせ、タンパク質の一部について証拠に基づきアノテーションを付与することができる(ref.3,4)。トランスポゾン突然変異誘発とその後のシークエンシング(TnSeq)は、何千何万もの異なる突然変異株が混ざったまま増殖する単一の実験からゲノムワイドの突然変異表現型を測定する(ref.7, 8)。 TnSeqと各変異株のrandom DNA barcoding(RB-TnSeq)とのカップリングは、多くの条件で表現型を測定することを容易にする(ref.9)。この論文では、RB-TnSeqを使用して、複数の実験条件下で32のバクテリアのそれぞれから、何千もの(Thousands of)遺伝子の突然変異表現型を系統的に探索し、配列間のギャップを解明する(論文より 図1a)。

 

1、抽出したgenomic DNAにミニトランスポゾン(nptIIによるカナマイシン耐性あり)とトランスポザーゼを作用させ(認識サイトは"TA")、ミニトランスポゾンカセット入りgenomic DNAを作る。

2、1で得た transposed DNAを使いバクテリアを形質転換する。

3、形質転換したバクテリアを様々な条件で継代する。

4、バクテリアから選抜前後のDNAを抽出する。

5、MmeI(リンク)(認識サイトから18-20 bp離れた部位を切る)で消化する。トランスポゾンカセットは両端に20 bp導入された部位のゲノム配列を付けた状態で切り出される(cの真ん中のイラスト)。

6、図のprimer1と2でPCRをかけ、プライマーとゲノムを含む領域をエンリッチする(cのイラストの赤い領域はマーカーであり、シーケンシングの必要はない)。

7、次世代にかけ、(アダプターを除き、)リファレンスゲノムにmappingする。20 bpしかないので、間違ってmappingされる可能性もあるが、そのような部位は実験から除外される。

8、指定条件でフィルタリングし(*1)、TMMなどで正規化後(ツール例)、遺伝子ごとに、培養前後でタグの数が増減したか調べる。

f:id:kazumaxneo:20180805124314j:plain

Tn Seqの概略。ref.8(Tn-seq; high-throughput~:  Tim van Opijnen, et al)より転載。

本論文では、TnSeqを何万回(バクテリア数  x 実験した条件)と行い、結果をまとめている。

 

  • メモ1: 培養条件やgrowth mediaは、supplementaty tableファイル(S18)や、Fitness Browserの各バクテリア及び各条件のページに記載されている。本番の条件は、あらかじめ96-well( 150µl volume)で培養を行い、TECAN infinite 200 PRO(リンク)などでOD600をモニターし、効果的かどうか調べた上で選択されている(*2)。形質転換方法(conjugationかelectroporation)はtable S20参照。大半の疑問に対する回答は論文のmethod  sectionに書かれている。著者らの1つ前の論文も読んでおく(リンク)。
  • メモ2

    例えばある遺伝子Aのトランスポゾンタグが、指定条件の培養開始前は100で、培養後は0になっているなら、遺伝子Aはその条件への適応に必須な遺伝子であることが強く示唆される。そもそも培養前から0なら、遺伝子Aは生育に必須なessential geneであることが強く示唆される。ある条件での培養後に有意に増加しているなら、遺伝子Aは指定した培養条件では増殖を抑える負の役割を持っていたことが示唆される(*4)。そのため、色々な部位にタグが入った各々異なるlocusのノックアウト株をごちゃまぜにして(poolして)しばらく培養すると、その遺伝子破壊によって分裂速度に変化が生じることで、培養後の遺伝子破壊株の数に差が生じる(いわゆるダーウィン進化が起きる)。言い換えると、locusにタグを持つセルの適応度に応じて遺伝子ごとに見つかるタグ数が増減する(あるlocusにタグが入った細胞はすごく減り、別のlocusにタグが入った細胞は増える)。このタグ数変化を、論文のFitness BrowserではFitness valuesという単位に正規化して変換し(0が変化なし)、遺伝子ごとにデータベース化している。 各条件、3万〜50万の変異株のプールから調べている。総数は実験条件とバクテリア数の掛け算になるので、数百条件を32バクテリアで行うと、とんでもない量の実験をこなさなければならない。Supplementaryデータをみると、データが細かすぎて目がおかしくなる。

 

  • 本論文に関するツイート。

 

  • Fitness Browser ヘルプ

http://fit.genomics.lbl.gov/cgi-bin/help.cgi

 

Organism Division
Acidovorax sp. GW101-3H11 Betaproteobacteria
Azospirillum brasilense Sp245 Alphaproteobacteria
Burkholderia phytofirmans PsJN Betaproteobacteria
Caulobacter crescentus NA1000 Alphaproteobacteria
Cupriavidus basilensis 4G11 Betaproteobacteria
Dechlorosoma suillum PS Betaproteobacteria
Desulfovibrio vulgaris Miyazaki F Deltaproteobacteria
Dinoroseobacter shibae DFL-12 Alphaproteobacteria
Dyella japonica UNC79MFTsu3.2 Gammaproteobacteria
Echinicola vietnamensis KMM 6221, DSM 17526 Bacteroidetes
Escherichia coli BW25113 Gammaproteobacteria
Herbaspirillum seropedicae SmR1 Betaproteobacteria
Kangiella aquimarina DSM 16071 Gammaproteobacteria
Klebsiella michiganensis M5al Gammaproteobacteria
Marinobacter adhaerens HP15 Gammaproteobacteria
Pedobacter sp. GW460-11-11-14-LB5 Bacteroidetes
Phaeobacter inhibens BS107 Alphaproteobacteria
Pontibacter actiniarum KMM 6156, DSM 19842 Bacteroidetes
Pseudomonas fluorescens FW300-N1B4 Gammaproteobacteria
Pseudomonas fluorescens FW300-N2C3 Gammaproteobacteria
Pseudomonas fluorescens FW300-N2E2 Gammaproteobacteria
Pseudomonas fluorescens FW300-N2E3 Gammaproteobacteria
Pseudomonas fluorescens GW456-L13 Gammaproteobacteria
Pseudomonas putida KT2440 Gammaproteobacteria
Pseudomonas simiae WCS417 Gammaproteobacteria
Pseudomonas stutzeri RCH2 Gammaproteobacteria
Shewanella amazonensis SB2B Gammaproteobacteria
Shewanella loihica PV-4 Gammaproteobacteria
Shewanella oneidensis MR-1 Gammaproteobacteria
Shewanella sp. ANA-3 Gammaproteobacteria
Sinorhizobium meliloti 1021 Alphaproteobacteria
Sphingomonas koreensis DSMZ 15582 Alphaproteobacteria
Synechococcus elongatus PCC 7942 Cyanobacteria

シュードモナス属など8種出てきているが、これは、シュードモナスの多様性が大きく、種間、属間の遺伝子保存性が低いため、比較時の精度を上げる目的で使われている(論文より)。

 

 

 

使い方

Fitness Browser にアクセスする。

f:id:kazumaxneo:20180805120237j:plain

 

例えばαプロテオバクテリアのAzospirillum brasilense Sp245のデータを開いてみる。

f:id:kazumaxneo:20180805161215j:plain

nitrogen sourceが35と最も多い。nitrogen sourceの35をクリックしてみる。

 

使われた窒素源一覧(実験が成功したものだけ掲載されている)が表示される。

f:id:kazumaxneo:20180805161413j:plain

一番上の窒素源がAmmonium chlorideの実験をクリック。

 

画面が切り替わる。この条件で特異的な変化を示した遺伝子を調べるにはSpecificをクリック。

f:id:kazumaxneo:20180805161637j:plain

 

2遺伝子検出されている。上のAZOBR_RS25125をクリック。

f:id:kazumaxneo:20180805161948j:plain

 

fitnessが-2以上なのは、上2つのAmmonium chlorideだけなのが確認できる。

f:id:kazumaxneo:20180805162107j:plain

fitnessは、その条件でgrowthへの影響がなければゼロになる。0以下のfitness値はその条件へのfitnessが下がったことを意味し、0以上のfitness値は、その条件へのfitnessが上がっていることを意味する。ヘルプによれば、-1から1の範囲はばらつきで結果の解釈は不明瞭であるが、-2以下、または2以上になると強いfitness効果があると記載されている。値の信頼度は隣にt-like test(t値やZ scoreと同じスケールの値)で示される。データが数千あるため、tが-4以下、または4以上(すなわち|t| > 4)をsiginificantと記載している。

 

次に+ Geneタブをクリックする。200遺伝子以上検出されているが、fitnessが最大の遺伝子でもfitnessは1.8に留まっている(ただしt scoreは2を超えている)。

f:id:kazumaxneo:20180805162235j:plain

 

by conditionから調べても同じことができる。また、by Genesからは、遺伝子名で検索できる。

Fitness Browser - Exp Search

f:id:kazumaxneo:20180805162720j:plain

 

試しに、by Genesから、pyruvate dehydrogenase complexを調べてみる。生物種はさっきと同じAzospirillum brasilense Sp245とする。

f:id:kazumaxneo:20180805163320j:plain

 

E1ユニットをコードする遺伝子をクリック。

f:id:kazumaxneo:20180805163520j:plain

 

fitnessは "no data"になっている。これはTnseqでシーケンスされたタグがゼロまたはゼロ近くでデータがえられなかったか(=> essential gene)、実験条件を満たせなかったため、データから除外された可能性を表している(*1)。

f:id:kazumaxneo:20180805190920p:plain

近隣の遺伝子も表示されている。よく見ると、E1の上流には、画面に収まる範囲でno dataになっていないORFが3つある(しかし3つともphenotypeは"insignificant")。その内、2つはhypothetical proteinとなっている。hypothetical proteinの1つAZOBR_RS22225の行の右端のinsigをクリックしてみる。

 

調べてみると、hypothetical proteinではあるが、炭素源、窒素源、ストレス(飢餓、抗生物質、温度変化などなど)、mobilityなど様々な条件でfitnessが増減していた。

f:id:kazumaxneo:20180805164641j:plain

近接のORFはどうなっているだろうか?(同じオペロンユニットで共転写されていたり、同じ転写因子の制御可にある可能性もある)。隣接遺伝子のfitness一覧を見るには、NearByのタブをクリックする。 f:id:kazumaxneo:20180805165002j:plain

AZOBR_RS22225の下流側に同じ向きで隣接するAZOBR_RS22220は、fittingのパターンが同じとは言い難い。AZOBR_RS22225とAZOBR_RS22220はオペロンかもしれないが、少なくとも機能は異なる可能性が高まった。AZOBR_RS22225の上流側に同じ向きで隣接するAZOBR_RS2223については、Tnseqのデータが出ていない。AZOBR_RS2223をクリックするとNCBIなどから引っ張ってきているアノテーションの詳細が表示される。DNA topoisomerase IVのアノテーションがついているので、必須遺伝子のためtagのシーケンシングが出なかったのだろうか(ORFサイズが大きいこともessential geneの可能性が高めている => シーケンスデプスにもよるが、サイズが大きいほど、たまたまtag数がゼロか非常に少なかったという可能性は低くなる)...などなど、色々考えられる。

 

次に、距離を問わず同じfitness傾向を示すORFを探すため、Cofitのタブをクリックする。AZOBR_RS22225と同じ傾向を示すTop cofit リストが表示される。同じ傾向を示した遺伝子は、(著者らによれば)同じpathwayで機能する可能性が高い。

f:id:kazumaxneo:20180805192030p:plain

 

該当するバクテリアを扱っていない場合、BLAST解析して、Fitness Browserで調べられた遺伝子から、クエリとホモロジーが高い遺伝子をpick upできる(似た一次構造をもつタンパク質ならfitnessも似ている可能性が高い)。

BLAST

f:id:kazumaxneo:20180805200220p:plain

ORFのアミノ酸配列、または塩基配列をペーストしてsearchをクリック。

 

しばらくするとblast結果が出てくる。e-value閾値を超えたリストが並ぶ。

f:id:kazumaxneo:20180805200156p:plain

 十分な相同性があるなら、同様のmutant phenotypeを示す可能性も高くなる。

 

他にもいくつかの機能があり、tophitを抽出してきたり、選択したデータから図を描いたりできます。

f:id:kazumaxneo:20180805195120p:plain

 

感想

ものすごい実験の数とデータ量に圧倒されますが、その分、使いこなせば、武器になるデータベースです。(なんせ、個々のバクテリアの研究者が実験を始める前に論文の著者らがknock out株を作ってgrowthが変化するかどうかをいろんな条件で手当たり次第に調べ、さらに、そのデータを比較可能な形で公開してくれているわけです。とんでもない話です)。

このデータベースの使い方ですが、いきなりhypothetical proteinを探し始めるより、まずはこれまで、または現在進行形で機能解析している遺伝子や、第三者によって機能がよく調べられきた遺伝子を使って、どんなfitnessを示すか調べてみて下さい。遊んでいるうちに使い方を学べることもありますが、機能解析が幅白い文脈で調べられている遺伝子を使う方が、この手法の可能性と限界が見えてくるんじゃないかと思います(*5)。

 

引用

Mutant phenotypes for thousands of bacterial genes of unknown function

Price MN, Wetmore KM, Waters RJ, Callaghan M, Ray J, Liu H, Kuehl JV, Melnyk RA, Lamson JS, Suh Y, Carlson HK, Esquivel Z, Sadeeshkumar H, Chakraborty R, Zane GM, Rubin BE, Wall JD, Visel A, Bristow J, Blow MJ, Arkin AP, Deutschbauer AM

Nature. 2018 May;557(7706):503-509. 

https://www.natureasia.com/ja-jp/nature/557/7706/s41586-018-0124-0/機能が未知の数千の細菌遺伝子の変異表現型

 

*1

論文の"Identifying essential or nearly essential genes"のパラグラフを参照。タグの分布をPoisson distributionと仮定し、遺伝子のサイズから偶然tagがゼロになる可能性が棄却された遺伝子のみ、Fitness Browserにデータが示されている。

 

*2

補足表には、本実験以上を断念した条件などもまとめられている(S4)。例えば、カナマイシンにnativeに耐性があった、など。

 

*3

Tn-Seqを説明した動画:

Tn-seq in Rhodobacter sphaeroides - mSystems®(American Society for Microbiology)

          2:20ごろに実際の挿入状況。 

 

*4 

変動するのは生物学的要因以外も考えられる。バイアスは先行研究で議論されている(pubmed

 

追記

*5

in vitroの解析で機能がわかっていると思っていたタンパク質に別の機能も備わっていることがこのデータから見えてくるかもしれません。

 

2019 6/25 追記

Large-scale chemical-genetics of the human gut bacterium Bacteroides thetaiotaomicron

Hualan Liu, Morgan N. Price, Hans K. Carlson, Yan Chen, Jayashree Ray, Anthony L. Shiver, Christopher J. Petzold, Kerwyn Casey Huang, Adam P. Arkin, Adam M. Deutschbauer
doi: https://doi.org/10.1101/573055

のデータが追記され、現在35種のデータを利用できるようになっています。