macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

プラスミドの分析と視覚化のwebサービス Plasmid ATLAS

2019 11/8  pATLASflow紹介リンク追加

 

 プラスミドは、mobile genetic elements(MGE)として分類されるchromosome外遺伝因子であり、細菌間で自己複製および転移する能力があるため、遺伝子の水平伝播において極めて重要な役割を果たしている(ref.1〜3)。プラスミドはサイズが大きく異なり、ほとんどが環状であり、さらに重要なことには、特定の条件下で宿主に選択的な利点を提供する遺伝子を運ぶことがよくある(ref.1〜3)。たとえば、プラスミドは抗生物質耐性の獲得と拡大の鍵となるMGEであり、毒性形質の伝達に重要な役割を果たす可能性がある(ref.1,4,5)。

 特に、プラスミドは、挿入配列、トランスポゾン、インテグロン、および機能的に関連するカーゴ遺伝子を運ぶ可能性のある他のプラスミドを含む、他のMGEの統合または切除によってDNA断片を容易に失ったり獲得したりできるため、キメラおよびモジュラーであると考えられる。さらに、プラスミドは細菌のchromosomeに組み込まれることもあり、これによりさらなる拡散方法が保証される(ref.1–3)。この高い遺伝的可塑性は、プラスミドの知識が細菌群集のダイナミクスを理解する上で最も重要であることを明確に示している(ref.1–5)。ただし、ハイスループットシーケンス(HTS)データでのプラスミドの検出は簡単ではなく、ショートリードテクノロジーやメタゲノム研究で使用する場合は特に困難である(ref.6)。

 現在、特定のマーカーを検索するか、プラスミド配列が異なると仮定するか、何らかの特徴(例えば、プラスミドの環状性により、プラスミドのコピー数が多いか、プラスミドに由来するコンティグを環状化できることを考えると、プラスミドリードはchromosomeリードよりも高いシーケンスカバー率を持つ傾向がある)を使いcBar(ref.7)、PLACNET(ref.8)、plasmidSpades(ref.9)、Recycler(ref.10)など、HTSデータからプラスミドをアセンブルまたは抽出するための多くのツールが利用できる。ただし、プラスミドは細胞内に単一コピーで存在する可能性があり(ref.5)、線形DNA分子である可能性もあるため(ref.1–3)、これらの仮定が常に満たされるとは限らない。 PlasmidFinder(ref.11)やMOB-suite(ref.12)などの他のツールを使用すると、それぞれincompatibility (Inc) groupsまたはレプリコン(Rep)または relaxase (MOB; (4))遺伝子を使用してプラスミドを識別できる。別の方法論、 PlasmidProfiler は、PlasmidFinderデータベースに対してリードマッピングとBLAST +(ref.13)検索の組み合わせを使用してプラスミドタイプを検索し、異なるプラスミドの存在を予測するが、それらのcargoに関する情報を提供していない。 HTSデータでプラスミドを再構築または検索する方法に関係なく、ユーザーはヒットリストを解釈し、これらの可能性のあるプラスミドが宿主細菌に与える影響を評価するのに苦労する。

 現在、NCBIのRefSeqプラスミドデータベースには13 924のエントリがあり(ref.14)、この一連のプラスミド配列を閲覧するためのツールが不足している。ここでは、NCBIのRefSeqデータベースにある既存のプラスミドを探索し、HTSデータからプラスミドを特定できるように、ユーザーが簡単にアクセスできる視覚分析ツールを提供する目的で、Plasmid Atlas(pATLAS)について説明する。 pATLASは、CBI(ref.15)、ResFinder(ref.16)、 Virulence factors database (VFDB) (ref.17)およびPlasmidFinder(ref.11)データベースに基づくde novoアノテーションにより、NCBIのRefSeqデータベースで利用可能なすべてのプラスミドに関連するメタデータ、およびその推定抗生物質耐性および病原性遺伝子、およびプラスミドファミリーの可視化と探索を可能にする。 REpresentational State Transfer application programming interface (REST API)を提供することにより、pATLASをプラスミドの識別を目的とするパイプラインに簡単に統合して、提供するデータベースと視覚化ツールを活用できる。

 

Documentation

https://patlas.gitbook.io/docs/

 

local版

https://patlas.gitbook.io/docs/api/local_installation


 

pATLASflowを使うと、mashを走らせ、生成されるJSONファイルをwebサービスに読み込ませることができる。

詳細

 

pATLASflowの紹介



 

使い方

http://www.patlas.site にアクセスする。

f:id:kazumaxneo:20191104205131p:plain

各ノード(頂点)はプラスミドを表し、各リンク(エッジ)は、mashと論文にて定義された基準で作成されたマトリックスからの2つのプラスミド間の関係を表している。

 

左上のバーをクリックしてメニューを出す。

f:id:kazumaxneo:20191105003147p:plain

 

ここではtaxonomyから絞り込んでみる。Browse => Taxaを選択。

f:id:kazumaxneo:20191105012900p:plain

 

ここではアシネトバクター属の菌に絞り込む。複数選択できるが、その場合はANDではなくOR扱いとなる。

f:id:kazumaxneo:20191105013438p:plain

Highlightをクリックする。

ここではFilter and keep~を選ぶ。

f:id:kazumaxneo:20191105013631p:plain

レンダリングされた。

f:id:kazumaxneo:20191105013830p:plain

 

さらに絞り込む。Browse => lengthからサイズ選択。

f:id:kazumaxneo:20191105020051p:plain

 

レンダリングされた。左上と右下にたくさんのノードが残っている。

f:id:kazumaxneo:20191105020027p:plain

 

ノードをクリックするとplasmidの詳細な情報が表示される。表示されるのは、accesion IDやサイズに加え、抗菌剤と金属耐性のデータベースBacMet、virulance factorのデータベースVFDB、ABRicate(紹介)、PlasmidFinderからのメタデータになる。プラスミドの特徴を素早く掴むことができる。

f:id:kazumaxneo:20191105014245p:plain

 

右下のクラスタのプラスミドはいくつか耐性遺伝子が見つかった。

f:id:kazumaxneo:20191105020440p:plain

上のメニューの右から3つ目のボタンよりプラスミドのメタデータテーブルを生成できる(メニュー詳細)。

f:id:kazumaxneo:20191105024356p:plain

テーブルが生成された。

f:id:kazumaxneo:20191105024215p:plain

 

 

一度初期状態に戻る。上のhomeボタンをクリックする。

f:id:kazumaxneo:20191105021937p:plain

 

Browse => Taxaから別のgenusを選択、さらに下にあるresistanceをクリック。

f:id:kazumaxneo:20191105022037p:plain

 

AACを全て 選択した。

f:id:kazumaxneo:20191105022519p:plain

 

レンダリングされた。今度は数が多い。

f:id:kazumaxneo:20191105022626p:plain

下の再生ボタンを押すと、強制的に指示されたレイアウトで計算が再開され、各ノードが動いて各クラスタがより遠くに分離される。たとえば現在の選択をフィルタリングした後、プラスミドを互いに分離したい場合、グラフをさらにレンダリングするために使用する。

 

今度は左のメニューからStatisticsを開く。

f:id:kazumaxneo:20191105022758p:plain

Statistics => Species。選抜されたプラスミドについて、ホストの菌のspecies情報がまとめられる。

f:id:kazumaxneo:20191105022715p:plain


Statistics => Vilulance

f:id:kazumaxneo:20191105023130p:plain

 

引用

Plasmid ATLAS: plasmid visual analytics and identification in high-throughput sequencing data
Tiago F Jesus, Bruno Ribeiro-Gonçalves, Diogo N Silva, Valeria Bortolaia, Mário Ramirez, João A Carriço
Nucleic Acids Research, Volume 47, Issue D1, 08 January 2019, Pages D188–D194

 

関連

 


 

 

植物の生合成遺伝子クラスターを予測するwebサービス plantiSMASH

 

 バクテリア、菌類、植物は、それぞれが関与する多様な生物間相互作用において、地球全体で独自の特定の生態学的役割を持つ特殊な代謝産物の非常に多様性を生み出している。この多様な特殊な代謝は、医薬品、農業、製造業で広く使用されている天然物の豊富な供給源である。最も特殊な代謝パスウェイの遺伝子がいわゆる生合成遺伝子クラスター(BGC)に物理的にクラスター化されている細菌および真菌では、ゲノム配列の急速な蓄積が天然産物発見のプロセスに革命をもたらした:実際、ゲノムマイニングが新規分子の発見方法として支配的になった(ref.1–4)。このゲノムマイニングプロセスでは、ゲノムシーケンスでBGCがコンピューターで識別され、機能解析(たとえば、メタボロームデータ、化学構造予測、変異体ライブラリー、および/またはheterologous expressionを使用)によって分子にリンクされる。このゲノムマイニング手順の多くのシーケンスベースの側面は、2010年に開始されたantiSMASHフレームワークによって促進され(ref.5)、それ以来継続的な開発が行われている(ref.6,7)。ゲノムマイニング手順には2つの主な目的がある:(i)重要な既知化合物の生合成遺伝子を見つけて、工業株での発酵によるheterologous productionを可能にすること、および(ii)生合成遺伝子クラスターの多様性によって導かれる新しい天然物のケミストリを識別すること。全体として、この開発は「遺伝子クラスター革命」と呼ばれている(ref.1)。

 近年、微生物だけでなく植物の生合成パスウェイも頻繁に染色体上にクラスター化されていることが明らかになっている:最初の環状ヒドロキサム酸2,4-dihydroxy-1,4-benzoxazin-3-one(DIBOA)とアベナシン遺伝子クラスター(ref.8,9)の発見後、約30の植物BGCが発見された(ref.10,11)。(一部略)

 真核生物のゲノムシーケンス(ref.13)におけるさまざまな技術開発により、最終的に大規模で完全な植物ゲノムシーケンスが実現可能になった:ほぼ100種の高品質の植物ゲノムシーケンスがすでに公開されており、ほぼ完全なゲノムをわずかな時間と各10〜5万米ドルでシーケンスできる。したがって、ゲノムマイニングは植物の天然産物の研究においても重要な方法論になる可能性があり、したがって、植物の天然産物の研究コミュニティが独自の「遺伝子クラスター革命」を持つ現実的な機会が存在している。当然、これを実現するために必要な重要な技術は、植物BGCの識別と分析のために特別に設計された計算フレームワークである。重要なのは、細菌および真菌のゲノムマイニングに使用できるツールは、植物には不十分な事である(ref.14)。(i)植物の生合成パスウェイには、細菌および真菌には見られない独自の酵素ファミリーが含まれる。 (ii)すべての植物生合成パスウェイがクラスター化されているわけではないため(アントシアニン(ref.15)など)、生合成遺伝子の同定はBGC同定と同等ではない; (iii)植物ゲノムの遺伝子間距離はより大きく、はるかに変動しやすい(ref.16–19)。 (iv)植物ゲノムにはその産物がパスウェイを構成しない遺伝子クラスター(タンデム配列など)が含まれる。 (v)いくつかの植物のパスウェイは複数のBGCに splitされている(ref.20,21)。

 ここでは、これらの各課題に対処するように設計された、植物用のantiSMASH(または略して「plantiSMASH」)を紹介する。植物生合成パスウェイに関与することが知られている酵素ファミリーのプロファイルHidden Markov Models(pHMM)の包括的なライブラリーと、同じファミリーに属する予測タンパク質配列のCD-HITクラスタリングと組み合わせることで、複数の遺伝子座をコードするゲノム遺伝子座の効率的な識別が可能になる。さらに、これらの候補BGC内の遺伝子発現パターンの分析と同様に、比較ゲノム解析により、1つのパスウェイで一緒に機能する遺伝子をエンコードする可能性について各遺伝子座を評価できる。最後に、候補BGCとゲノム全体の他の遺伝子との共発現解析により、複数の遺伝子座でエンコードされた生合成パスウェイを特定できる。この新しいフレームワークを活用するために、植物界全体のBGC多様性の初期分析を提供する。これは、多様な種の多くの複雑な生合成遺伝子座の存在を示している。

 

Help

http://plantismash.secondarymetabolites.org/help.html#news

 


スタンドアローン

http://plantismash.secondarymetabolites.org/download.html

 

public webサービスの使い方

http://plantismash.secondarymetabolites.org

f:id:kazumaxneo:20191104163157p:plain

 

ゲノムのFASTAGenBank EMBL フォーマットのゲノムファイルを指定する。publicデータベースのaccession IDを使うなら一番下のウィンドウに記載する。

f:id:kazumaxneo:20191104183820p:plain

ここではLoad sampleをクリックしてシロイヌナズナのchr5を使う。

 

Adbancedからパラメータやオプションの解析を実行するかどうか選択できる。またGene expression analysis (CoExpress):からはGEOのco-expressionデータを指定したり、手持ちのCSVファイルもアップ可能。

f:id:kazumaxneo:20191104183742p:plain

 

 

f:id:kazumaxneo:20191104183744p:plain

submitボタンを押して実行する。

 

結果。検出された推定遺伝子クラスターの一覧が表示される。テストデータでは合計10クラスター検出されている。

f:id:kazumaxneo:20191104184855p:plain

 

様々なクラスターが検出されていることが分かる。1つ開いてみる。

f:id:kazumaxneo:20191104185042p:plain

 

Cluster2。生合成パスウェイと予測された遺伝子は割り当てられた酵素タンパク質ドメインプロファイルによって色分けされる。下に凡例がある。

f:id:kazumaxneo:20191104185241p:plain

 

クリックすると詳細が表示される。

f:id:kazumaxneo:20191104185552p:plain

アミノ酸配列のコピー、染色体上の位置の確認、blastp解析など実行できる。

 

showボタンを押すと遺伝子リストが表示される。

f:id:kazumaxneo:20191104191424p:plain

 

やや分かりにくいが、戻るときは①②...の左側のOverviewの文字をクリックする。

f:id:kazumaxneo:20191104185905p:plain

 

Co expressionデータを読み込んでおくと追加で階層的クラスタリングなど実行できる。Co expressionデータの中に欠損値(一部だけmissingがある行)がある場合は埋める必要があったり、フォーマットは厳密でなくてはならない。詳細はFAQ参照。

http://plantismash.secondarymetabolites.org/help.html#faq

引用

plantiSMASH: automated identification, annotation and expression analysis of plant biosynthetic gene clusters
Satria A. Kautsar, Hernando G. Suarez Duran, Kai Blin, Anne Osbourn, Marnix H. Medema

Nucleic Acids Res. 2017 Jul 3; 45(Web Server issue): W55–W63

 

関連


 

ノンスペシャリストのための系統解析webサービス NGPhylogeny.fr

 

系統樹の推論と解釈は、広範囲の生物学的領域(比較ゲノミクス、機能予測、メタゲノミクス、種同定、分類学、分子疫学、集団遺伝学など)を対象とする多数の研究で必要となる。Phylogeny.fr(ref.1)はもともと、次の手順に基づいてワークフローを実装することにより、系統解析を促進するように設計されていた。(i)BLASTベースの配列検索。 (ii)複数のシーケンスアラインメント。 (iii)アラインメントのキュレーション。 (iv)系統樹の推論; (v)ツリーの視覚化。Phylogeny.frは、設計する際には予想していなかったいくつかのコンテキストで幅広く使用されてきた。例えば、何百もの jobが同時にsubmitされるような非常に大規模な授業、custom submission scriptsを使ったる数千の遺伝子ファミリーの系統のための大規模なゲノムアノテーション研究など。 Phylogeny.frは2008年の発表以来、3000回以上引用されており、現在1日あたり200を超えるワークフローを実行している。

 過去10年間で、系統解析をサポートするためのいくつかの種類のソリューションが開発されてきた。

 1つは、一般に主要なpublicationsに付属する特定のphylogenetic tool that専用のオンラインサービスである(例:MAFFT(ref.2)、PhyML(ref.3)、FastME(ref.4)、BOOSTER(ref.5))。そのようなWebサービスの数は、多数のオプションを提供する新しいツールの公開に伴い増加しているが、それらを正しく選択するのは困難である。phylogenetic analysisを実行することは、そのようなツールを繋いで、入力と出力を管理し、それらを保存し、FastaNexus、Newick、Phylipなどの多くのフォーマット間で再フォーマットする。

 したがって、統合Webサービスは、ユーザーが複数のツールをオンラインで繋いでいき実行できるようにすることで、上記の困難の一部に対処するために登場した。 Phylogeny.fr(ref.1)は広く使用され引用されており、CIPRES(ref.6)、TRex(ref.7)、およびPhylemon(ref.8)もこのカテゴリに属している。同じスピリットで、SeaView(ref.9)とMEGA(ref.10)は、系統解析のための統合ソリューションを提供し、ローカルにインストールするスタンドアロンソフトウェアを提供する。これらの統合ソリューションは通常、事前に選択されたツールや分析を考慮しており、ツールの更新とツール間を繋いでいく観点から、進化するのが難しい場合がある。さらに、このような統合ソリューションは10年前は特に興味深いものだったが、現在実行されている分析は、シーケンスの数とサイズ、およびCPU要件に関して大幅に変更されている。

 並行して、scientific workflow systems(Galaxy(ref.11,12))は、複雑で大規模な分析の実行をスケジューリングしながら、消費データと生成データを追跡してデータを適切に管理するのに便利な成熟度に達した。 3番目の種類のソリューションは、そのようなシステムに基づいている。これは、Galaxyを介して複数のphylogenetic toolsへのアクセスを提供するOsiris(ref.13)、または系統発生専用の独自のワークフローマネージャーを実装するArmadillo(ref.14)の場合である。このようなソリューションは、多数のツールとそれらを簡単に結合する方法を提供するため、柔軟性が高く、Guang et al(ref.15)によって説明された統合フレームワークに近づけることができる 。ただし、エンドユーザーがワークフローシステムのグラフィカルユーザーインターフェイスを使用してすべてのツールを選択し、パラメーター化することが期待されるため、エンドユーザーが使用するのは依然として困難である。

 NGPhylogeny.frは、このペーパーで紹介する次世代のPhylogeny.fr Webサービスであり、(i)一般的な範囲を持ち、あらゆるニーズに合う系phylogenetic tools の大きなパネルを提供する。 (ii)柔軟性があり、ツールを簡単に追加、更新、または削除できる。 (iii)スケーラブルで、シンプルで高速な方法を統合し、大規模クラスタでの並列計算を可能にするワークフローシステムに依存することで、大規模な分析をサポートできる。 (iv)ターンキーであり、再現性を確保しながらユーザーが自分のコンピューターでインストールを管理することを避ける。 (v)ユーザー適応型であり、純粋なエンドユーザーから、NGPhylogeny.frを公開サーバーではなく独自のサーバーで使用することを好む可能性のある技術的スキルを持つバイオインフォマティシャンまで、いくつかの使用レベルを提供する。

 そのため、NGPhylogeny.frは2つのコンポーネントで構築されている。(i)ツール実行の管理を扱うGalaxyワークフローシステム、および(ii)Galaxyワークフローシステムをユーザーに透過的に使用するグラフィカルユーザーインターフェイス。次のセクションでは、最初にNGPhylogeny.frをエンドユーザーが使用する方法に焦点を当て、最後のセクションでは、より技術的なスキルを持つ上級ユーザーがそれをさらに活用する方法について説明する。(以下略)

 

Documentation

https://ngphylogeny.fr/documentation

f:id:kazumaxneo:20191104002458p:plain 

 

ローカル版

 dockerイメージとして配布されている。ローカルについては、ubuntu18.04 LT Sにてlinux版をテストした(chromeブラウザを使用)。

#1 Starting Galaxy
docker run --privileged=true -p 8080:80 -p 8121:21 -p 8122:22 evolbioinfo/ngphylogeny-galaxy


#2 Starting NGPhylogeny.fr 
#mac
docker run -p 8000:8000 evolbioinfo/ngphylogeny admin admin@admin http://host.docker.internal:8080 adm

#Linux
docker run -p 8000:8000 --net=host evolbioinfo/ngphylogeny admin admin@admin http://localhost:8080 admin

#3
http://127.0.0.1:8000 にアクセス ( open http://127.0.0.1:8000 )。

public webサーバは大きなデータセットにも対応するが、上限がある。大きなデータセットを扱う際はlocalサーバを立てて実行することが推奨されている。

 

使い方

https://ngphylogeny.fr/analysis にアクセスする。

f:id:kazumaxneo:20191104003110p:plain

ここではOne Click (Fully automatic workflow) を選択。Advancedでは全ツールのパラメータを設定して実行可能。

 

 

比較する配列をアップロードするかウィンドウ内にペーストする。

f:id:kazumaxneo:20191104004559p:plain

ここではexampleを選択した。

 

submitボタンを押して開始する。

f:id:kazumaxneo:20191104015931p:plain

 

 

jobが登録 される。

f:id:kazumaxneo:20191104004511p:plain

 jobアップロードから進まない。メンテナンス中かbusyなのかもしれない。以後はローカルの方でテストした結果。

 

 

最初からやり直す。advancedを選択。

f:id:kazumaxneo:20191104021428p:plain

PhyML + SMS (link)を選び、Advanced optinボタンを押してlaunchする。このワークフローでは、PhyML + SMSを使用して、最適な進化モデルを選択し、ツリーが推測される。ただしツリーの推論に長い時間がかかり、非常に大きなデータセットは対応できない可能性があるとドキュメントに記載されている。

ファイルを指定してsubmitする。

f:id:kazumaxneo:20191104021822p:plain

各ツールの右にある+のマークを押すと、そのツールのパラメータを変更できる。

 

先ほどの説明と重複するが、ジョブが開始され、進捗が表示される。画面は定期的にrefreshされる。

f:id:kazumaxneo:20191104021950p:plain

 

個別に実行することもできる(=>トップページのToolsメニューから)

f:id:kazumaxneo:20191104020141p:plain

歯車マークを押すとパラメータを確認できる。

f:id:kazumaxneo:20191104022548p:plain

 

ジョブが終わったものからチェックしたりダウンロードできる。例えばMAFFTのアラインメント結果を見てみる。

f:id:kazumaxneo:20191104022256p:plain

 

MSA viewerを使って視覚化される。

f:id:kazumaxneo:20191104022342p:plain

 

結果

All tree images

f:id:kazumaxneo:20191104022619p:plain

 

newlickをダウンロードしてPhyD3に読み込んだ。

https://phyd3.bits.vib.be/submit.php#

f:id:kazumaxneo:20191104022958p:plain

 

Workspaceでは実行ずみジョブを管理できる(=>トップページのWorkspaceメニューから)。

引用

NGPhylogeny.fr: new generation phylogenetic services for non-specialists
Frédéric Lemoine, Damien Correia, Vincent Lefort, Olivia Doppelt-Azeroual, Fabien Mareuil, Sarah Cohen-Boulakia, Olivier Gascuel
Nucleic Acids Research, Volume 47, Issue W1, 02 July 2019, Pages W260–W265

 
Phylogeny.fr: robust phylogenetic analysis for the non-specialist.
Dereeper A1, Guignon V, Blanc G, Audic S, Buffet S, Chevenet F, Dufayard JF, Guindon S, Lefort V, Lescot M, Claverie JM, Gasc

Nucleic Acids Res. 2008 Jul 1;36(Web Server issue):W465-9.

 

関連


ゲノム間のオロソログを予測してシンテシーブロックとして視覚化する Synima

 

オーソロガス遺伝子は、タンパク質または機能的RNA分子をコードする核酸のセクションであり、単一の祖先遺伝子から派生し、その後に種分化により分岐している[ref.1、2]。対照的に、パラロガスな遺伝子は、単一の種内の重複から生じたものである。 OrthoDB [ref.3]、Eggnog [ref.4]、InParanoid [ref.5]、およびOrthologous Matrix(OMA)プロジェクト[ref.6]を含む、所定のオルソログを探索する多数のリポジトリが利用可能である。オーソロガス遺伝子は、アセンブリまたはアノテーションの完全性を評価し、遺伝子機能を予測/推測するために、および2つ以上の種間の系統解析の前駆体として、新たにアノテーション付けされたゲノムから新たに同定することもできる[ref.7、8、9]。オルソログを予測するための多くのツールと方法が開発されてきた。たとえば、タンパク質のペアワイズBasic Local Alignment Search Tool(BLAST)[ref.10]からの相互のベストヒットを介して開発されている。 :InParanoid [ref.11]またはOrthoMCL [ef.12]。大規模な遺伝子ファミリー、低品質のアノテーション、および/またはアセンブリーはそれぞれ、オルソログ予測の精度に寄与する要因として特定されている[ref.13]。オルソログの予測は、DAGchainerツール[ref.14]などによって、連続したチェーンに含まれる予測を特定することにより、さらに洗練されている。

 オルソログを使用して、シンテニーの証拠を提供できる。2つの個体または種の間の染色体上の遺伝子座の順序の保存である。シンテニック領域の視覚化は、genome expansions[ref.15]や染色体転座[ref.16]などの進化過程の検出と表示に役立つ。さらに、水平方向の遺伝子導入を特定するために、シンテニーの欠如が使用されてきた[ref.17]。ゲノムアセンブリの汚染または不正確さも、たとえばシンテニーのレベルが低い場合や、そうでなければclosely relatedな単離株の染色体リアレンジメントが豊富な場合に検出される場合がある。これらのプロセスを検出する他の方法には、Dot Plots[ref.18]、またはMummer [ref.19]やThreaded Blockset Aligner(TBA)[ref.20]などのグローバルアラインメント検索ツールがある。ただし、これらの方法は本質的に遺伝子中心ではなくゲノムであるため、種全体の遺伝子含有量の変化を特定したり、誤ったオロソログまたはゲノムアセンブリを生物学的変異と区別するための追加作業が必要である。

 Syntenyの視覚化は、Sybil / Sybillite [ref.21]などの一連のソフトウェアスイートおよびツールに実装されている。Sybil/ Sybilliteは、オーソロガス遺伝子のクラスターに基づいていくつかのゲノムを検索および視覚化するコマンドラインおよびWebツールである。別の一般的なシンテニー視覚化ツールはCircos [ref.22]で、ゲノムをサークルとして描き、保存または相互作用の領域間に弧を描く。要件、データ入力、および必要な視覚化の種類の違いにより、比較ゲノムでの使用には依然として追加のツールが必要だが、既存のツールでは多くの場合、新機能の追加の開発と保守とエラー修正が必要である。
 ここでは、Synteny Imager(Synima)という名前のPerlベースのツールを使用して、2つ以上のゲノム間で予測されるオルソログのチェーンを視覚化する。 Synimaは、DAGchainer出力ファイルに含まれるオルソログデータを読み取り、PDFで各ゲノムの染色体と遺伝子間の位置と関係を視覚化するRscriptを生成及び 起動する。染色体および/または最大3つの別々の遺伝子カテゴリーは、最初の実行からコマンドラインで指定するか、Synima構成ファイルで指定することにより、Synimaの1回の実行でオプションで強調表示できる。 Synimaはhttps://github.com/rhysf/Synimaから無料で入手できる。 Synimaは、さまざまなプロジェクト[ref.16、23、24、25]で正常に使用されたコードに取って代わるもので、種間および種内でのゲノムの類似性と進化的変化の定量と提示を促進する。Synimaは、それぞれ1,720〜1,830万塩基の最大12ゲノムを含む一連のデータセットで開発およびテストされている。

 

  

インストール

依存

BioPerlCPANからダウンロードしてビルドする(or apt-get install bioperl
)。legacy blastのformatdb(現在のmakeblastdb)とblastallコマンドにもパスが通っている必要がある。"conda install -c bioconda -y blast-legacy"で入れるか、biocondaのプリビルドバイナリをfetchして来てもいい(2.2.6 link)。

apt update
apt install bioperl
apt install Math::Round
#Rがないなら導入
apt install r-base

 

本体 Github

git clone git@github.com:rhysf/Synima.git
cd Synima/

$ perl SynIma.pl 

Usage:     perl SynIma.pl -c <config.txt> or -a <aligncoords> -b <aligncoords.spans>

 

Commands:  -c Config.txt [/Users/kazu/Documents/Synima-master/SynIma-output/config.txt]

           -a Aligncoords

           -b Aligncoords.spans

 

Optional:  -e Genome FASTA filename extension (e.g. /Users/kazu/Documents/Synima-master/genome1/genome1.genome.fa etc.) [genome.fa]

           -t Aligncoords.spans 2

  -u Aligncoords.spans 3

  -k Gene IDs 1 (1 per line)

  -l Gene IDs 2 (1 per line)

  -o Gene IDs 3 (1 per line)

  -r Run full program (y) or just create config (n) [y]

  -v Verbose output (y/n) [n]

 

Plot Opts: -i Width of figure in pixels [1100]

  -j Height of figure in pixels (num of genomes * 100)

           -g Fill in chromosome/contig synteny (c) or gene synteny (g) [c]

  -z Plot individual genes (y/n) [n]

           -x Order of genomes from bottom to top seperated by comma

  -n Genome labels from bottom to top seperated by comma

  -w number of lines for left hand margin [12]

 

Notes:     Config.txt will be made automatically if not present, and read automatically if it is.

           Config.txt specifies order of genomes, chromosomes, colours, and other plot options. 

  Config.txt can be manually edited after creation.

  Default genome labels will be as they appear in aligncoords

  Order of genomes must have names as they appear in aligncoords

  Aligncoords.spans and Gene ID files will be highlighted according to the config

Citation:  When publishing work that uses Synima please cite:

  Farrer RA (2017), BMC Bioinformatics 18:507 

> perl util/Create_full_repo_sequence_databases.pl -h

$ perl util/Create_full_repo_sequence_databases.pl -h

Usage: perl util/Create_full_repo_sequence_databases.pl -r <Repo_spec.txt>

Optional: -f Feature wanted from GFF [mRNA]

  -s Seperator in GFF description for gene names (" ; etc) [;]

  -d GFF description part number with the parent/gene info [0]

  -m Remove additional comments in column [ID=]

Notes: Will copy all transcripts and specified features from GFF into primary fasta files

>perl ../util/Blast_grid_all_vs_all.pl -h

$ perl ../util/Blast_grid_all_vs_all.pl -h

Usage: perl ../util/Blast_grid_all_vs_all.pl -r <Repo_spec>

Optional: -t Type of alignment (PEP/CDS) [PEP]

          -c Number of best matches to capture between species [5]   # only single best hit

  -s Number of top hits to capture in self-searches for paralogs [1000]  

  -e E-value cutoff [1e-20]

  -o Blast cmds outfile [blast.$type.cmds]

  -g Run commands on the grid (y/n) [n]

  -p Platform (UGER, LSF, GridEngine) [UGER]

  -q Queue name [short]

 

Note: BLAST legacy (formatdb and blastall) need to be in PATH (use BLAST)

perl util/Blast_all_vs_all_repo_to_Orthofinder.pl

$ perl util/Blast_all_vs_all_repo_to_Orthofinder.pl

Usage: perl ../util/Blast_all_vs_all_repo_to_Orthofinder.pl -r <Repo_spec>

 

Optional: -t Type (PEP/CDS) [PEP]

          -o Out directory [Orthofinder_outdir]

> perl util/Blast_all_vs_all_repo_to_RBH.pl

$ perl util/Blast_all_vs_all_repo_to_RBH.pl

Usage: perl ../util/Blast_all_vs_all_repo_to_RBH.pl -r <repo_spec>

 

Optional: -t Type (PEP/CDS) [PEP]

  -o Out directory [RBH_outdir]

  -g Run commands on the grid (y/n) [n]

  -p Platform (UGER, LSF, GridEngine) [UGER]

  -q Queue name [short]

perl util/Orthologs_to_summary.pl -h

$ perl util/Orthologs_to_summary.pl -h

Usage: perl util/Orthologs_to_summary.pl -o <ortholog file (E.g. PEP.RBH.OrthoClusters, all_orthomcl.out, Orthogroups.csv)>

 

Optional -t Type of clustering (OMCL, RBH, Orthofinder) [OMCL]

         -d Outdir from Blast_all_vs_all_repo_to_OrthoMCL.pl (if used) [OMCL_outdir]

-r Repo Spec [./Repo_spec.txt]

-p Repo Spec CDS/PEP file [./Repo_spec.txt.all.PEP]

perl util/DAGchainer_from_gene_clusters.pl

$ perl util/DAGchainer_from_gene_clusters.pl 

Usage: perl util/DAGchainer_from_gene_clusters.pl -r <repo_spec> -c <Ortholog cluster data (E.g. ORTHOMCLBLASTFILE.clusters)>

 

Optional: -z File containing a list of genomes to restrict the analysis to []

  -i Minimum number of paired genes in a single dagchain [4]

  -o Cmds outdir [dagchainer_rundir]

  -l Cmds outfile [cluster_cmds]

  -g Run commands on the grid (y/n) [n]

  -p Platform (UGER, LSF, GridEngine) [UGER]

  -q Queue (hour, short, long) [short]

  -v Verbose (y/n) [n]

 

 

テストラン

cd examples/
perl ../SynIma.pl -a Repo_spec.txt.dagchainer.aligncoords -b Repo_spec.txt.dagchainer.aligncoords.spans
  • -a Aligncoords
  • -b Aligncoords.spans

ディレクトリSynIma-outputができる。

f:id:kazumaxneo:20191103200429p:plain

config.txt.pdf

f:id:kazumaxneo:20191103200414p:plain

 

 

実行方法 (full example run)

1、Repo_spec.txtを指定してCreate_full_repo_sequence_databases.plを実行。

cd examples/
perl ../util/Create_full_repo_sequence_databases.pl -r ./Repo_spec.txt
  • -r    Repo_spec.txt []

 Repo_spec.txtには以下のような情報が記載されている。

f:id:kazumaxneo:20191103202414p:plain

 

CNB2はgenome IDで、カレントに該当するgenome ID名のディレクトリがないといけない。上では4ゲノム比較するので、CNB2のほか、Cryp_gatt_IND107_V2、Cryp_gatt_CA1280_V1、CNB_WM276_v2のディレクトリも存在している必要があ

る。4つのディレクトリそれぞれには以下のようなファイルが入っている。

CNB2(他も同様)

f:id:kazumaxneo:20191103202522p:plain

 

写真にあるように、ディレクトリ内にはゲノム配列とテキストのアノテーション行に記載したannotation-id名のファイル、CNB2なら3行目で指定したCNB2_FINAL_CALLGENES_1~が含まれなければならない。すなわち、以下のようなファイル構成になる。

f:id:kazumaxneo:20191103203157p:plain

  • ゲノム配列 - [genome-id].genome.faという名前にする必要がある。CNB2な CNB2.genome.fa。

アノテーションファイル(CNB2_FINAL_CALLGENES_1~)は以下の3つ。

  • アノテーションのGFF3ファイル -  [annotation-id].annotation.gff3
  • コード領域の塩基配列cdsファイル - [annotation-id].annotation.cds
  • タンパク質配列のPEPファイル -   [annotation-id].annotation.pep  (prptein.fasta)

GFF3にはcdsとpepと同じid名でgeneとmRNA のfeaturesが記載されていなければならない(詳細はGithubのREADME参照)。注意点として、別のゲノムで同じヘッダー名をしようしてはならない。よってヘッダーにchr1とかつけない方が良い。

 

 

2、run all vs all BLAST hits using Blast_grid_all_vs_all.pl

All versus allのblast解析を実行する。全タンパク質を使うため、時間がかかる(*1)。

perl ../util/Blast_grid_all_vs_all.pl -r ./Repo_spec.txt

ランが終わるとそれぞれのgenome_idディレクトリに~RBH_blast_[PEP/CDS]ができる。

 

3、 run OrthoMCL or reciprocal best hits (RBH) on the BLAST output
using Blast_all_vs_all_repo_to_OrthoMCL.pl or Blast_all_vs_all_repo_to_RBH.pl
respectively. 

#ALTERNATIVELY 1 
perl ../util/Blast_all_vs_all_repo_to_RBH.pl -r ./Repo_spec.txt

#ALTERNATIVELY 2
perl ../util/Blast_all_vs_all_repo_to_Orthofinder.pl -r ./Repo_spec.txt

 

4、summarise the OrthoMCL output (OMCL_outdir/all_orthomcl.out)

perl ../util/Orthologs_to_summary.pl -o all_orthomcl.out
  •   -o   Ortholog file (E.g. PEP.RBH.OrthoClusters, all_orthomcl.out, Orthogroups.csv) []

(*2)

 

5、 run DAGChainer on the ortholog summary using DAGchainer

perl ../util/DAGchainer_from_gene_clusters.pl -r ./Repo_spec.txt \
-c GENE_CLUSTERS_SUMMARIES.OMCL/GENE_CLUSTERS_SUMMARIES.clusters

 

6、SynIma.pl

perl ../SynIma.pl -a Repo_spec.txt.dagchainer.aligncoords \ 
-b Repo_spec.txt.dagchainer.aligncoords.spans 

 

引用

Synima: a Synteny imaging tool for annotated genome assemblies

Rhys A. Farrer
BMC Bioinformatics volume 18, Article number: 507 (2017)

 

*1

この4セットのexamleデータでも数時間かかる。

 *2

コードを見る限り-oがオプションとして記載されていない。バグ修正する必要がある。

 

関連


GenBankやEMBL/ENA flat fileをNCBI submission用に変換する GB2sequin

2022/09/06 タイトル変更

 

 一般的なウェットラボのユーザーは、ベクターNTI Advance(Life Technologies、Invitrogen、Carlsbad、CA、USA)またはLasergene SeqBuilder(DNASTAR、Madison、WI、USA)などの市販のシーケンス可視化およびアノテーションソフトウェアを使用して、プラスミドなどの小さい配列にアノテーションを付けることがよくある。ただし、生成されたGenBankまたはEMBLファイルは、NCBIへのsubmitには受け入れられない。 NCBI自体は、アノテーションおよび/またはsubmitツールとしてWebベースのツールBankItまたはスタンドアロンプ​​ログラムSequinおよびtbl2asn [ref.1]を提供しているが、これらのプログラムもGenBankまたはEMBLファイルを読み取れない。代わりに、BankItまたはSequinへの時間のかかる手動の機能入力を回避するために、ユーザーはいわゆる「5列のタブ区切り機能テーブル」、これはfeature tableまたはfeature table(http://www.ncbi.nlm.nih.gov/Sequin/table.html)とも呼ばれる、を提供する必要がある。ただし、GenBankエントリからこのようなアノテーションテーブルを作成するには、NCBI構文に実質的に精通する必要がある。さらに、submitに適したSequinファイルを作成するNCBIの強力なコマンドラインプログラムであるtbl2asnには、アノテーションテーブルといくつかの計算スキルの両方が必要である。

 残念ながら、GenBankエントリ(gbk2sqnおよびgbk2tbl、Andre VillegasとPaulina Konczy、Laborate for Foodborne Zoonoses、カナダ、ゲルフ)からSequinファイルまたはアノテーションテーブルを生成する唯一のパブリックブラウザベースのファイルコンバーターはサポートされなくなった[ref.2] 。 NCBIftp://ftp.ncbi.nlm.nih.gov//toolbox/ncbi_tools/converters/scripts/gbf2tbl.pl)が提供するGenBankパーサー(gbf2tbl.pl, link)は、2つのプログラムを部分的に置き換えることができる。以下で説明するツールと同様に、スクリプトGenBankレコードからアノテーションテーブルとFASTAファイルを生成する。その後、これらのファイルをtbl2asnで読み取って、直接送信用のSequinファイルを作成できる。ただし、GenBankパーサーはユーザーフレンドリーではない。 perlスクリプトとしてのみ提供されており、tbl2asnは手動で実行する必要がある。最後に、GenBankファイルをsubmit形式に変換するArtemis [ref.3]などの無料のスタンドアロンプ​​ログラムに実装された機能には、これらの追加ソフトウェアのインストールが必要である。

 要約すると、GenBankアノテーションアノテーションテーブルに直接変換し、さらに直接送信用のSequinファイルを提供する、Webベースの使いやすいファイルコンバーターが強く求められている。そのため、マックスプランク分子植物生理学研究所ポツダム/ゴルム、ドイツ)でホストおよび開発されたCHLOROBOXツールキット(https://chlorobox.mpimp-golm.mpg.de)の一部としてGB2sequinを開発した。このツールボックスは、(植物由来の)核酸およびタンパク質配列の分析のためのソフトウェアアプリケーションを提供する。もう1つのCHLOROBOXプログラムは、オルガネラゲノムの迅速かつ正確なアノテーションのためのアプリケーションであるGeSeqである[ref.4]。 GB2sequinは、データベース送信のため、GeSeqのアノテーション出力を変換するために使用できる。GB2sequinを使用してNCBIに送信するために、カスタムGenBankファイルを準備できる。

GB2sequinはGenBankファイルを解析し、アノテーションをタブ区切りのアノテーションテーブルに変換する。さらに、GenBankファイルから核酸配列情報を抽出し、NCBIレコードの必須ソースおよび配列情報(以下を参照)とともにFASTAファイルに書き込む。これらの2つのファイルは、BankItを介した送信、または既存のGenBankレコードの更新に使用できる。直接送信用のSequinファイルを作成するために、GB2sequinはtbl2asnを呼び出す。このために、アノテーションテーブル、FASTAファイル、およびシーケンスソースまたは著者の提出情報を含む追加ファイルを組み合わセル(以下を参照)。オプション機能として、GB2sequinは、アノテーション内またはアノテーションにコーディングシーケンス(CDS)、tRNA、および/またはrRNAの遺伝子名を編集または追加できる。これは、より大きなゲノムの改訂に役立つ場合がある。最後に、GB2sequinは品質管理用の複数の出力ファイルを生成する(論文図1)。

(以下略)

 

使い方

CHLOROBOX

https://chlorobox.mpimp-golm.mpg.de/index.html

f:id:kazumaxneo:20191102174609p:plain

植物オルガネラゲノムのアノテーションや配列比較ツールなどがある。

 

ここではGB2sequinにアクセスする。

https://chlorobox.mpimp-golm.mpg.de/GenBank2Sequin.html 

f:id:kazumaxneo:20191102172153p:plain

 

GenBankファイルを指定する。ここではサルモネラゲノムのgenbankファイルを使用する。

f:id:kazumaxneo:20191102174807p:plain

パラメータを指定する。

f:id:kazumaxneo:20191102175319p:plain

 

Molecular typeはgenomic DNAのままとする。

f:id:kazumaxneo:20191102180334p:plain

circularにチェックをつける。

f:id:kazumaxneo:20191102180512p:plain

 

Genetic codeはBacterial,~に変更。

f:id:kazumaxneo:20191102180531p:plain

Locationはないのでgenomicのままとする。

f:id:kazumaxneo:20191102180601p:plain

ランを押して実行する。

 

結果

Validation結果が表示される。下に並んでいる赤いマークボタンをクリックすると、変換後のファイル等をダウンロードできる。

f:id:kazumaxneo:20191102183332p:plain

引用
GB2sequin - A file converter preparing custom GenBank files for database submission.
Lehwark P, Greiner S

Genomics. 2019 Jul;111(4):759-761

 

(初心者向け)mauveを使ってバクテリアゲノムを比較する

 

よく似たゲノム同士を直接比較して、変異がある遺伝子を検出したいことがあります。ここでは、コマンドラインのツールや商用ツールに頼らず、GUIで動作するツールを使ってゲノム比較する手順を書いてみます。

 

1、ソフトのインストール

前にも紹介しましたが、GUI環境で動くゲノム比較ツールとして、mauveがよく知られています。今回はこれを使用しましょう。多少GUIjava特有の癖がありますが、10年以上各OS向けに動作する状態で保守されており、安定に動きます。

 

これをダウンロードします。

http://darlinglab.org/mauve/mauve.html

f:id:kazumaxneo:20191031235310p:plain

ダウンロードリンクです。macwindowslinux版があります。

http://darlinglab.org/mauve/download.html

f:id:kazumaxneo:20191031235420p:plain

指示に従ってインストールします。

 

インストールが終わって起動したことろ。

f:id:kazumaxneo:20191101000803p:plain

 

 

2、ゲノム配列の準備

ここでは、シーケンシングリードをde novoアセンブリして得たcontig配列をクエリとして、ベストマッチの公開ゲノムと比較してみます。ここではサルモネラのデータを使います(ヒトとの関わりが多く、単離もしやすいのでシーケンシングデータも多い)。SRA Explorer紹介)を使ってsalmonellaのpublicのシーケンシングデータをダウンロードし(*1)、de novoアセンブル(shovil)、アセンブリのエラー修正(pilonx3)、そしてDFAST(紹介)を使った自動アノテーション付けまで実行してあります。

 

上記手順で得たcontigs配列を使ってblastn解析を実行します。

https://blast.ncbi.nlm.nih.gov/Blast.cgi?PAGE_TYPE=BlastSearch

ファイルを選択、からcontig配列をアップします。

f:id:kazumaxneo:20191101003908p:plain

Databseはnr/nt、Othersを選択します。

 

ランが終わったところ。最近ベータ版の変更期間を経て新バージョンに変更されました。

f:id:kazumaxneo:20191101005851p:plain

 

Results forからcontig配列を変更できます。

f:id:kazumaxneo:20191101005858p:plain

 

ラン後に閾値のソフトフィルタリングができます。ここではE value 0かIdentity 99-100にします。

f:id:kazumaxneo:20191101010202p:plain


Taxonomyタブのlineage(系統)タブかTaxonomyタブに変更。

f:id:kazumaxneo:20191101010328p:plain

NCBI taxonomyでは以下の分類と判定されました。別のcontigに切り替えて、同じ結果になるか確認して下さい。

f:id:kazumaxneo:20191101010549p:plain

Descriptionタブに戻ります。

f:id:kazumaxneo:20191101010754p:plain

 

NCBIからベストマッチ、ここでは99.59% identicalのSalmonella enterica subsp. enterica serovar Typhimurium strain SAP17-7299 とSalmonella enterica subsp. enterica serovar Typhimurium strain RM10961の配列ダウンロードします。

f:id:kazumaxneo:20191101011744p:plain

 

Sequence ID: CP040566.1を選択。右上のSend to => Complete Record => File => GenBank(ジェンバンクと読む、fullの方を選ぶ)=> Create fileでダウンロード開始します。

f:id:kazumaxneo:20191101011834p:plain

 

3つファイルが準備できました。

f:id:kazumaxneo:20191101013029p:plain

 

3、genome比較

ここではpregressiveMauve(ref.2)を使います。

f:id:kazumaxneo:20191101013317p:plain

右端のボタンでリスト表示に切り替え、目的のファイルを探します。

f:id:kazumaxneo:20191101013319p:plain

登録したらOutputファイルのパスを記載して実行します。

f:id:kazumaxneo:20191101021858p:plain

 

数分で結果が表示されました。(*2)。上のメニューから拡大、縮小、移動などができます。

f:id:kazumaxneo:20191101022213p:plain

 

GenBankを使っているので、遺伝子とアノテーション表示されます。

f:id:kazumaxneo:20191101023326p:plain

 

exportからSNV、indelをexportできます。

SNV出力。

f:id:kazumaxneo:20191101022856p:plain

 

補足

変異を持っている遺伝子が同定できたら、そのタンパク質配列を取り出し、KAASを使ってアノテーションをかけてみましょう。KAASはベストヒットに基づいてKEGG orthology (KO) identifierをアサインし、KEGG pathwayにリンクしてくれます。

https://www.genome.jp/kegg/kaas/

 

今回はここまでにします。Mauveを使うことで、塩基置換、スモールサイズのindelを検出することができました。

 

追記

比較する株が公開されているゲノム配列と比べて大きく違う場合、例えば塩基置換のコールが1千~10万出てしまう時は、上記の手順では難しくなります。その場合でも何とか比較の糸口を掴みたいとなると、タンパク質レベルで比較するやり方もあります。以前紹介したOrthovenn2を使えば、共通・非共通のタンパク質群を検出して、さらにGOエンリッチメント解析などを実行できます。参考にして下さい。


引用

Mauve: Multiple Alignment of Conserved Genomic Sequence With Rearrangements
Aaron C.E. Darling, Bob Mau, Frederick R. Blattner, Nicole T. Perna

Genome Res. 2004 Jul; 14(7): 1394–1403

 

progressiveMauve: multiple genome alignment with gene gain, loss and rearrangement

Darling AE1, Mau B, Perna NT

PLoS One. 2010 Jun 25;5(6):e11147

 

KAAS: an automatic genome annotation and pathway reconstruction server
Moriya Y, Itoh M, Okuda S, Yoshizawa AC, Kanehisa M

Nucleic Acids Res. 2007 Jul

 

関連


 

*1

手頃なサイズのものを適当に選んでいます。

 

*2

ラン中にエラーが出たら、アノテーションファイルが対応していない可能性があります。GenBankではなくゲノム配列を使うか、NCBIからゲノム配列をダウンロードして、DFASTで再アノテーションすることで解決することがあります。

 

ゲノムを分類、クラスタリングし、視覚化する JGI-GenomeConstellation

 2019 11/3 タイトル修正

 

 これまでに特定されていない分類群を含む分類群の分類は、南極の乾燥した谷にある永久に氷に覆われた湖を含む、記載されていない生息地の微生物群集を特徴付ける重要なタスクである。現在の監視された系統発生ベースの方法は、そのような生息地からのメタゲノムデータセットからアセンブリされた種を認識するには不十分である。ここでは、効率的なソフトウェアスイートである「GenomeConstellation」を報告する。これは、多数のメタゲノムアセンブリゲノムを迅速に特徴付けることができる。 Genome Constellationは、k-merの一致に基づいてゲノム間の類似性を推定し、これらの類似性を使用して分類、クラスタリング、そして視覚化する。GenomeConstellationによって形成されたリファレンスゲノムのクラスターは、既知の系統発生的関係に非常に似ていると同時に、予期しない接続を明らかにしている。系統樹に配置できるのはわずか40%である南極の湖のコミュニティから集められた1,693のドラフトゲノムを含むデータセットでは、Genome Constellationは分類群の割り当てを61%に改善した。クラスタリングベースの分析により、新しい細菌門を表す可能性のある6つのクラスターを含む、いくつかの新しい分類群が明らかになった。驚くべきことに、63の新しい巨大ウイルスを発見したが、そのうち3つは従来のマーカーベースのアプローチでは発見できなかった。要約すると、GenomeConstellationは、多数の微生物ゲノムを迅速に分析し、それらの関連性を視覚的に調査するための公平なオプションを提供することを示している。このソフトウェアは、BSDライセンスの下で入手できる:https://bitbucket.org/berkeleylab/jgi-genomeconstellation/

 これまでのゲノムの類似性の可視化は、主にツリーベースの方法に限定されており、これらの方法は多数のゲノムには適しておらず、インタラクティブな探索機能も提供していない。この研究では、次の機能を備えたメタゲノムからアセンブリされたドラフトゲノム分析のためのツールセットであるGenomeConstellationを開発した。1) 高速なゲノム類似性比較のためのビットベクトル実装; 2)ゲノム類似性に基づくクラスタリング; 3)k-nearest-neighbor、またはKNNベースのtaxonomy分類; 4)Webベースのインタラクティブな視覚化ツール。 

 

live demo

  

コマンドラインツールのインストール

ubuntu18.04LTSでテストした。

ビルド依存

  • gcc >=4.8
  • boost development libraries with program-options
  • libz development libraries
apt update
apt-get install build-essential libboost-dev libboost-program-options-dev libz-dev

git clone https://bitbucket.org/berkeleylab/jgi-genomeconstellation.git
cd jgi-genomeconstellation/src/
make && make install

./jgi_gc -h

# ./jgi_gc -h

 

JGI-GC: Genome Constellation (version 0.21.1; Oct 29 2019 17:38:50)

by Don Kang (ddkang@lbl.gov), Rob Egan, Derek Macklin, Jeff Froula, and Zhong Wang

 

Allowed options:

  -h [ --help ]                        produce help message

  -i [ --query ] arg                   Query file. Either a single column list file or precalculated 

                                       fingerprints file. [Mandatory]

  --target arg                         Target file. Either a single column list file or precalculated 

                                       fingerprints file.

  --outGC arg                          GC score output file.

  --outFP arg                          Fingerprints output file.

  --minANI arg (=70)                   Minimum ANI threshold to output [60-100]

  --minScore arg (=18.721900000000002) Minimum score

  --noANI                              No ANI transformation. Keep raw GC Score.

  --append                             Append new fingerprints to supplied reference fingerprint file.

  --self                               Indicate query and target are the same. Set to true if target is 

                                       missing.

  --cache arg (=50)                    Percentage of system memory allocated for caching [1-90]

  -t [ --numThreads ] arg (=0)         Number of threads to use (0: use all cores)

  --batchIndex arg (=0)                Batch index (0: the first)

  --batchSize arg (=0)                 Batch size (0: no batches)

  --minFraction arg (=1024)            (expert) Minimum hash threshold. 1 kmer out of minFraction bases in 

                                       the genome will be added to the fingerprint. It must be power of 2 

                                       (1==all)

  --numBits arg (=131072)              (expert) Number of bits in the fingerprint. It must be a power of 2 

                                       and >=2048

  -d [ --debug ]                       Debug output

  -v [ --verbose ]                     Verbose output

 

webアプリのインストール

dockerイメージとして配布されている。latestタグのイメージを引っ張ってくる。

docker pull lblzhongwang/jgi-genomeconstellation-app:latest

 

実行方法

ここではポート番号8888番で立ち上げる。

docker run -p 0.0.0.0:8888:80 lblzhongwang/jgi-genomeconstellation-app:latest

ブラウザからhttp://localhost:8888 にアクセスする。

 

ゲノムのfaファイルを指定する。

f:id:kazumaxneo:20191101171959p:plain

結果

f:id:kazumaxneo:20191101172128p:plain

登録されている中でこの3つのクラスタに最も近い。

visualizeをクリックしてゲノムのクラスタを視覚化する。徐々に広がっていく。

f:id:kazumaxneo:20191101172216p:plain

 

 

広がりきった。

f:id:kazumaxneo:20191101172707p:plain

 

このように、Genome Constellation Webアプリはphylumレベルで異なる色のプロットにしてゲノム間の距離を可視化する。この可視化により、既知の種間の隠れた関係が明らかになる。論文の例では、 既知のDehalobacter spはファーミキューテス門に属していいるが、放線菌クラスターへのゲノムへのリンクが示されていることが述べられている。使用されているゲノムは、論文に記載されているNCBI 7k referenceというデータベースになる。これは 、NCBI FTP archiveからの29,195 Eukaryota, Bacteria, and Archaea genomes, 7,254 Virus and 84 Giant Virus genomeのフルセットから、短すぎる配列や長すぎる配列、冗長な配列を除いたものになる(Datasets used in benchmarking GSS~を参照)。

 

左上に簡単なヘルプがある。 

f:id:kazumaxneo:20191101220420p:plain

 

アサインされている色はtaxonomyに対応している。

f:id:kazumaxneo:20191101220353p:plain

 

特定の分類群のプロットだけ非表示にすることが可能。

f:id:kazumaxneo:20191101220659p:plain

色も変更可能。

 

ベストヒットのゲノムをクエリのプロットを探す。

f:id:kazumaxneo:20191101172826p:plain

 

マウスのホイールで拡大。

f:id:kazumaxneo:20191101172921p:plain

 

 

作成中

 

引用

A new method for rapid genome classification, clustering, visualization, and novel taxa discovery from metagenome

Zhong Wang, Harrison Ho, Rob Egan, Shijie Yao, Dongwan Kang, Jeff Froula, Volkan Sevim, Frederik Schulz, Jackie E. Shay, Derek Macklin, Kayla McCue, Rachel Orsini, Daniel J. Barich, Christopher J. Sedlacek, Wei Li, Rachael M. Morgan-Kiss, Tanja Woyke, Joan L. Slonczewski

bioRxiv preprint first posted online Oct. 21, 2019