macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

metagenome

k-tuplesに基づきビニング結果を改善する d2SBin

メタゲノミクスシーケンシングは、微生物群集の深い洞察を提供する[論文より ref.1]。メタゲノミクスデータ内の分類学的構造を調べるための重要なステップは、アセンブリされたコンティグをビン(bins)と呼ばれる別個のクラスターに割り当てることである[re…

クラスタを自動で決めてビニングする BinSanity

微生物の生態学に関する研究は、微生物の単離と培養が困難であることによるボトルネックを経験することが普通である(論文より Staley&Konopka、1985)。実験室環境でほとんどの生物を培養することの困難さのために、代替方法を使ってコミュニティ構造およ…

メタゲノムアセンブリ結果を可視化してマニュアルビニングを助ける gbtools

ほとんどの環境微生物が難培養性であることを考えると、microbial ecologyの分野では、metagenomicsは全コミュニティの機能を調べる手段に由来していた(論文より Handelsman、2004; Kunin et al、2008; Teeling and Glockner、2012)。研究者は、微生物群全…

GCによって仕分けメタゲノムアセンブリを改善する GCSplit

メタゲノミクスは、土壌、海、さらには人体のような様々な環境でコミュニティとして共生するバクテリアの集合したDNAを決定することにある[論文より ref.1-3]。ある意味では、メタゲノミクスの分野は、科学者が特定のコミュニティに存在するすべての生物を調…

小メモリで高速にメタゲノムのtaxonomy profilingを行う metaOthello

Metagenomicsとは、興味ある環境から得られたゲノム研究であり、例えばヒトの体内(Huttenhower and Human Microbiome Project Consortium、2012)、海水(Venter et al。、2004)、酸性雨排水(Tyson et al 、2004)などが例として挙げられる。メタゲノミク…

メタゲノムのtaxonomyアノテーションを行い定量する MGmapper

迅速で効率的なDNAシーケンシング技術の進歩により、堆積物[論文より ref.1] [ref.2]、水[ref.3]、氷[ref.4]、ヒトなど様々な環境から微生物群集を研究することが可能になった[ ref.6]。既知のDNA配列決定プラットフォームの中で、イルミナHiSeqおよびMiSeq…

抗生物質耐性遺伝子のde brujin graphを出力する metacherchant

抗生物質に対する微生物の抵抗性(抗生物質耐性、AR)の広がりは、世界的な医療問題である。多剤耐性の病原性微生物は特に危険性が高い。 AMR(O'Neill、2016)の報告書によれば、AR関連死亡者の負担は、2050年までに年間1000万人、世界的な経済的負担は100…

メタゲノムデータ間の類似性を計算し可視化する metafast

最近、コンピュータ生命科学者たちは、利用可能なショットガンメタゲノミックデータセットの量が驚異的に増加するのを目の当たりにしている。データ分析の次元性を低下させるという課題は、メタゲノムの統計分析の第一の要求である。これには、分類学的およ…

   メタゲノムから特定の種のリードを得る MetaObtainer

微生物ゲノム研究は通常、実験的限界のために1つの細菌株に焦点を当てる。この種の方法は、少なくとも2つの欠点を有する:(1)微生物の99%以上が未知であり、栽培または単離することができない。 (2)生息地の微生物が互いとその宿主に対して様々な機能的…

メタゲノムデータを使ってシングルセルのエラー訂正を行う MeCorS

自然界に存在する大部分の微生物種は培養できないが、メタゲノミクスや最近のシングルセルシーケンス技術によりゲノムにアクセスできるようになってきた。シングルセルシーケンスとメタゲノムのショットガンシーケンスが同じ環境サンプルから生成され、方法…

バクテリアをstrainレベルで検出する StrainSeeker

病原性細菌の検出には、細菌病原体を迅速に同定する必要がある。このために、通常、病原体は単離され、PCRや全ゲノム配列が行われる。分子タイピングの主な目標の1つは、病原体をクローン群に分類することである。なぜなら、同じ種の系統は宿主に対して大き…

kallistoを動かしメタゲノムからウィルスゲノムを高速に検出・定量する FastViromeExplorer

伝統的なウイルス同定法は単離および培養に依存しており、時間がかかるだけでなく、多くのウイルスおよび宿主が培地で増えないため実行不可能なことも多い。 2004年に登場したNGSの技術により、ウイルスとその存在量を迅速に測定することが可能になった。ウ…

簡易なメタゲノムもシミュレートできるfastqのシミュレータ GemSIM

GemSIMは汎用フォーマットのSAMおよびFASTQ(IlluminaおよびRoche454を含む)と互換性のあるシングルエンドまたはペアエンドのリードを生成できるNGSのシミュレータ。ユーザーが比率を指定することで、簡単なメタゲノムのシミュレートを行うこともできる。 P…

rRNAのコンタミを除く SortMeRNA

SortMeRNAはメタトランスクリプトームやメタゲノムのシーケンスデータからrRNAを高感度に検出し、フィルタリングするツール。出力はfasta、fastq、アライメントのsam、またblastライクな出力も可能である。Illumina, 454, Ion Torrent and PacBioのシーケン…

cBarでプラスミド配列を区別する

cBarは(論文発表当時では)大規模なトレーニングデータを用いて学習されたメタゲノムなどのデータ(FASTA)中の プラスミドゲノムを区別する方法論。5量体頻度(pentamer frequencies)を元に判定を行う。入力はFASTAは配列。 インストール macOSXではビル…

メタゲノムデータからvirusゲノムを検出するVIP

VIPはメタゲノムデータからホスト由来のコンタミリードを除き、virus由来のリードをアセンブルしてviursを分類・検出するパイプライン。クオリティトリミングからvirusのデータベースにリードをアライメントして照合することまで自動化されており、シンプル…

メタゲノムデータからホストゲノムなどのコンタミを除く作業を自動化するラッパーツール KneadData

バクテリアのメタゲノム解析では、度々ホストゲノムのコンタミリードがシーケンスされてしまうことがある。KneadDataはそのようなホスト由来のリードや低クオリティのリードをフィルタリングするために設計されたツールである。 Trimmomaticでのクオリティト…

興味のある遺伝子をメタゲノムやメタトランスクリプトームから抽出するgraftM

gtaftMは指定した遺伝子ファミリーをメタゲノムデータから探し出し、あらかじめ作成した系統樹に配置するためのツール。 インストール 依存ツール orfM (straightforwardなORF検出) https://github.com/wwood/OrfM/releases ダウンロードしてビルドする。 …

メタゲノムからビニングしたゲノムが完全か、またコンタミがあるか評価する CheckM

ドラフトゲノムからゲノムの完全さを正確に見積もるには、ゲノムの完全さと汚染の度合いの正確な推定が必要となる。そのための方法として、一般にすべての細菌または古細菌ゲノムにわたって保存されたマーカー遺伝子を利用することができる。CheckMは、参照…

メタゲノム向けの全ORF検出ツール OrfM

OrfMはcontigやアセンブルされていないリードからstopコドンの有無に関わらずorfを探索するツール。データサイズが莫大になるメタゲノム向けに設計された。非常に高速に動作し、translateやembossパッケージのgetorf、prodigalなどより数倍速く動作するとさ…

BlobToolsでcontigのカバレッジ、GC、taxonomy情報をグラフ化する。

アセンブリしたcontig中に、アセンブリツールのアーティファクトやコンタミ由来のcontigが混じることは頻繁に起きる。そのため、アセンブリのクオリティチェックの一つにターゲットとなる生物以外の配列がどれほど混じっているか見積もることが重要になる。B…

メタゲノムデータをbinningして種を予測するMBBC

MBBCはメタゲノムをbinningする方法論。リード中のk-mer頻度とk-merカバレッジから分類とabundanceの見積もりを行う。2015年に論文が発表された。 マニュアル http://eecs.ucf.edu/~xiaoman/MBBC/man1V1.html ダウンロード ラン GUIバージョンとターミナルで…

メタゲノムの自動解析パイプライン MyCC

MyCCは全プロセスを自動化したメタゲノム解析ツール。contigのfastaファイルを入力すると、配列の特性に従って自動で分類し、binning向けに色がついた図を描画し、さらにクラスタリングされたfastaまで出力することができる。既存のカバレッジやペアリードの…

BBMapでメタゲノムの簡単なシミュレートを行う

メタゲノムをシミュレートするには、ゲノムごとのインサートサイズや増幅biasなどを考慮する必要があり、厳密に行うと計算が複雑になる。また計算リソースも高度に要求される。そのためGPUを使ったシミュレーションツールなども登場している。それに加えて、…

メタゲノムデータを種レベルで検出し割合を計算するMOCAT

公式サイト チュートリアル http://vm-lux.embl.de/~kultima/MOCAT/tutorial.html ダウンロード http://vm-lux.embl.de/~kultima/MOCAT/download.html fetchMGとの違い Taxonomic profiling using mOTUs インストール macOSでは動作しない。cent OSに導入し…

UCLUSTでクラスタリングする

相同な配列をクラスタリングするツール。相同性の下限値を指定してランすると、閾値以上の相同性を持った塩基配列をまとめてくれる。CD-HIT-ESTより高速に動作するとされる。 ダウンロード http://www.drive5.com/uclust/downloads1_2_22q.html マニュアル h…

メタゲノムデータを種レベルで検出し割合を計算するmOTUとfetch-MG

環境サンプル中の種の多様性を評価する手法として16S rRNA遺伝子を特異的に増幅する手法がよく知られているが、種によっては配列の異なるrRNA遺伝子を複数持つことがある。ここにPCR増幅のbiasもかかってくるため、16S rRNAだけでメタゲノムデータを評価する…

メタゲノムデータをbinningして出力可能なGUIアプリ VizBin

VizBinはメタゲノムデータをレファレンスに依存せずにbinnigする手法。5-merの配列 をオリゴヌクレオチドの頻度として計算し、其の頻度からアセンブルデータを分類する。最終的に2次元のPCAプロットとしてビジュアル化してくれる。どこからどこまでを1つの…

krakenによるメタゲノムデータの高速なtaxonomyラベリング

krakenは2014年に発表されたメタゲノムデータの分類手法。fastqまたはfastaの入力からk-merの配列に分解し、構築したデータベースにアライメントを行う。BLASTと同等の精度を保ちながら、megablastより最大909倍高速と主張されている。似たツールにメタゲノ…

MetaPhlAn2によるメタゲノムデータの解析

MetaPhlAn2は、メタゲノムシーケンスデータから、どのような生物がどのくらいの割合でいるのか評価するツールである。種の同定が可能なのは、著者らが要した100万以上のマーカー遺伝子が生物と紐付けされていて、そのデータベースの配列にアライメントを行う…