macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

メタゲノム

メタゲノム向けの全ORF検出ツール OrfM

OrfMはcontigやアセンブルされていないリードからstopコドンの有無に関わらずorfを探索するツール。データサイズが莫大になるメタゲノム向けに設計された。非常に高速に動作し、translateやembossパッケージのgetorf、prodigalなどより数倍速く動作するとさ…

BlobToolsでcontigのカバレッジ、GC、taxonomy情報をグラフ化する。

アセンブルで作られたcontigの中には、アセンブラのアーティファクトやコンタミ由来のcontigが混じることはよくある。そのため、アセンブリのクオリティチェックの一つにターゲットとなる生物以外の配列がどれほど混じっているか見積もることが重要になる。B…

メタゲノムデータをbinningして種を予測するMBBC

MBBCはメタゲノムをbinningする方法論。リード中のk-mer頻度とk-merカバレッジから分類とabundanceの見積もりを行う。2015年に論文が発表された。 マニュアル http://eecs.ucf.edu/~xiaoman/MBBC/man1V1.html ダウンロード ラン GUIバージョンとターミナルで…

メタゲノムの自動解析パイプライン MyCC

MyCCは全プロセスを自動化したメタゲノム解析ツール。contigのfastaファイルを入力すると、配列の特性に従って自動で分類し、binning向けに色がついた図を描画し、さらにクラスタリングされたfastaまで出力することができる。既存のカバレッジやペアリードの…

BBMapでメタゲノムの簡単なシミュレートを行う

メタゲノムをシミュレートするには、ゲノムごとのインサートサイズや増幅biasなどを考慮する必要があり、厳密に行うと計算が複雑になる。また計算リソースも高度に要求される。そのためGPUを使ったシミュレーションツールなども登場している。それに加えて、…

メタゲノムデータを種レベルで検出し割合を計算するMOCAT

公式サイト チュートリアル http://vm-lux.embl.de/~kultima/MOCAT/tutorial.html ダウンロード http://vm-lux.embl.de/~kultima/MOCAT/download.html fetchMGとの違い Taxonomic profiling using mOTUs インストール macOSでは動作しない。cent OSに導入し…

UCLUSTでクラスタリングする

相同な配列をクラスタリングするツール。相同性の下限値を指定してランすると、閾値以上の相同性を持った塩基配列をまとめてくれる。CD-HIT-ESTより高速に動作するとされる。 ダウンロード http://www.drive5.com/uclust/downloads1_2_22q.html マニュアル h…

メタゲノムデータを種レベルで検出し割合を計算するmOTUとfetch-MG

環境サンプル中の種の多様性を評価する手法として16S rRNA遺伝子を特異的に増幅する手法がよく知られているが、種によっては配列の異なるrRNA遺伝子を複数持つことがある。ここにPCR増幅のbiasもかかってくるため、16S rRNAだけでメタゲノムデータを評価する…

メタゲノムデータをbinningして出力可能なGUIアプリ VizBin

VizBinはメタゲノムデータをレファレンスに依存せずにbinnigする手法。5-merの配列 をオリゴヌクレオチドの頻度として計算し、其の頻度からアセンブルデータを分類する。最終的に2次元のPCAプロットとしてビジュアル化してくれる。どこからどこまでを1つの…

krakenによるメタゲノムデータの超高速なtaxonomyラベリング

krakenは2014年に発表されたメタゲノムデータの分類手法。fastqまたはfastaの入力からk-merの配列に分解し、構築したデータベースにアライメントを行う。BLASTと同等の精度を保ちながら、megablastより最大909倍高速と主張されている。似たツールにメタゲノ…

MetaPhlAn2によるメタゲノムデータの解析

MetaPhlAn2は、メタゲノムシーケンスデータから、どのような生物がどのくらいの割合でいるのか評価するツールである。種の同定が可能なのは、著者らが要した100万以上のマーカー遺伝子が生物と紐付けされていて、そのデータベースの配列にアライメントを行う…

PanPhlAnによるメタゲノムのプロファイリング

PanPhlAnはメタゲノムをstrainレベルで解析するツール。調べるのは遺伝子の有り/無しで、データベースのゲノムと比較することでメタゲムシーケンスしたバクテリアの特定の種に、実際にはどれくらいの多様性があるか(どれくらいのstrainが混じっているか)を…

メタゲノム解析ツール

使ってみて便利だったツールを紹介する。 Genome sequences of rare, uncultured bacteria obtained by differential coverage binning of multiple metagenomes Albertsen et al. (2013) メタゲノムデータから、各生物ごとのデータを大まかに仕分け、その後…