macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

補足資料

 

 オープンソースのソフトウェア(OSS)を自分のコンピュータ環境にインストールすることは、必ずしも簡単ではない。これは、1)多様な開発者が多様なプログラミングフレームワークを用いて作成しており、導入するための条件がそれぞれのツールによって異なること、2)1つの環境に様々なソフトウェアをインストールすることでソフトウェアの依存関係の衝突が起きやすくなること、3)インストールが成功しても、環境を維持し続けるのは困難であることが挙げられる。多数のOSSに依存したメタゲノム解析ではこの傾向はより悪化する可能性が強 い。したがって、依存するソフトウェアを全てインストールできる環境は限定的になってしまう。この問題を解決するには、専門のサポート要員がいるスパコンサービスや商用のクラウドサービスを使うのが理想的だが、全ての研究者が直ちに利用できるわけでもない。

 ここでは、メタゲノム研究でよく使われるOSSパッケージを簡単に紹介しつつ、Linuxマシンへの導入方法及び実行方法について解説する。とは言っても、メタゲノム解析技術の登場から20年程度にも関わらず、既にメタゲノムでアプローチできる研究分野が膨大な数存在する(引用)。論文になっているソフトウェアだけに限定しても、全てに言及する事は不可能になっている。そこで、よく使われる人気のツールに的を絞った。シーケンスによるメタゲノム研究はまだ発展途上であり、今後より精度の高い方法に置き換わっていく可能性はあるが、メタゲノム解析のソフトウエアを選ぶ際の参考にしてほしい。インストール環境は、LinuxUbuntu長期サポートバージョン (18.04と20.04)を想定している(なるべく主要なLinux distributionを使って下さい)。

 

論文では書かれないことが多いが、メタゲノム解析やMetatranscriptome解析を行うにあたって注意したい事。私見も大いに含まれるので注意。

  •  メタゲノムアセンブリでは短いcontig配列も大量に出力されるが、短いcontigからは配列の特徴量を安定して得られないため、ビニングできない。従って、メタゲノムアセンブルでは、1kb以上、できれば2.5kb以上のcontig配列がどれだけできているかが重要(次点でアセンブルエラー)。もちろん長いほど良い。。つまり、ロングリードシークエンシングはビニング精度を改善するために有用。

  • ビニング精度を上げるためにもロングリードシークエンシングは行いたい所だが、できるだけ高分子のDNAを抽出しつつ、バイアスなく細胞を破砕する技術は難度が高い可能性がある。何も考えずにDNA抽出を行うと、均一に細胞が破砕されず、分解された短いDNAが非常にたくさん読まれてしまう可能性がある。セル当たりのリード数は少ないので、これは非常に問題になる。メタゲノム解析にロングリードは有効な方法ではあるが、大規模にシークエンシングする前に、これらの問題をよく検討しておくこと。
  • アセンブルした配列を評価する時は、まず配列の連続性を調べる。その際は、短い配列は無視して、kb以上の配列のトータル長に注目する。次にindelエラーが多くないか調べる。

  • ビニングはメタゲノムの解析精度を決める支配的なステップだが、ビニングには菌叢の複雑さによって特徴がある。まず菌叢の多様性が低いサンプルでは、自動・手動のどのようなアプローチでもほぼ間違いが起こらない。これはGCやk-mer、カバレッジなどを視覚化すると直感的に理解できる。一方で、複雑な菌叢のサンプルでは、どんなビニング方法でもエラーが起きる。また、真核微生物、プラスミド、ファージなどのビニングはより難しい。ビニングはメタゲノム解析の強いボトルネックである。
  • ビニング結果を改善するために様々な方法が提案されているが、菌叢が複雑なサンプルでは、配列特徴量から確率的距離を計算してクラスタリングする手法には限界がある。最近は、深層学習による自動ビニング法にのトレンドが移りつつある。特に最近発表されたVambは、複雑なサンプルでも高いパフォーマンスを発揮する事が報告されている。私自分の経験になってしまうが、人気のbinnerの倍以上のbin配列が得られたこともある(vamb紹介)。vambはCAMI2 challengeにも参加している。菌叢の複雑さによる性能が気になる場合、そちらのプレプリントも確認すること。
  • MaxBin2などの配列の存在量も特徴量として使うビニング法では、DNA抽出方法を変えて複数シークエンシングして、それを全て指定してランした方が、クラスタリング精度が上がるとされている。では、完全に同一の環境のサンプルではないが、(同じ研究の)非常に似た環境のシークエンシングデータの組成データも使えば、クラスタリング精度は上がるのではないだろうか?。ケースバイケースなので、数をこなさないと傾向は見えてこないのは分かっているが、地下水メタゲノムデータでテストしてみた。結論としては、環境が少しでも違うサンプルは、アセンブルした配列へのマッピング効率が低く、クラスタリング結果に正の効果も負の効果も引き起こされなかった。あくまで1サンプルだけ試しただけで、傾向を見たものではないが、全く同じ環境のサンプルでない限りはクラスタリング精度の向上は期待できないかもしれないし、動物の腸内のようなより菌の組成が似た環境では、クラスタリングに正の効果があるのかもしれない。これについて検討した研究もあるかもしれないが、見つけられていない。

  • あるbin配列を読んだリードだけを集めてきて、単離細菌ゲノムのアセンブラで再アセンブルすることで、そのビン配列の連続性を改善できることがある。これをre-assemblyと呼ぶ。re-assemblyが上手くいくのは、bin配列単独のアセンブリに関しては、メタゲノムのアセンブル設定よりも、単離ゲノムのアセンブラの設定がより適しているからとされる(metaWRAPの論文より)。しかし、存在量の多い近縁種がたくさん存在する場合は、コンセンサス配列で表現しないとかえって連続性が悪くなってしまうので、これはケースバイケースと言える。Metawrapパイプラインには、このre-assemblyを自動で行うReassemble_binsモジュールが組み込まれている。実行すると、bin配列のre-assemblyを行って、checkMによる評価が改善した時だけコンティグを置き換えてくれる(このモジュールだけの利用も可能のはずだが、binのmulti-fastaファイルをリネームする必要があり、大変かもしれない)。
  • MetatranscriptomicsではTrinityおよびRSEMを用いて転写産物を直接定量することもできるが、この方法で菌叢の発現プロファイルを比較すると、正規化のステップで問題が発生する可能性がある。これは、菌叢の菌組成が変化していることと、転写産物が変動していることを区別できない事にある。そのため、菌叢が激しく変化している2点の転写産物をアセンブルして定量・正規化すると、TPMやTMMなどで正規化していても、ほとんどの遺伝子が変動とみなされてしまう。菌に焦点を当てず、ある環境での転写産物の増減だけを考えたいなら問題ではないが、菌それぞれの転写変動に焦点がある場合、菌の存在量と変化の転写量の判別は重要になる。ではどうするかだが、どのような研究でもMetatranscriptomeを単独で行うのは避け、Metatranscriptomeとメタゲノムを組み合わせるのが有効と考えられる。この方法を取り入れると、解析手順は以下のようになる。1)メタゲノムのアセンブル、2)ビニング、3)bin配列それぞれへのMetatranscriptomeのリードをマッピング、4)bin配列それぞれのRNA seq解析。この1−4の手順で解析を行うと、最終的にはbin配列それぞれのRNA seq解析となる。言い換えれば、密接に関連した菌だけ扱う単純化されたMetatranscriptome解析を行えるよう、工夫するということである。私の経験では、この状態で正規化して分布を調べると、正規化は機能しているbinと、まだ複数の菌のRNA seqが混じっていて合成の分布を見ているようなものに分かれることもあるが、単離株のRNA seqの発現量の分布に見えるデータもある。前者は、まだメタゲノムが株レベルの解像度のアセンブルが難しいことと関係があるのだと思われる。このコメントに疑問を抱かれる方は、転写産物の発現量の分布をMetatranscriptome 全体とbin単独で視覚化してみることを勧める。Metatranscriptomeの全配列の発現量の分布は複数のtranscriptomeを重ね合わせたように複数の分布が重ね合わせたような複雑な分布をしているが、bin配列単独のtranscriptomeの発現量の分布は、単離細菌のtranscriptomeのの発現量の分布の形状に似ているはずである。
  • 以前mOTUs(Github)というパッケージを紹介したが、これはベースライン転写活性を定量するために、これはハウスキーピング遺伝子を使ってコミュニティプロファイリングを行う方法である。Metatranscriptomeにも使えるとされる。最近、mOTUsのプロトコルを説明した論文が公開された。

 

 

  

 

 

ここからは、メタゲノム解析の個別のステップについてまとめる。

1、アセンブル前の処理

クオリティトリミング

低クオリティ領域のトリミング、残存アダプター配列のトリミング、ヒトゲノムなどの宿主由来配列の除去、低複雑度の領域のリードのフィルタリングなどを行う。PCR duplication除去を行うと、存在量が多いDNA配列がフィルタリングされてしまう(関連)。そのため、PCR duplication除去は一般的には行わない。

 

宿主のゲノムにマップされるシークエンスリードのフィルタリング

リファレンスに適切にマッピングされるペアエンドリードだけを捨てる(宿主のリファレンスゲノムが正しい限りは保守的な方法)。

ロングリードメタゲノミクスでは、リード全長がマップされるパラメータになっていないと、マッパーが好感度すぎて同じことはできないと思われる。

 

シークエンシングデプス

ヒトの排泄物などの純粋なサンプルではは6~9GB、複雑な微生物相や、または宿主由来のDNAで汚染されたサンプルの場合、、1サンプルあたり30~300GBのシーケンスが必要になる(Pubmed)。

 1、Nonpareilはrarefaction curvesを生成してメタゲノムデータのシーケンス量を調べるパッケージ。微生物群集のどの程度がシーケンスされたのかを推定するために使われる。

 

エラーコレクション

メタゲノムのk-merベースコレクションを行うと、非常に存在量の少ない菌のDNA配列が消えてしまう可能性があるが、アセンブラにとっては利点が多い;メモリ使用量を削減し、計算時間を減らす。JGIから公開されているBBtools(オープンソース)には、bbcmsというメタゲノムのk-merベースエラーコレクションコマンドが組み込まれている。メタゲノムアセンブリの計算負荷を下げ、de Bruijnグラフの疑わしい分岐を取り除いてコンティグの連続性を上げるために、エラーコレクションを検討しても良いかもしれない。

SPAdes、khmerに実装されているエラー修正アプローチは、高頻度のリード内の低頻度のk-merに限定されている。そのため、最も可能性の高いシーケンスエラーのみを除去できる。(存在量の少ない種からシーケンス情報を取り除く恐れがない)。

  

デジタルノーマライゼーション

過剰なゲノム領域のリカバレッジを減らし、一方で低カバレッジの領域を保存することで、シーケンスデータセットのサイズと複雑さを低減する。存在量が多すぎてde Bruijnグラフの分岐が増えてしまうような菌のゲノムでも、存在量の多いk-merを含むリードを除くことで、分岐を減らすことができる。そのため、ディスク使用量を減らすだめでなく、存在量が多すぎる菌ゲノムのアセンブルにプラスの効果をもたらす可能性がある。

カバレッジ情報は部分的に失われるため、ノーマライズしたfastqで菌の存在量を調べてはいけない。また、メタゲノムアセンブリでは、カバレッジをグラフの解像に使用する可能性がある。ノーマライズすることでこれが失われると、一部のリピートが正しく解像されない可能性がある点に注意が必要。

 

プレアセンブルツール 

LSAは複数のサンプル間の共分散に基づいてリードを分割する。

GCsplit

 

 

2、メタゲノムアセンブリ

 いくつかのメタゲノムアセンブラが発表されている。その大半は、単離された細菌ゲノムのアセンブラから派生しているが、MEGAHITは、初めから大規模なメタゲノムのアセンブリを想定して効率的なアルゴリズムが採用されている。

 

megahitの複数サンプルのラン。ここではペアエンドfastqの3サンプル (\はコマンドの途中で改行する時に使う)。

 megahit \
-1 sample1_R1.fq.gz,sample2_R1.fq.gz,sample3_R1.fq.gz \
-2 sample1_R2.fq.gz,sample2_R2.fq.gz,sample3_R2.fq.gz \
-o megahit_dir -t 20

 

IDBA-UD

開発の経緯はmetaspadesと同様で、単離ゲノムのアセンブラから派生している。IDBA-UDはgzipped fastqを扱えないので、コマンド実行前にfastqを解凍しておく。

#解凍。gzipファイルも残す(-k)。 
gzip -dk SRR8073716QT_R1.fq.gz SRR8073716QT_R2.fq.gz

#ペアエンドfastqは1つのファイル(interleaved fastq)にして指定する
fq2fa --merge --filter SRR8073716QT_R1.fq SRR8073716QT_R2.fq SRR8073716QT.fa

#IDBA-UDのラン
idba_ud -r SRR8073716QT.fa --num_threads 20 --pre_correction -o DBA-UD_dir --mink 25 --maxk 125 --step 10 --pre_correction

 

 Scaffolding

 

 

 

C、自動パイプライン

 ワークフローエンジンを使った高性能なメタゲノム解析パイプラインが複数公開されている。ここでは4つ紹介するが、サンプル数が多ければATLASを推したい。ATLASは、個々のサンプルの個別アセンブリとBinning&refinemntを行い、全てのサンプルのMAGを混合してdRepによるクラスタリング、系統解析、機能的アノテーションまで行ってくれる。

  • 4つとも便利なツールだが、依存するソフトウエアが膨大なため、冒頭に書いたように、インストールできない環境も出てくる。依存関係をdocker等で指定できるツールは重宝する。
  • 自動化ツールは、ワークフローはデフォルトでは計算機資源を効率よく利用するように設計されているため、CPU数に比べて物理メモリが少ないアンバランスな計算機環境だと、ラン中にエラーを起こす事がある。メタゲノム解析はサンプルの微生物叢が複雑だと兎角メモリ使用量が莫大になるためである。ほかの解析を止めて何日も動かした結果、エラーで終わった時のショックは大きい。従って、このようなパイプラインを利用する場合、できる限り計算リソースが充足したマシンを選びたい。例えばクラスタの分散メモリに対応したパイプラインであれば、クラスタにメモリ負荷を分散できる。
  • パイプラインで使われているツールについては、Sunbeamの論文の表1(PubMed)が詳しい。

 

 ビニング後の解析に焦点を当てた自動パイプライン。系統解析や機能的アノテーションを行う。メタゲノムアセンブリを組み込んでいないため、上の4つより扱いやすい。

 

 

 

アセンブリ評価と修正

1、リード長やリード長のヒストグラムなど、基本的な情報を得る。

 

紹介した方法で、10000-bp以下のリード長の分布を調べた結果。このデータでは、300bp程度の短い配列がかなり多く存在している。

f:id:kazumaxneo:20210719215739p:plain


 

2、ALEはメタゲノムアセンブリ結果を評価するパッケージ。リードをメタゲノムアセンブリに対してマッピングして、アラインメントの尤度を使い、ベイズのアプローチでアセンブリの正しさの確率のスコアを返す。

 

2、MetaQUASTは、N50やcontig数などのアセンブル結果の基礎情報に加えて、似たリファレンスゲノムを使ったミスアセンブリの判定などを行うパッケージ。複数のアセンブラを使った時に、結果を比較するのに向いている。MetaQUASTはランタイムが非常に長くなる傾向にある。また、ストレージをかなり使う。mockデータを使ってランした時は、シーケンス量は2GBx2に関わらず、最終出力は1.2 TBほどになった(samなどの中間ファイルが最後まで捨てらずに残るため)。ランする際はストレージの空き容量に注意。


3、metMICは、参照ゲノムなしでメタゲノムアセンブリ潜在的なキメラジャンクション部位を分析するパッケージ。論文は現在Preprint。


4、Indelエラーの評価

ideelは、バクテリア/微生物ゲノムアセンブリの中断されたORFの評価を行うスクリプト。indelエラーの多いシークエンシングテクノロジから作られたコンティグには、indelエラーが多く含まれる。これは遺伝子予測でフレームシフトを引き起こし、正確な遺伝子予測を妨げてしまう。ideelを使うと、このORFコールの中断が起きているか可視化して調べることができる。

 

5、公衆衛生や臨床の研究では、プラスミド配列がターゲットになることがある。SCAPPはアセンブリグラフから環状plasmid配列を出力する ソフトウエア。最近publishされた。

 

6、magpurifyは、様々な機能とアルゴリズムを組み合わせ、Binned fastaから疑わしいコンティグを取り除くためのパッケージ。


7、GUNCは、遠い系統のゲノムキメラの汚染などを含めて、誤ったbinningの可能性があるのか評価するパッケージ。


8、EukCC


9、CheckVは、メタゲノムからアセンブルされたウイルスゲノムを評価するパッケージ。


10、BUSCOのメタゲノムアセンブリ(MAGへの?)への対応(Preprint)


Binning

ツールは省略

 

手動でBinningする方法は、菌叢が複雑でないなら有効。目視で確認することで、判断が難しい微妙なbinについては、blastをかけたり他の配列特徴量も調べる事で、自動binner

より精度よく分類できるはず。

 

Dereplication

Dereplicationとは、ゲノムセットの中から同じゲノム群を特定し、それぞれのセットから最適なゲノムを特定するプロセス。研究に応じてどの程度の類似性があれば「同一」とみなすか、またどのように「最適」なゲノムを選択するかは、調整することができる。例えば種レベルでDereplicationを行いたければ、95-96%カットオフでクラスタリングを行って種レベルのOTUを得ることができる。


Re-assembly


 

コア遺伝子の抽出


 

 

機能アノテーション

質の高いbinned.fasta配列が得られたら、遺伝子領域を予測して機能的なアノテーションを付ける。機能的なアノテーションを付けるステップも、研究目的に応じて最適な方法、感度などは変化するが、既存の方法論を使うとなった特、その方法論がどのようなデータベースを使って注釈を付けようとしているかは特に注意したい。例えば、ヒトのマイクロバイオーム向けのデータベースは、人と関係ない環境のメタゲノムでは精度が劣る可能性が高い。

 

1、


2、

 

3、


4、


5、

 

6、

 

7、


8、


9、


 

リードから直接定量するアプローチ

シークエンシングリードから一定の長さの配列(k-mer sequence)を1bpずつずらしながら取り出し、データベースのゲノム配列から作ったk-merデータベースと問い合わせ、完全マッチに基づいてどんな分類群の菌がどの程度存在するかを定量するパッケージがkrakenである(salmonと同じ疑似アライメントのアプローチ)。曖昧さを考慮した文字列検索を行わずに完全マッチに基づいた問い合わせを行うことで、大規模なデータセットから短時間で微生物量をカウントすることができる(もちろん計算リソースをかなり使う)。metaphylanは前って選抜されたマーカー遺伝子配列にシークエンシングリードをマッピングして定量する。これらの方法は、よく研究された環境のサンプル(ヒトを代表とする動物の腸内細菌など)では上手く働く可能性が高いが、単離された菌がほとんどいない環境(地下水のサンプル、ボーリングコアのサンプルなど)のシークエンシングリードの扱いには向いていない。それは、広く知られているように、ゲノム配列の解読がまだまだ進んでいないため、現在のゲノム情報から得られる生命の系統樹はひどく虫に食われたような形状をしているからである。そのため、完全マッチに基づいて既存のデータベースの分類群にリードをアサインすると、本当はその環境に全く存在しないような微生物がコールされる可能性もある(参考)。このように、検出する方法論についてよく学び、適用範囲を理解して使わないと酷く間違った結論が引き出される可能性がある。リードから直接定量するアプローチを使う時は特に注意したい。

上の文章は、このようなツールが使い物にならないと主張しているわけではない。例えばHuttenhowerラボのツールは、ヒトのマイクロバイオームに向けて作られている事が多い(つまり臨床向け)。よって、ヒトマイクロバイオームのような微生物の多様性のかなりの部分が十分に機能解析された種によってカバーされている環境では、マーカーベースのアプローチは有効である。そして、これらの手法の精度は、より多くのゲノムが利用可能になるにつれてより向上していく。近い将来、ヒトマイクロバイオームの調査では、アセンブルベースのアプローチはほぼ行われなくなるかもしれない。

 

 

rRNA情報の利用


 

 

 

 

 

データベース

1、

 

2、


 3、


4、


5、

 

6、


7、

 

 

8、


 

 

結果の分析

1、


 

 

 

表現型予測

1、

2、


tips


 

引用

Metagenome-Assembled Genomes Orchestra (MAGO): computational framework for high-quality production and large-scale evolutionary analysis of metagenome assembled genomes

Murovec B, Deutsch L, Stres B

Mol Biol Evol. 2019 Oct 21

 

Sunbeam: an extensible pipeline for analyzing metagenomic sequencing experiments

Clarke EL, Taylor LJ, Zhao C, Connell A, Lee JJ, Fett B, Bushman FD, Bittinger K

Microbiome. 2019 Mar 22;7(1):46.

 

ATLAS (Automatic Tool for Local Assembly Structures) - a comprehensive infrastructure for assembly, annotation, and genomic binning of metagenomic and metatranscriptomic data

Richard Allen White III​, Joseph Brown, Sean Colby, Christopher C Overall, Joon-Yong Lee, Jeremy Zucker, Kurt R Glaesemann, Christer Jansson, Janet K Jansson​

PeerJ Preprints 5:e2843v1 March 2, 2017

 

SqueezeMeta, A Highly Portable, Fully Automatic Metagenomic Analysis Pipeline
Javier Tamames, Fernando Puente-Sánchez

Front Microbiol. 2018; 9: 3349

 

metaMIC: reference-free Misassembly Identification and Correction of de novo metagenomic assemblies

Senying Lai, Shaojun Pan, Luis Pedro Coelho, Wei-hua Chen, Xing-Ming Zhao

Posted June 23, 2021

 

ALE: a generic assembly likelihood evaluation framework for assessing the accuracy of genome and metagenome assemblies

Scott C Clark, Rob Egan, Peter I Frazier, Zhong Wang

Bioinformatics. 2013 Feb 15;29(4):435-43

 

New insights from uncultivated genomes of the global human gut microbiome
Stephen Nayfach, Zhou Jason Shi, Rekha Seshadri, Katherine S. Pollard & Nikos C. Kyrpides
Nature volume 568, pages505–510 (2019)

 

GUNC: detection of chimerism and contamination in prokaryotic genomes

Askarbek Orakov, Anthony Fullam, Luis Pedro Coelho, Supriya Khedkar, Damian Szklarczyk, Daniel R. Mende, Thomas S. B. Schmidt & Peer Bork
Genome Biology volume 22, Article number: 178 (2021)

 

Estimating the quality of eukaryotic genomes recovered from metagenomic analysis with EukCC

Paul Saary, Alex L. Mitchell & Robert D. Finn
Genome Biology volume 21, Article number: 244 (2020)

 

SCAPP: an algorithm for improved plasmid assembly in metagenomes

David Pellow, Alvah Zorea, Maraike Probst, Ori Furman, Arik Segal, Itzhak Mizrahi, Ron Shamir

Microbiome. 2021 Jun 25;9(1):144

 

CheckV assesses the quality and completeness of metagenome-assembled viral genomes

Stephen Nayfach, Antonio Pedro Camargo, Frederik Schulz, Emiley Eloe-Fadrosh, Simon Roux & Nikos C. Kyrpides
Nature Biotechnology (2020)

 

eggNOG-mapper v2: Functional Annotation, Orthology Assignments, and Domain Prediction at the Metagenomic Scale

Carlos P Cantalapiedra, Ana Hernandez-Plaza, Ivica Letunic, Peer Bork, Jaime Huerta-Cepas

bioRxiv, Posted June 04, 2021

 

Mining metagenomes for natural product biosynthetic gene clusters: unlocking new potential with ultrafast techniques

Emiliano Pereira, Marnix Medema, Pier Luigi Buttigieg, Peter Meinicke, Frank Oliver Gloeckner, Antonio Fernandez-Guerra

bioRxiv, Posted January 20, 2021

 

MetaLAFFA: a flexible, end-to-end, distributed computing-compatible metagenomic functional annotation pipeline

Alexander Eng, Adrian J. Verste, Elhanan Borenstein
BMC Bioinformatics volume 21, Article number: 471 (2020)

 

MetaEuk—sensitive, high-throughput gene discovery, and annotation for large-scale eukaryotic metagenomics

Eli Levy Karin, Milot Mirdita & Johannes Söding
Microbiome volume 8, Article number: 48 (2020)

 

The Microbe Directory: An annotated, searchable inventory of microbes’ characteristics
Heba Shaaban, David A. Westfall, Rawhi Mohammad, David Danko, Daniela Bezdan, Ebrahim Afshinnekoo, Nicola Segata

Gates Open Research 2018, 2:3 Last updated: 18 JUN 2018

 

MetaSanity: An integrated microbial genome evaluation and annotation pipeline
Christopher J Neely, Elaina D Graham, Benjamin J Tully
Bioinformatics, Published: 19 May 2020

 

Measurement of bacterial replication rates in microbial communities

Brown CT, Olm MR, Thomas BC, Banfield JF

Nat Biotechnol. 2016 Dec;34(12):1256-1263

 

Species-level functional profiling of metagenomes and metatranscriptomes

Eric A. Franzosa, Lauren J. McIver, Gholamali Rahnavard, Luke R. Thompson, Melanie Schirmer, George Weingart, Karen Schwarzberg Lipson, Rob Knight, J. Gregory Caporaso, Nicola Segata & Curtis Huttenhower
Nature Methods volume 15, pages962–968(2018)

 

Microbial abundance, activity and population genomic profiling with mOTUs2

Alessio Milanese, Daniel R Mende, Lucas Paoli, Guillem Salazar, Hans-Joachim Ruscheweyh, Miguelangel Cuenca, Pascal Hingamp, Renato Alves, Paul I Costea, Luis Pedro Coelho, Thomas S. B. Schmidt, Alexandre Almeida, Alex L Mitchell, Robert D. Finn, Jaime Huerta-Cepas, Peer Bork, Georg Zeller, Shinichi Sunagawa

Nature Commun. 2019; 10: 1014

 

MetaPhlAn2 for enhanced metagenomic taxonomic profiling

Duy Tin Truong, Eric A Franzosa, Timothy L Tickle, Matthias Scholz, George Weingart, Edoardo Pasolli, Adrian Tett, Curtis Huttenhower & Nicola Segata.

Nature Methods 12, 902–903 (2015)

MetaPhlAn2 for enhanced metagenomic taxonomic profiling. - PubMed - NCBI

 

Centrifuge: rapid and sensitive classification of metagenomic sequences.

Kim D, Song L, Breitwieser FP, Salzberg SL

Genome Res. 2016 Dec;26(12):1721-1729. Epub 2016 Oct 17.

 

Recentrifuge: Robust comparative analysis and contamination removal for metagenomics

Jose Manuel Martí

PLoS Comput Biol. 2019 Apr 8;15(4)

 

phyloFlash – Rapid SSU rRNA profiling and targeted assembly from metagenomes

Harald R. Gruber-Vodicka, Brandon K. B. Seah, Elmar Pruesse

bioRxiv preprint first posted online Jan. 17, 2019

 

BacDive in 2019: bacterial phenotypic data for High-throughput biodiversity analysis
Lorenz Christian Reimer Anna Vetcininova Joaquim Sardà Carbasse Carola Söhngen Dorothea Gleim Christian Ebeling Jörg Overmann
Nucleic Acids Research, Volume 47, Issue D1, 08 January 2019, Pages D631–D636

 

GitHub - mw55309/ideel: Indels are not ideal - quick test for interrupted ORFs in bacterial/microbial genomes