macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

Bioinformatics

世界中の微生物種の生態を調べる Microbe Atlas Project(MAP)データベース

https://microbeatlas.org/index.html?action=aboutより メタゲノム配列が決定された大規模なサンプル群を集約的に解析することで、未知あるいは研究が不十分な微生物分類群が存在する典型的な存在量や環境に関する情報を蓄積できる。これにより、未知の微生…

パンゲノムグラフのためのツール ODGI

Pangenomeグラフは、ゲノムコレクションの相互アラインメントを完全に表現するものである。このモデルは、構造的に複雑な領域を含む集団の全ゲノム多様性を研究する機会を提供する。しかしながら、パンゲノムグラフを用いた数百ギガスケールのゲノムの解析は…

タンパク質配列をゲノム配列に対してintron (gap) awareで高速にアラインメントする Miniprot

Githubより Miniprotは、タンパク質配列をゲノムに対してアフィンギャップ・ペナルティ、スプライシング、フレームシフ トでアライメントする。Miniprotは、他の既知の種の遺伝子を用いて、新しい種のタンパク質コード遺伝子をアノテーションすることを主な…

バリアントコーリングを自動化する柔軟でスケーラブルなパイプライン grenepipe

本著者らは、個体や集団のハイスループットな生シーケンスデータから遺伝子型バリアントコールまでのデータ処理を効率化するオールインワンSnakemakeワークフローであるgrenepipeを開発した。このパイプラインは、一般的なソフトウェアツールを単一の設定フ…

メタゲノムの株レベルプロファイリングを行う PStrain

2022/09/07, 9/8 追記 微生物群は、人間の病気や生理活動に不可欠な役割を担っている。ゲノム配列の株レベルの違いにより、微生物の機能が異なることがある。ショットガン・メタゲノムシーケンスを用いると、微生物群集の菌株を実用的にプロファイリングする…

塩基をハッシング(ハッシュ化)する ntHash

ハッシングは、配列アラインメント、ゲノムおよびトランスクリプトームアセンブリ、 k -mer計数および誤り訂正を含む、多くのバイオインフォマティクスアプリケーションにおける索引付け、照会および迅速類似性検索に広く使用されている。 したがって、ハッ…

2ラウンドのオーバーラッピングとキャッシュに基づく高速エラー訂正を行う Fec

第3世代シーケンサーは長いリード長でゲノム解析を進めるが、リードのエラーレートが高いため、エラー訂正が必要になる。特にシーケンスカバレッジが高い場合、エラー訂正は時間のかかる作業である。一般に、既存の誤り訂正手法は、重複するリードAを訂正す…

ゲノムアセンブリ間でリードを素早くリマッピングする FastRemap

ゲノムリードデータセットは、一般的に使用されている CrossMap ツールなどの様々なツールを用いて、あるリファレンスから別の類似したリファレンス(例えば、2つのバージョンの異なる間や2つの類似した種間)へ迅速かつ効率的に再マッピングすることができ…

InParanoidをDIAMONDにより高速化した InParanoid-DIAMOND

バイオインフォマティクスにおいて、祖先を共有する異なる生物種の遺伝子であるオルソログを予測することは重要な課題である。オルソログ予測ツールは、大量のデータを実行可能な時間内に解析するために、正確かつ高速に予測することが要求される。InParanoi…

アンプリコンベースの菌叢解析のための包括的なプラットフォーム MOCHI

微生物叢の解析は、健康や科学にとって重要な意味を持つ。これらの解析では、16S/18S rRNA遺伝子シーケンスを利用して分類群を同定し、種の多様性を予測する。しかし、微生物叢データを解析するための利用可能なツールのほとんどは、適切な実装のために熟練…

バクテリアパンゲノムの探索的解析と可視化のためのウェブベースツール PanExplorer

パンゲノムアプローチは細菌の比較ゲノム解析や進化解析に多く用いられているが、バイオインフォマティシャンのいない生物学者にはまだ難しいため、細菌パンゲノムの探索を容易にする革新的なツールが必要である。PanExplorerは、様々なゲノム解析とレポート…

DNAエンリッチメントのためのベイトデザインをスケーラブルに行う Syotti

ベイトエンリッチメントは、メタゲノム試料中の目的領域の増幅に成功したことから、広く普及しつつあるプロトコルである。この方法では、一組の合成プローブ(「ベイト」)を設計・製造し、断片化したメタゲノムDNAに適用する。プローブは断片化したDNAに結…

パンゲノム解析ツールキット PATO

2022/06/30 エラー発生時の対処例追記 デスクトップパソコンを用いて数千のゲノムを同時に解析するために設計されたPangenome Analysis Toolkit (PATO)を発表する。このツールは、コアゲノムの定義やアクセサリーゲノムの特性といったパンゲノム解析の共通タ…

ペアエンドシークエンシングリードを使ってメタゲノムアセンブリゲノムと16S rRNAマーカー遺伝子を結び付ける MarkerMAG

メタゲノムアセンブリゲノム(MAG)は、微生物の機能についての理解を大幅に広げている。しかし、系統解析や環境調査でよく用いられる16S rRNA遺伝子は、MAGから欠落していることが多い。そこで、ペアエンドシーケンスリードを用いて、16S rRNA遺伝子とMAGを…

遺伝子近傍の保存性を調べる FlaGs

オペロンや遺伝子群の進化を理解し、機能的な関連を予測するためには、異なる進化段階における遺伝子近傍の保存性を解析することが重要である。このツールFlaGs(Flanking Genesの略)は、NCBIのタンパク質アクセッションのリストを入力とし、近傍にコードさ…

(スモールゲノム)汚染されたシークエンシングデータをフィルタリングしながらアセンブリする半自動化されたパイプライン WGA-LP

DNAシーケンシングの技術進歩に伴い、バクテリアゲノムのショートリードによる全ゲノムアセンブリ(WGA)は、ごく一般的な作業となっている。ゲノムのアセンブリプロセスには絶対的な黄金律がなく、多くの異なるツールを組み合わせて一連のステップを実行す…

バリアントを考慮したリファレンスアラインメントの高速リフトオーバーを行う levioSAM2

テロメア単位の完全なゲノムアセンブリは、解析の向上や新しいバリアントの発見を期待できるが、多くの重要なゲノムリソースは古いリファレンスゲノムと関連したままである。そのため、リファレンスゲノム間のゲノムフイーチャーやリードアラインメントをト…

バリアントエンリッチメント解析を行うshinyサーバー Varanto

ゲノムワイド関連研究(GWAS)は、一塩基多型(SNPs)などの遺伝的バリアントと特定の形質や疾患との関連を明らかにすることを目的としている。これらの結果をさらに探求し、解釈するためには、パスウェイ、生物学的プロセス、疾患との関連などの共通テーマ…

SeqWho

シーケンサー技術の大幅な向上とプロトコルの増加により、シーケンサーは複雑な生物学的問題に答えるために使用されるようになってきた。それに伴い、解析パイプラインはより時間と複雑さを増し、通常、非常に大規模な事前検証ステップを必要とするようにな…

シーケンスデータ中のウイルス・微生物検出を高速に行う RabbitV

シークエンスデータに含まれるウイルスや微生物の検出・同定は、病原体の診断や研究において重要な役割を担っている。しかし、この問題のための既存のツールは、しばしば高い実行時間とメモリ消費に悩まされている。本著者らは、ユニークなk-merの高速同定に…

plotsr

第3世代のゲノム解読技術により、高品質のゲノムアセンブリの数が急激に増加している。このため、個々の生物種の複数のアセンブルゲノムを比較することが可能になり、その構造的特性を可視化するための新しいツールが求められている。ここでは、ゲノム間の構…

アセンブリした配列から欠落している領域を調べる SASpector

原核生物ゲノムのショートリードアセンブリにおける欠損領域は、しばしばシーケンス技術の偏りや繰り返しエレメントに起因するとされ、前者は特定の遺伝子座のシーケンスカバレッジの低さ、後者はde novoアセンブリグラフの未解決ループに起因するとされる。…

GTDB-Tkのversion 2

2022/05/12 追記 2022/06/03 古いツイートを消去 2022/07/23 preprint引用 GTDBとその分類ツールであるGTDB-tkは原核生物ゲノムの分類によく使われるようになりました。しかし、GTDB-tkのclassiyコマンドはメモリ要求量が高く、2021年に出たR202データベース…

大規模RNA-seqデータセットのマッピングされたリードの集約と要約のための効率的な方法 TieBrush

シーケンシングデータをプログラムで要約し、視覚的に検査する機能はゲノム解析に不可欠だが、現在利用可能な方法は、大量のサンプルに対応できるものではない。特に、数千のRNA-seqサンプル間の転写背景を視覚的に比較することは、利用可能な計算機資源によ…

窒素循環系遺伝子のメタゲノムプロファイリングのためのキュレーションされた統合データベース NCycDB

窒素(N)サイクルは、地球生態系における重要な生物地球化学的経路の集合体であり、生態学や環境学の分野で広く注目されている。現在、ショットガンメタゲノムシーケンスは、窒素サイクルプロセスを担う遺伝子ファミリーの探索に広く応用されていまる。しか…

疑似マッピングによる原核生物とウイルス集団の正確なメタゲノムプロファイリングを行う KMCP

2022/10/17 help更新 2023/01/05 論文引用 微生物リファレンスゲノムの増加により、メタゲノム解析の精度は向上したが、分類学的プロファイラーのインデックス作成効率、データベースサイズ、実行時間に対する要件は高くなってきている。また、多くのプロフ…

シングルセルDNAシーケンシングデータのシミュレータ SimSCSnTree

細胞の進化ツリーを生成し、その枝に沿って一塩基変異(SNVs)やコピー数異常(CNAs)を進化させる新しいシングルセルDNA配列シミュレータSimSCSnTreeについて報告する。このシミュレータで生成されたデータは、特にSNVやCNAが偏在するガンのシングルセルゲ…

細菌ゲノムとプラスミドの系統に基づく比較ゲノムパイプライン GEnView

ある細菌遺伝子のゲノム座を株や種を超えて比較することで、後天的な移動性、異なる分類群間での保存の度合い、あるいは遺伝子の水平伝播事象の示唆など、その進化に関する洞察を得ることができる。現在までに数千の細菌ゲノムが利用可能であるが、多数のゲ…

ロングリードから染色体特異的テロメア長を報告する Telogator

テロメアは、真核生物の染色体末端に見られる繰り返し配列で、多くの細胞で分裂時にその平均長が短くなることから、「体内時計」と考えられている。テロメアの長さの異常は、老化との関連に加え、複数の癌やテロメア短小症候群との関連や、様々な疾患の危険…

模擬微生物コミュニティとそのアンプリコンシークエンシングリードを発生させるための多機能ソフトウェア M&Ms

シーケンシング技術の進歩に伴い、16S rDNAシーケンスデータの解析を目的とした多くのバイオインフォマティクスツールが開発されている。これらのツールをテストするためには、異なる環境からのサンプルに類似したデータセットをシミュレートすることが重要…