macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

Singularity

ロングリードベースの真核生物アセンブリを7つの指標で評価する PAQman

ロングリードシーケンシングとアセンブリアルゴリズムの進歩により、高品質なゲノムアセンブリの生成はより容易かつ費用対効果の高いものとなった。しかし、既存ツールはしばしば限られた指標に依存し、あるいは比較用のリファレンスアセンブリを必要とする…

ロングリードおよびショートリードの RNA-seqから遺伝子アイソフォームを定量する miniQuant

RNAシーケンスは遺伝子アイソフォームの定量に広く応用されているが、複雑な遺伝子のアイソフォームを正確に定量するには、特にショートリードでは限界がある。ここでは、ショートリードでは正確な定量が困難な遺伝子を同定し、これらの領域の定量にロングリ…

潜在的な病原体の検出を可能にするメタゲノムシーケンスデータ解析パイプライン TaxTriage

TaxTriageは、ショートリードとロングリードの非標的DNAおよびRNAシーケンスデータの両方に対応した、包括的な病原体同定ワークフローである。リードの分類、マッピング、およびデ・ノボアセンブリのアプローチを組み合わせることで、キュレーションされた病…

複数の遺伝子アノテーション手法からの構造情報を統合し、対象の種のコンセンサスアノテーションを生成する OMAnnotator

シーケンス技術の進歩により、研究者は全ゲノムのシーケンスを迅速かつ安価に行えるようになった。しかし、ゲノムアセンブリの改善にもかかわらず、ゲノムアノテーション(タンパク質をコードする遺伝子の同定)は、特に真核生物ゲノムでは依然として困難で…

ゲノム配列から高精度なab initioの遺伝子構造予測を行う Tiberius

25年以上にわたり、学習ベースの真核生物遺伝子予測は、DNA配列を直接入力する隠れマルコフモデル(HMM)によって駆動されてきた。最近、HolstらはHelixerを用いて、深層学習とHMMポストプロセッサーを組み合わせることでab initio真核生物遺伝子予測の精度…

全ゲノムアラインメントを操作するための超高速ツールキット Wgatools

ロングリードシーケンス技術の急速な発展により、個体完全長ゲノムの時代が近づいている。本著者らは、様々な全ゲノムアラインメント(WGA)フォーマットをサポートし、アラインメントの変換、処理、評価、可視化のための実用的なツールを提供する、クロスプ…

ディープラーニングと隠れマルコフモデルを組み合わせて真核生物の一次遺伝子モデルの予測を行う Helixer

遺伝子構造アノテーションはゲノム配列から生物学的知識を得るための重要なステップであり、現在でもゲノミクスプロジェクトにおいてチャレンジングな課題である。現在のde novo隠れマルコフモデルは、生物学的複雑性をモデル化する能力に限界があり、一方、…

高い特異性と感度で外来配列を除去する ContScout

ゲノムのコンタミネーションは、比較進化ゲノミクスからメタゲノミクスに至るまで、様々なダウンストリームアプリケーションに影響を及ぼす問題として、ますます認識されるようになってきている。ここでは、ContScoutを紹介する。ContScoutは、アノテーショ…

タンパク質のドメインレベルのアノテーションを行う Domainator

2024/06/03 タイトル修正、誤字修正 生物学的配列の大規模なデータベースが利用可能になったことで、遺伝子の多様性と機能を深く探求する機会がもたらされた。細菌防御系は、多様であるがアノテーションが困難な遺伝子の豊富な供給源であり、バイオテクノロ…

ロングリードのハプロタイプを考慮したエラー訂正を行う HERRO

20240419 タイトル修正 2024/08/05 引用の間違い修正 2025/01/22 テストラン追記 注;論文のタイトルにはHEROと書かれてますが、レポジトリではHERROとなっています。ここではHERROで統一します。 追記 HEROとHERROを混同していました。コメントで教えていた…

ノイズの多いロングリードからハプロタイプを考慮したde novo二倍体ゲノムアセンブリを行う PECAT

2024/04/19 論文引用 高いシーケンスエラーは、2倍体ゲノムアセンブリへのロングノイズリードの適用を妨げてきた。既存のアセンブラーでは、長ノイズリードに含まれる高シーケンスエラーとヘテロ接合体を区別できず、ハプロタイプスイッチの多いアセンブリー…

大規模な系統学的データセットを削減する Treemmer

大規模な塩基配列データセットは、視覚化するのも扱うのも難しい。さらに、それらはしばしば自然の多様性のランダムなサブセットを表しているのではなく、調整されていない便宜的なサンプリングの結果である。その結果、冗長性やサンプリングバイアスに悩ま…

MiniprotとAUGUSTUSによるゲノムアノテーションを行う GALBA

2023/09/01 論文引用 アース・バイオゲノムプロジェクトによって、利用可能な真核生物ゲノムの数は急速に増加しているが、公開されたゲノムのほとんどは、タンパク質をコードする遺伝子のアノテーションが不足している。さらに、いくつかのゲノムではトラン…

ライフサイエンスのための包括的なフォーマットコンバーター BioConvert

2023/07/04 追記 バイオインフォマティクスは、長年にわたって開発されてきた数多くの標準やフォーマットで知られる分野である。このフォーマットの多さは時に補完的であり、しばしば冗長であるため、バイオインフォマティクスのデータ解析者に多くの課題を…

バクテリアの比較ゲノム解析を簡単に行う zDB

ゲノムの解析と比較は、アノテーション、オルソロジー予測、系統推論などのタスクのために、さまざまなツールに依存している。しかし、ほとんどのツールは単一のタスクに特化しており、結果を統合して可視化するためにはさらなる努力が必要である。このギャ…

アノテーションパイプライン BRAKER3

2023/05/28, 5/30 誤字修正 2023/06/13 プレプリント引用 2024/02/19 ツイート追記 タンパク質配列やRNA-Seqライブラリの形で大量の外部エビデンスを提供するデータベースの利用可能性が高まっており、タンパク質コード遺伝子の遺伝子構造予測手法を改善する…

ロングリードシーケンスデータを用いてトランスポーザブルエレメントのアレル頻度推定を行うTrEMOLO

Transposable Element MOnitoring with LOng-reads(TrEMOLO)は、アセンブリベースとマッピングベースのアプローチを組み合わせた新しいソフトウェアで、トランスポーザブルエレメント(TE)と呼ばれる遺伝要素を強固に検出することができる。TrEMOLOは、高…

nf-coreのscRNAseq解析パイプライン nf-core/scrnaseq

Nf-coreより nf-core/scrnaseqは、10x Genomics社のシングルセルRNA-seqデータを処理するためのバイオインフォマティクスのベストプラクティス解析パイプラインである。このパイプラインは、複数の計算インフラでタスクを実行するためのワークフローツールで…

PanGenome Graphを構築する PGGB

Githubより pggb は入力配列から pangenome variation graph を作成する。pangenome variation graph は一般的な多重配列アライメントの一種で、ある生物種または生物群におけるゲノム要素の完全な集合をモデル化したものです。パンゲノムは、配列グラフの一…

関心のあるあらゆる生物のWGSデータセットに対して、SV、SNP、IN/DEL、およびCNVのコールとアノテーションを実行する PerSVade

2022/08/22 オプション追記 構造バリアント(SV)はゲノムの変異の根底にあるものだが、ショートリードからの検出が困難なため、見落とされることがよくある。ほとんどのアルゴリズムはヒトでテストされており、他の生物にどの程度適用できるかはまだ不明で…

InParanoidをDIAMONDにより高速化した InParanoid-DIAMOND

バイオインフォマティクスにおいて、祖先を共有する異なる生物種の遺伝子であるオルソログを予測することは重要な課題である。オルソログ予測ツールは、大量のデータを実行可能な時間内に解析するために、正確かつ高速に予測することが要求される。InParanoi…

ショートリードメタゲノミクスデータから薬剤耐性を分類する AMR-meta

抗菌剤耐性(AMR)は世界的な健康問題である。微生物サンプルのハイスループットなメタゲノムシークエンシングにより、精選されたAMRデータベースとの比較によるAMR遺伝子のプロファイリングが可能になる。しかし、データベースの不完全性や、シークエンシン…

バリアントを考慮したリファレンスアラインメントの高速リフトオーバーを行う levioSAM2

テロメア単位の完全なゲノムアセンブリは、解析の向上や新しいバリアントの発見を期待できるが、多くの重要なゲノムリソースは古いリファレンスゲノムと関連したままである。そのため、リファレンスゲノム間のゲノムフイーチャーやリードアラインメントをト…

ロングリードcDNAシーケンスも利用できる真核生物ゲノムの自動化されたアノテーションツール LoReAn

1分子完全長相補DNA(cDNA)配列決定は、転写産物の構造やスプライス形態を明らかにすることで、ゲノムアノテーションを支援することができるが、現在のアノテーションパイプラインにはそのような情報が組み込まれていない。本研究では、ロングリードアノテ…

メタゲノミクスデータ中のバクテリオファージの解析、アノテーション、分類のための自動化パイプラインMetaPhage

2022/09/08 論文引用 ここ数十年、微生物叢、特にヒトの腸内細菌叢の研究と特性評価に大きな関心が寄せられ、常在微生物が人体の正常な解剖学的発達と生理的機能に極めて重要な役割を果たすことが明らかにされている。異なる環境を特徴づける複雑な細菌の動…

(SARS-CoV-2) シーケンシングリードの迅速なデコンタミネーションを行う ReadItAndKeep

臨床検体から得られたウイルス配列データには、人為的な汚染が含まれていることが多い。これらは、法的・倫理的な理由により、共有する前に除去する必要がある。ホストリードの除去を可能にし、低スペックのノートパソコンでSARS-CoV-2のシーケンスデータを…

大規模な微生物の比較ゲノミクスのためのモジュラー式のツール PanACoTA

2021 9/8 修正 2021 9/9 誤字修正 2021 9/10 prokkaのバージョンによるエラー修正 (依存するライブラリの関係でpython3.7の環境に導入するように修正した), --prodigalのオプション消去 2021 10/15 docker imageのコマンド追記 2021 10/18 annotate追記 2021…

ロングリードを用いてショートリードアセンブリのギャップをクローズする自動化されたパイプライン DENTIST

ロングシーケンスリードは、断片化されたショートリードベースのゲノムアセンブリのコンティグ性と完全性を高めるために、理想的には高い精度でアセンブリギャップを閉じることができる。これまでにもいくつかのギャップ解消法が開発されてきたが、これらの…

TPMカウントから主成分分析を行う zpca

zpcaはFoivos Gypasが公開されているTPMカウントから主成分分析を行うツール。試してみる。 インストール ubuntu18.04のminiconda3.8環境でmambaを使って導入した。 #bioconda (link)mamba install -c bioconda -y zpca#dockerdocker pull zavolab/zpca#Sing…