macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

Singularity

高い特異性と感度で外来配列を除去する ContScout

ゲノムのコンタミネーションは、比較進化ゲノミクスからメタゲノミクスに至るまで、様々なダウンストリームアプリケーションに影響を及ぼす問題として、ますます認識されるようになってきている。ここでは、ContScoutを紹介する。ContScoutは、アノテーショ…

タンパク質のドメインレベルのアノテーションを行う Domainator

2024/06/03 タイトル修正、誤字修正 生物学的配列の大規模なデータベースが利用可能になったことで、遺伝子の多様性と機能を深く探求する機会がもたらされた。細菌防御系は、多様であるがアノテーションが困難な遺伝子の豊富な供給源であり、バイオテクノロ…

ロングリードのハイブリッドエラー訂正を行う HERRO

20240419 タイトル修正 注;論文のタイトルにはHEROと書かれてますが、レポジトリではHERROとなっています。ここではHERROで統一します。 一般的に優れているが、次世代シーケンシング(NGS)リードを用いた第3世代シーケンシング(TGS)リードのエラーを修…

ノイズの多いロングリードからハプロタイプを考慮したde novo二倍体ゲノムアセンブリを行う PECAT

2024/04/19 論文引用 高いシーケンスエラーは、2倍体ゲノムアセンブリへのロングノイズリードの適用を妨げてきた。既存のアセンブラーでは、長ノイズリードに含まれる高シーケンスエラーとヘテロ接合体を区別できず、ハプロタイプスイッチの多いアセンブリー…

大規模な系統学的データセットを削減する Treemmer

大規模な塩基配列データセットは、視覚化するのも扱うのも難しい。さらに、それらはしばしば自然の多様性のランダムなサブセットを表しているのではなく、調整されていない便宜的なサンプリングの結果である。その結果、冗長性やサンプリングバイアスに悩ま…

MiniprotとAUGUSTUSによるゲノムアノテーションを行う GALBA

2023/09/01 論文引用 アース・バイオゲノムプロジェクトによって、利用可能な真核生物ゲノムの数は急速に増加しているが、公開されたゲノムのほとんどは、タンパク質をコードする遺伝子のアノテーションが不足している。さらに、いくつかのゲノムではトラン…

ライフサイエンスのための包括的なフォーマットコンバーター BioConvert

2023/07/04 追記 バイオインフォマティクスは、長年にわたって開発されてきた数多くの標準やフォーマットで知られる分野である。このフォーマットの多さは時に補完的であり、しばしば冗長であるため、バイオインフォマティクスのデータ解析者に多くの課題を…

バクテリアの比較ゲノム解析を簡単に行う zDB

ゲノムの解析と比較は、アノテーション、オルソロジー予測、系統推論などのタスクのために、さまざまなツールに依存している。しかし、ほとんどのツールは単一のタスクに特化しており、結果を統合して可視化するためにはさらなる努力が必要である。このギャ…

アノテーションパイプライン BRAKER3

2023/05/28, 5/30 誤字修正 2023/06/13 プレプリント引用 2024/02/19 ツイート追記 タンパク質配列やRNA-Seqライブラリの形で大量の外部エビデンスを提供するデータベースの利用可能性が高まっており、タンパク質コード遺伝子の遺伝子構造予測手法を改善する…

ロングリードシーケンスデータを用いてトランスポーザブルエレメントのアレル頻度推定を行うTrEMOLO

Transposable Element MOnitoring with LOng-reads(TrEMOLO)は、アセンブリベースとマッピングベースのアプローチを組み合わせた新しいソフトウェアで、トランスポーザブルエレメント(TE)と呼ばれる遺伝要素を強固に検出することができる。TrEMOLOは、高…

nf-coreのscRNAseq解析パイプライン nf-core/scrnaseq

Nf-coreより nf-core/scrnaseqは、10x Genomics社のシングルセルRNA-seqデータを処理するためのバイオインフォマティクスのベストプラクティス解析パイプラインである。このパイプラインは、複数の計算インフラでタスクを実行するためのワークフローツールで…

PanGenome Graphを構築する PGGB

Githubより pggb は入力配列から pangenome variation graph を作成する。pangenome variation graph は一般的な多重配列アライメントの一種で、ある生物種または生物群におけるゲノム要素の完全な集合をモデル化したものです。パンゲノムは、配列グラフの一…

関心のあるあらゆる生物のWGSデータセットに対して、SV、SNP、IN/DEL、およびCNVのコールとアノテーションを実行する PerSVade

2022/08/22 オプション追記 構造バリアント(SV)はゲノムの変異の根底にあるものだが、ショートリードからの検出が困難なため、見落とされることがよくある。ほとんどのアルゴリズムはヒトでテストされており、他の生物にどの程度適用できるかはまだ不明で…

InParanoidをDIAMONDにより高速化した InParanoid-DIAMOND

バイオインフォマティクスにおいて、祖先を共有する異なる生物種の遺伝子であるオルソログを予測することは重要な課題である。オルソログ予測ツールは、大量のデータを実行可能な時間内に解析するために、正確かつ高速に予測することが要求される。InParanoi…

ショートリードメタゲノミクスデータから薬剤耐性を分類する AMR-meta

抗菌剤耐性(AMR)は世界的な健康問題である。微生物サンプルのハイスループットなメタゲノムシークエンシングにより、精選されたAMRデータベースとの比較によるAMR遺伝子のプロファイリングが可能になる。しかし、データベースの不完全性や、シークエンシン…

バリアントを考慮したリファレンスアラインメントの高速リフトオーバーを行う levioSAM2

テロメア単位の完全なゲノムアセンブリは、解析の向上や新しいバリアントの発見を期待できるが、多くの重要なゲノムリソースは古いリファレンスゲノムと関連したままである。そのため、リファレンスゲノム間のゲノムフイーチャーやリードアラインメントをト…

ロングリードcDNAシーケンスも利用できる真核生物ゲノムの自動化されたアノテーションツール LoReAn

1分子完全長相補DNA(cDNA)配列決定は、転写産物の構造やスプライス形態を明らかにすることで、ゲノムアノテーションを支援することができるが、現在のアノテーションパイプラインにはそのような情報が組み込まれていない。本研究では、ロングリードアノテ…

メタゲノミクスデータ中のバクテリオファージの解析、アノテーション、分類のための自動化パイプラインMetaPhage

2022/09/08 論文引用 ここ数十年、微生物叢、特にヒトの腸内細菌叢の研究と特性評価に大きな関心が寄せられ、常在微生物が人体の正常な解剖学的発達と生理的機能に極めて重要な役割を果たすことが明らかにされている。異なる環境を特徴づける複雑な細菌の動…

(SARS-CoV-2) シーケンシングリードの迅速なデコンタミネーションを行う ReadItAndKeep

臨床検体から得られたウイルス配列データには、人為的な汚染が含まれていることが多い。これらは、法的・倫理的な理由により、共有する前に除去する必要がある。ホストリードの除去を可能にし、低スペックのノートパソコンでSARS-CoV-2のシーケンスデータを…

大規模な微生物の比較ゲノミクスのためのモジュラー式のツール PanACoTA

2021 9/8 修正 2021 9/9 誤字修正 2021 9/10 prokkaのバージョンによるエラー修正 (依存するライブラリの関係でpython3.7の環境に導入するように修正した), --prodigalのオプション消去 2021 10/15 docker imageのコマンド追記 2021 10/18 annotate追記 2021…

ロングリードを用いてショートリードアセンブリのギャップをクローズする自動化されたパイプライン DENTIST

ロングシーケンスリードは、断片化されたショートリードベースのゲノムアセンブリのコンティグ性と完全性を高めるために、理想的には高い精度でアセンブリギャップを閉じることができる。これまでにもいくつかのギャップ解消法が開発されてきたが、これらの…

TPMカウントから主成分分析を行う zpca

zpcaはFoivos Gypasが公開されているTPMカウントから主成分分析を行うツール。試してみる。 インストール ubuntu18.04のminiconda3.8環境でmambaを使って導入した。 #bioconda (link)mamba install -c bioconda -y zpca#dockerdocker pull zavolab/zpca#Sing…