macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

2023-01-01から1年間の記事一覧

>100,000の植物論文アブストラクトを網羅するナリッジネットワーク PlantConnectome

遺伝子の機能予測は生物学の理解に不可欠である。しかし、これらの予測は、実験的に特徴付けられた遺伝子の大規模なコレクションに依存しており、そのコンパイルには労力と時間がかかるだけでなく、科学文献の量と多様性を考慮すると不可能に近い。ここでは…

(RNA seqの下流解析のための)深層学習ベースのスプライシングジャンクション予測ツール Splam

2023/08/18更新、タイトル変更 イントロンを除去するためにメッセンジャーRNAをスプライシングするプロセスは、遺伝子や遺伝子バリアントを作り出す上で中心的な役割を果たしている。ここでは、深層残差畳み込みニューラルネットワークに基づく、DNA中のスプ…

ユーザーフレンドリーなナノポアロングリードの転写解析プラットフォーム NanopoReaTA

オックスフォード・ナノポア・テクノロジーズ(ONT)のシーケンスプラットフォームは、シーケンス中にリアルタイム解析を実行する優れた機会を提供する。この機能により、実験データに対する早期の洞察が可能になり、さらなる解析のための潜在的な意思決定プ…

完全な環状ゲノムの開始位置(+1)を素早く変更する Dnaapler

レポジトリより(一部改変) Dnaaplerはシンプルなpythonプログラムで、一塩基の入力配列(FASTA形式)を受け取り、アミノ酸配列データベースに対してblastxを用いて目的の開始遺伝子を見つけ、この遺伝子の開始コドンが見つかったかどうかをチェックし、見…

どれだけ知られていないかを基にタンパク質をランク付けする Unknomeデータベース

ヒトゲノムには約2万個のタンパク質がコードされているが、その多くはまだ解明されていない。科学研究は、よく研究されているタンパク質に焦点を当てがちであることは明らかであり、未解明の遺伝子が不当に軽視されているという懸念につながっている。この問…

GTDBのtaxonomyとゲノムからKrakenデータベースを作成する GTDB_Kraken

2023/08/11 説明を修正 GTDBでもサードパーティとして紹介されているが、レポジトリGTDB_KrakenでGTDBのリリースR86のkrakenデータベースが公開されている(属レベルでアサインされていない分類 (g__) は排除されている)。ビルド済みなので、ダウンロードし…

FASTAおよびFASTQファイルを大規模処理する BigSeqKit

ハイスループットシーケンス技術により、利用可能なシーケンスデータの量はかつてないほど爆発的に増加しており、それらは通常FASTAファイルやFASTQファイルとして保存されている。配列データを生物学的知識に変換する目的で、この種のファイルを処理・操作…

正確で拡張可能な系統樹を構築する uDance

2023/08/05 間違った説明を修正 系統樹は、生命のツリーを横断して進化の歴史を整理するための枠組みを提供し、メタゲノム同定などの下流の比較解析に役立つ。16S rRNAのような単一マーカー遺伝子に依存する手法では、数十万種の生物で精度の低い系統樹が作…

タンデムリピートなどのゲノムの繰り返し領域をドットプロットで可視化する Mod.Plot

レポジトリより Mod.Plotは、StainedGlassと同様にタンデムリピートを表示するための新しいドットプロット可視化ツールです。Mod.Plotは、配列の同一性を推定するためにJaccard係数を計算するmodimizerを利用している。これにより、これらのプロットを作成す…

複数のゲノム間で保存された遺伝子クラスターを同定する Spacedust

レポジトリより Spacedustは、相同性と遺伝子近傍の保存性に基づいて、複数のゲノム間で保存された遺伝子クラスターを同定するためのモジュール型ツールキットである。Foldseekの高速かつ高感度な構造比較とMMseqs2の相同性検索機能を利用している。ゲノム間…

種のツリーにクエリを追加する DEPP

新しい配列をリファレンス系統樹上に配置することは、環境サンプル、特にマイクロバイオームの解析にますます利用されるようになってきている。既存の配置手法は、クエリ配列がリファレンス系統上で直接特定のモデルの下で進化してきたと仮定している。例え…

超高速・高精度な体細胞スモールバリアントコーラー rabbitvar

次世代シーケンサー(NGS)技術の継続的な発展により、がん研究においてゲノム解析が広範囲かつ頻繁に利用されるようになった。それに伴う大規模なNGSデータセットの作成は、一般的に使用されるハードウェアプラットフォーム上で高度に最適化された高精度の…

断片化したメタゲノムアセンブリからバクテリオファージゲノムを同定する Phables

2023/09/29 論文引用 ヒトの腸内に見られる微生物群集は、ヒトの健康に強い影響を及ぼす。腸内細菌やウイルスは、炎症性腸疾患などの消化器疾患に影響を及ぼす。バクテリオファージとして知られる細菌に感染するウイルスは、ヒト腸内の細菌群集を調節する上…

minimizer空間でメタゲノムのアセンブリを行う metaMDBG

2023/08/03 全面的に修正 2024/01/03 論文引用、タイトル修正 高精度ロングリードのための新しいメタゲノミクスアセンブラを紹介する。metaMDBGとして実装された本アプローチは、minimizer空間における高効率なde Bruijnグラフアセンブリと、ゲノムカバレッ…

遺伝子アノテーションの品質評価を行う OMArk

多様な生物種のゲノム配列がますます豊富になる時代において、タンパク質をコードする遺伝子レパートリーの質を評価することは極めて重要である。最先端のゲノムアノテーション評価ツールは、遺伝子レパートリーの完全性を測定するが、遺伝子の過剰予測やコ…

MiniprotとAUGUSTUSによるゲノムアノテーションを行う GALBA

2023/09/01 論文引用 アース・バイオゲノムプロジェクトによって、利用可能な真核生物ゲノムの数は急速に増加しているが、公開されたゲノムのほとんどは、タンパク質をコードする遺伝子のアノテーションが不足している。さらに、いくつかのゲノムではトラン…

あらゆるタイプのPacBioおよびONTロングリードのシミュレータ PBSIM3

2024/02/12 誤字修正 Pacific Biosciences (PacBio)やOxford Nanopore Technologies (ONT)などのロングリードシーケンサーは、そのリード長や精度を向上させ、これまでにない研究を開拓している。ロングリードを解析するためのツールやアルゴリズムも数多く…

HiFiロングリードを効率的にマッピングする mapquik

2023/07/13 タイトル修正、誤字修正 DNAシーケンスデータは、シーケンスエラー率がますます低くなり、より長いリードへと進歩し続けている。本著者らは、ロングリード(PacBio HiFi)から低発散配列のリファレンスゲノムへのマッピング(アラインメント)と…

病原性因子と抗生物質耐性遺伝子を同時に予測する HyperVR

感染症は、公衆衛生と世界経済に深刻な問題を提起している。病原体が宿主細胞に接着し、繁殖し、ダメージを与えることを可能にするのは病原性因子(VFs)であり、抗生物質耐性遺伝子(ARGs)は、通常であれば治癒可能な治療を回避することを可能にする。VFs…

ナノポアのロングリードからウイルスゲノムを検出する VirPipe

ナノポアシークエンシングによるウイルスゲノムの検出と解析は、病原体アウトブレイクのサーベイランスにおいて大きな可能性を示している。しかし、ナノポアシーケンスをサポートするウイルス検出パイプラインの数は非常に限られている。この論文では、Nanop…

DegNorm

2023/07/10 インストール手順修正 RNA-seqは現在、ハイスループットシークエンシング技術を使用して転写活性をプロファイリングするための最も一般的な方法である。転写産物長の単位あたりのシークエンシングタグカウントは、転写産物の相対存在量を測定する…

宿主汚染を正確に除去する Hostile

2023/12/22 論文引用 臨床サンプルから作成された微生物配列は、倫理的および法的な理由から除去しなければならないヒト宿主配列で汚染されていることが多い。バリアントコーリングやde novoアセンブリなどの下流解析に不利になるような標的微生物配列を不用…

Foldseekのeasy-searchコマンドとeasy-clusterコマンド

2023/07/08 追記 構造予測手法が何百万もの一般に利用可能なタンパク質構造を生成しているため、これらのデータベースを検索することがボトルネックになりつつある。Foldseekは、タンパク質内の3次アミノ酸相互作用を構造アルファベット上の配列として記述す…

SemiBin2

2023/07/10 誤字修正 2024/04/19 チュートリアルリンク追記 環境試料からメタゲノムアセンブリゲノム(MAG)を再構成するメタゲノムビニング法は、大規模なメタゲノム研究において広く用いられている。最近提案された半教師ビニング法SemiBinは、いくつかの…

MarkdownをPDFに変換する mdpdf

mdpdfはMarkdown記法のドキュメントをPDFにレンダリングするツール。 インストール Minimal requirements commonmark PyMuMDF click Github pip install mdpdf > mdpdf --help $ mdpdf --help Usage: mdpdf [OPTIONS] [INPUTS]... Convert Markdown to PDF. …

ライフサイエンスのための包括的なフォーマットコンバーター BioConvert

2023/07/04 追記 バイオインフォマティクスは、長年にわたって開発されてきた数多くの標準やフォーマットで知られる分野である。このフォーマットの多さは時に補完的であり、しばしば冗長であるため、バイオインフォマティクスのデータ解析者に多くの課題を…

オルソログベンチマークサービス Quest for Orthologs

Orthology Benchmark Service (https://orthology.benchmarkservice.org)は、Quest for Orthologsコンソーシアムによってサポート・維持されている、orthology inference 評価のゴールドスタンダードである。これは、標準的なデータセットと共通の手順で、既…

バクテリアのプラスミド自動アセンブリツール Plassembler

近年のシーケンシング技術の進歩により、ロングリードファーストアセンブリアプローチとショートリードポリッシングを組み合わせることで、ほぼ完全な細菌染色体アセンブリを安価かつ効率的に得ることが可能になった。しかしながら、long-read-first assembl…

genozipのバージョン15アップデートで追加されたdeepモード

2023/07/01追記 2023/07/09 論文引用 BAM/SAM/CRAM、VCF、FASTQ、GFF3を効率的に圧縮するgenozipのバージョン15アップデートが公開されています。バージョン15ではdeepモードが追加されました(Genozip Deepと呼ばれる)。このBAMとFASTQの間に内在する情報…

マイクロバイオームデータの統計的・機能的・統合解析を行う MicrobiomeAnalyst 2.0

マイクロバイオーム研究は、多様性プロファイリング、機能特性解析、トランスレーショナルアプリケーションなど、多様な目的を持つ生物医学、農業、環境科学において日常的に行われるようになってきた。その結果、複雑で、しばしばマルチオミックスデータセ…