macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

Preprint

MAGの株レベルでの定量を可能にする MAGinator

2023/10/10 追記 メタゲノムシーケンスはマイクロバイオームの特性解析に大きな利点をもたらしたが、現在利用可能な解析ツールには、菌株レベルの分類学的解像度と存在量の推定を、アセンブルされたゲノムの機能プロファイリングと組み合わせる能力が欠けて…

大規模な微生物パンゲノムを構築し、ゲノムを追加することも可能な PanTA

2024/03/22 追記 パンゲノム解析は、1つのクレード内の単離株間で遺伝子含有量のばらつきが大きいため、細菌ゲノム解析において不可欠となっている。細菌ゲノムコレクションからパンゲノムを構築するための多くの計算手法が存在するが、急速に増加するゲノム…

>100,000の植物論文アブストラクトを網羅するナリッジネットワーク PlantConnectome

遺伝子の機能予測は生物学の理解に不可欠である。しかし、これらの予測は、実験的に特徴付けられた遺伝子の大規模なコレクションに依存しており、そのコンパイルには労力と時間がかかるだけでなく、科学文献の量と多様性を考慮すると不可能に近い。ここでは…

(RNA seqの下流解析のための)深層学習ベースのスプライシングジャンクション予測ツール Splam

2023/08/18更新、タイトル変更 イントロンを除去するためにメッセンジャーRNAをスプライシングするプロセスは、遺伝子や遺伝子バリアントを作り出す上で中心的な役割を果たしている。ここでは、深層残差畳み込みニューラルネットワークに基づく、DNA中のスプ…

超高速・高精度な体細胞スモールバリアントコーラー rabbitvar

次世代シーケンサー(NGS)技術の継続的な発展により、がん研究においてゲノム解析が広範囲かつ頻繁に利用されるようになった。それに伴う大規模なNGSデータセットの作成は、一般的に使用されるハードウェアプラットフォーム上で高度に最適化された高精度の…

断片化したメタゲノムアセンブリからバクテリオファージゲノムを同定する Phables

2023/09/29 論文引用 ヒトの腸内に見られる微生物群集は、ヒトの健康に強い影響を及ぼす。腸内細菌やウイルスは、炎症性腸疾患などの消化器疾患に影響を及ぼす。バクテリオファージとして知られる細菌に感染するウイルスは、ヒト腸内の細菌群集を調節する上…

minimizer空間でメタゲノムのアセンブリを行う metaMDBG

2023/08/03 全面的に修正 2024/01/03 論文引用、タイトル修正 高精度ロングリードのための新しいメタゲノミクスアセンブラを紹介する。metaMDBGとして実装された本アプローチは、minimizer空間における高効率なde Bruijnグラフアセンブリと、ゲノムカバレッ…

遺伝子アノテーションの品質評価を行う OMArk

多様な生物種のゲノム配列がますます豊富になる時代において、タンパク質をコードする遺伝子レパートリーの質を評価することは極めて重要である。最先端のゲノムアノテーション評価ツールは、遺伝子レパートリーの完全性を測定するが、遺伝子の過剰予測やコ…

MiniprotとAUGUSTUSによるゲノムアノテーションを行う GALBA

2023/09/01 論文引用 アース・バイオゲノムプロジェクトによって、利用可能な真核生物ゲノムの数は急速に増加しているが、公開されたゲノムのほとんどは、タンパク質をコードする遺伝子のアノテーションが不足している。さらに、いくつかのゲノムではトラン…

宿主汚染を正確に除去する Hostile

2023/12/22 論文引用 臨床サンプルから作成された微生物配列は、倫理的および法的な理由から除去しなければならないヒト宿主配列で汚染されていることが多い。バリアントコーリングやde novoアセンブリなどの下流解析に不利になるような標的微生物配列を不用…

ライフサイエンスのための包括的なフォーマットコンバーター BioConvert

2023/07/04 追記 バイオインフォマティクスは、長年にわたって開発されてきた数多くの標準やフォーマットで知られる分野である。このフォーマットの多さは時に補完的であり、しばしば冗長であるため、バイオインフォマティクスのデータ解析者に多くの課題を…

genozipのバージョン15アップデートで追加されたdeepモード

2023/07/01追記 2023/07/09 論文引用 BAM/SAM/CRAM、VCF、FASTQ、GFF3を効率的に圧縮するgenozipのバージョン15アップデートが公開されています。バージョン15ではdeepモードが追加されました(Genozip Deepと呼ばれる)。このBAMとFASTQの間に内在する情報…

ノイズパラメータを調整可能なナノポアシーケンスシグナルデータのシミュレーター squigulator

次世代シーケンサーデータのin silicoシミュレーションは、ゲノミクス分野で広く用いられている手法である。しかし、DNAまたはRNA分子を時系列電流シグナルデータの形で測定する「第3世代」ナノポアシーケンス装置からのシミュレーションデータを作成するた…

rDNAのコンセンサス配列を構築する ribotin

2023/10/06 論文(プレプリント)引用 リボソームDNA(rDNA)アレイは、すべての生命に存在する高度に反復的で均質な領域である。その反復性のため、現在のアセンブリ法では、ヒトや他の多くの真核生物のrDNAアレイを完全にアセンブリすることができず、rDNA…

ゲノムとトランスクリプトームデータからスプライシングバリアントを見つける RegTools

ゲノムの非コード領域における体細胞変異やエクソン変異は、解析ワークフローにおいて見過ごされがちな未同定の非コード化結果をもたらす可能性がある。ここでは、ゲノムデータから抽出した体細胞変異のコールと、トランスクリプトームデータから抽出したス…

データ可視化・解析のためのウェブアプリケーション PlotS

2023/06/20 誤字修正 データの可視化技術は、技術の進歩とともに大きく向上してきた。データをグラフで表現することで、その背景にあるデータ構造をより透明化し、解釈しやすくする。しかし、自由に利用できる一般的な可視化ツールは、記述統計のみをサポー…

機械学習と言語モデルによる高速、正確、包括的なオーソログ推論を行う SonicParanoid2

オルソログ遺伝子を正確に推論することは、様々なゲノム研究や進化研究の必須条件である。SonicParanoidはオルソロジー推論に最も適したツールの1つである。しかし、その拡張性と感度は、それぞれ時間のかかるall-versus-allアラインメントと複雑なドメイン…

バクテリアの比較ゲノム解析を簡単に行う zDB

ゲノムの解析と比較は、アノテーション、オルソロジー予測、系統推論などのタスクのために、さまざまなツールに依存している。しかし、ほとんどのツールは単一のタスクに特化しており、結果を統合して可視化するためにはさらなる努力が必要である。このギャ…

miniprotを使うことでゲノムからのBUSCO評価の精度と速度を改善したcompleasm

2023/07/01 名前をminiBUSCOからcompleasmに差し替え 2023/09/29 論文引用 ゲノムアセンブリの完全性評価は、ゲノムデータの正確性と信頼性を評価する上で重要である。不完全なアセンブリは、遺伝子予測、アノテーション、その他のダウンストリーム解析にお…

単一のタンパク質配列からタンパク質構造を予測する OmegaFold

最近のブレイクスルーで、深層学習を用いて複数配列アラインメント(MSA)の進化情報を利用し、タンパク質の構造を正確に予測することができるようになった。しかし、オーファンタンパク質や抗体のような進化の早いタンパク質のように、相同タンパク質のMSA…

メタゲノムの微生物の存在/不在を検出するANIベースの統計テスト YACHT

採取したDNAから環境に関連する微生物群集を研究するメタゲノミクスにおいて、最も基本的な計算タスクの1つは、リファレンスデータベースから、与えられたサンプルメタゲノムにどのゲノムが存在するか、または存在しないかを決定することである。この問いに…

微生物ゲノム中の細胞機能をモデル化してアノテーションを行う MacSyFinder v2

複雑な細胞機能は、通常、微生物ゲノムの1つまたは数個の組織化された遺伝子座の遺伝子セットによってコードされている。Macromolecular System Finder (MacSyFinder) は、これらの特性を利用して、微生物ゲノム中の細胞機能をモデル化し、次にアノテーショ…

HiFiロングリードアセンブリのためのリピートを認識したポリッシングツール NextPolish2

PacBio社が開発した高忠実度(HiFi)ロングリードシーケンス技術により、ゲノムアセンブリの塩基レベルの精度は大幅に向上したが、これらのアセンブリには、特にHiFiロングリードのエラーが発生しやすい領域内に、塩基レベルのエラーが残っている。しかし、…

断片的なアセンブリから高品質のバクテリオファージゲノムを得る Phables

ヒトの腸内に存在する微生物群は、ヒトの健康に強い影響を及ぼしている。腸内細菌やウイルスは、炎症性腸疾患などの消化器系疾患に影響を与える。バクテリオファージと呼ばれる細菌に感染するウイルスは、ヒトの腸内の細菌群集を制御する上で重要な役割を担…

コード不要で高度なRNA-seq解析を行う RNAlysis

次世代シーケンサーによる実験では、データの探索的解析、トレンドの解釈、ターゲット/候補の特定、結果のわかりやすい直感的な可視化などが大きな課題となってる。これらの課題は、利用可能な解析ツールの大半がプログラミングスキルを必要とするため、コン…

ヒトの遺伝子と転写産物の総合カタログ CHESS 3

ヒト遺伝子のCHESSデータベース(Comprehensive Human Expressed SequenceS)は、Genotype-Tissue Expression (GTEx)プロジェクトで作成されたヒト53部位における約1万件のRNAシーケンス実験から構築され、さらに他のデータベースからの遺伝子を加えて、タン…

ヒト腸内細菌データベースを用いたオンラインのマイクロバイオーム解析を可能にする GutMeta

ヒトの腸内細菌は、多くの疾患と関連している。全ゲノムショットガンメタゲノミクスにより、膨大な量の腸内細菌データが蓄積されている。しかし、この膨大なデータセットを探索するためのキュレーションされた統合プラットフォームはほとんどない。データ生…

タンパク質の構造的近傍を探索する Structome

タンパク質の構造は、共通の祖先のシグナルを持ち、そのため進化の歴史を再構築するのに役立つ。構造情報推論を迅速に行うために、Structomeというウェブサーバーが開発され、ユーザーはクエリータンパク質に類似した構造を迅速に特定し、構造に基づく系統学…

細菌の分類学的に制限された遺伝子を探索するためのリソース TRGdb

TRGdbデータベースは、バクテリアの分類学的制限遺伝子(TRG)に特化したリソースである。最新の細菌分類学に基づき、異なる属や種に特異的な遺伝子を包括的に収集している。ユーザーインターフェースは、ブラウズや検索、配列の類似性探索を容易にする。また…

アセンブリ時のハプロタイプ重複に対処するためのツール群 Mabs

真核生物のゲノム解析は、ゲノム解読法の進歩にもかかわらず、未だエラーフリーには至っていない。真核生物のゲノムアセンブリの問題の中には、対立遺伝子が誤ってパラロガスとしてアセンブリされるケースとして現れる、いわゆる「ハプロタイプ重複」と呼ば…