macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

2023

ロングリードのハイブリッドエラー訂正を行う HERO

一般的に優れているが、次世代シーケンシング(NGS)リードを用いた第3世代シーケンシング(TGS)リードのエラーを修正するハイブリッドアプローチは、ハプロタイプ特異的バリアントを、倍数体サンプルや混合サンプルのエラーと取り違える。HEROは、NGSリー…

複数のプロファイルHMMを1つに統合する HMMerge

過去数十年の間に多重配列アライメントのための手法開発が進歩したにもかかわらず、配列の長さが大きく異なるデータセットのアライメントは、特に入力配列に非常に短い配列(シークエンシング技術、または進化の過程で大きく欠失した配列)が含まれる場合、…

細菌・古細菌の高速な比較ゲノムブラウザ Fast.genomics

ゲノムシークエンシングにより、細菌や古細菌の驚くべき多様性が明らかになったが、これらのゲノムを横断的に閲覧するための高速で便利なツールは存在しない。原核生物の多様性の中で、目的のタンパク質のホモログの存在率や、それらのホモログの遺伝子近傍…

LAIスコアによる連続性の高い植物・藻類ゲノムアセンブリの品質比較を行うサイト PlantLAI

近年のゲノム解読の進歩により、解読されたゲノム数は増加している。しかし、反復配列の存在は植物ゲノムのアセンブリを複雑にしている。LTRアセンブリインデックス(LAI)は、LAIが高いほどアセンブリの質が高いことを意味することから、近年、ゲノムアセン…

ONTのリードからのリファレンスフリーのトランスクリプトーム再構成を行う isONform

ロングリードトランスクリプトームシーケンスの進歩により、転写産物の完全な配列決定が可能になり、転写プロセスを研究する能力が大幅に向上した。ロングリードのトランスクリプトームシーケンス技術としては、Oxford Nanopore Technologies (ONT)が有名で…

セントロメア構造の自動アノテーションツール HiCAT

ロングリードシーケンス技術の著しい向上により、ゲノム中のセントロメアのような複雑なゲノム領域が解明され、セントロメアのアノテーション問題が導入された。現在、セントロメアのアノテーションは半手動的に行われている。HiCATは、階層的タンデムリピー…

ターゲット2倍体ゲノムアセンブラ JTK

ハプロタイプ間の遺伝的差異を解明するためには、Diploid assembly(二倍体アセンブリ)、すなわち相同染色体の配列を別々に決定することが不可欠である。一つのアプローチは、リファレンス配列上で一塩基変異(SNV)をコールし、phase化することである。し…

分類学的シグナルを組み込むことでメタゲノムリードのアノテーションと分類学的プロファイリングを改善する RAT

メタゲノム解析には、リードベースの分類学的プロファイリング、アセンブル、メタゲノムアセンブリゲノム(MAGs)のビニングが一般的である。ここでは、これらのステップを統合したRead Annotation Tool (RAT)を報告する。RATを使ってMAGやコンティグから得…

天然変性タンパク質を予測する ADOPT

天然変性タンパク質(Intrinsically disordered proteins: IDPs)(wiki)は、広範な生物学的機能に重要であり、多くの疾患に関与している。内在性無秩序を理解することは、IDPを標的とする化合物を開発するための鍵となる。IDPの実験的特性解析は、IDPが非…

ウェブベースのタンパク質・構造解析ワークステーション PROFASA

バイオインフォマティクスと計算生物学の分野において、タンパク質の構造モデリングと解析は極めて重要な側面である。しかし、既存のツールのほとんどは高度な専門知識を必要とし、ユーザーフレンドリーなインターフェースを備えていない。この問題を解決す…

インタラクティブなタンパク質構造解析のためのウェブアプリケーション Foldy

Foldyは、専門家ではない科学者がAlphaFoldやDiffDockなどのAIベースの高度な構造生物学ツールに簡単にアクセスして利用できるようにするクラウドベースのアプリケーションである。Kubernetes上に構築されているため、大学、学部、研究室がハードウェアリソ…

逆位の構造変異を持つノイジーなロングリードの高感度なマッピングツール invMap

PacBioやOxford Nanoporeシークエンサーで作られたロングリードは、ショートリードよりも構造変異(SV)のブレイクポイントに頻繁にまたがっている可能性がある。そのため、既存のロングリードのマッピング手法では、しばしば誤ったアラインメントやバリアン…

タンパク質配列と構造のハイブリッド類似性スコアに基づく進化推定のためのツール PC_ali

進化的推論は複数配列アラインメント(MSA)の質に大きく依存するが、遠縁のタンパク質では問題がある。タンパク質の構造は塩基配列よりも保存されているので、遠いホモログに対して構造アラインメントを用いるのは自然なことのように思われる。しかしながら、…

メタゲノムロングリードの分類学的分類と定量を行う Melon

ロングリードシーケンスは、複雑な微生物群集の特徴を明らかにする上で大きな可能性を秘めているが、ロングリード専用に設計された分類学的プロファイリングツールはまだ不足している。ここでは、ロングリードのユニークな特性を生かしたマーカーベースの分…

完全かつ正確な細菌ゲノムアセンブリを行う Hybracter

2023/12/23 誤字修正 2024/02/11 help追記 ロングリードシークエンスの精度と利用可能性が向上したことで、現在ではハイブリッド(すなわちショートリードとロングリード)アセンブリアプローチを用いて完全な細菌ゲノムが日常的に再構築されている。完全長…

fastpの新機能

fastpは既に5000回以上引用されている(PubMedより)人気のシークエンシングデータの前処理ツールだが、最近のアップグレード(*1)でいくつか新機能が追加された。新機能を簡単に確認しておく。 インストール iMetaの論文ではv0.23.2が最新のバージョンのfa…

ハプロタイプを考慮したロングリードエラー訂正の評価を行う hifieval

PacBio High-Fidelity(HiFi)シーケンス技術は>99%の精度のロングリードを生成する。この技術により、新世代のde novoシーケンスアセンブラが開発され、そのすべてがシーケンスエラー修正(EC)を最初のステップとしている。HiFiは新しいデータタイプであるた…

MAGの株レベルでの定量を可能にする MAGinator

2023/10/10 追記 メタゲノムシーケンスはマイクロバイオームの特性解析に大きな利点をもたらしたが、現在利用可能な解析ツールには、菌株レベルの分類学的解像度と存在量の推定を、アセンブルされたゲノムの機能プロファイリングと組み合わせる能力が欠けて…

ショートリードアセンブリからプラスミドコンティグを同定する PLASMe

プラスミドは、重要なアクセサリー遺伝子を運ぶ移動性の遺伝性エレメントである。プラスミドをカタログ化することは、細菌間の遺伝子の水平伝播を促進するプラスミドの役割を解明するための基本的なステップである。次世代シーケンサー(NGS)は、今日、新し…

ロングリードを用いたDe Novoゲノムアセンブリとマッピングのためのツールキット ntLink

ゲノムシーケンスデータの低価格化と入手の容易化に伴い、de novoゲノムアセンブリは、様々な下流の研究や解析への重要な第一歩となっている。そのため、計算効率の高い方法で高品質のゲノムアセンブリを作成できるバイオインフォマティクスツールが不可欠で…

複数ゲノムにまたがるシンテニー関係を可視化する使いやすいツール NGenomeSyn

大規模な比較ゲノム研究は、種の進化や多様性に関する重要な知見を提供してきたが、同時に可視化という大きな課題にもつながっている。膨大なゲノムデータに隠された重要な情報や、複数のゲノム間の関係を素早くキャッチし、提示するには、効率的な可視化ツ…

タンデムリピートのアノテーションを行う TRASH

ロングリードDNAシーケンスの登場により、多くの真核生物のセントロメアに見られるメガベーススケールのサテライトリピート配列など、高度に反復したゲノム領域の完全なアセンブリが初めて可能になった。このような反復領域のアセンブリにより、高次反復パタ…

大規模な微生物パンゲノムを構築し、ゲノムを追加することも可能な PanTA

パンゲノム解析は、1つのクレード内の単離株間で遺伝子含有量のばらつきが大きいため、細菌ゲノム解析において不可欠となっている。細菌ゲノムコレクションからパンゲノムを構築するための多くの計算手法が存在するが、急速に増加するゲノムコレクションでは…

>100,000の植物論文アブストラクトを網羅するナリッジネットワーク PlantConnectome

遺伝子の機能予測は生物学の理解に不可欠である。しかし、これらの予測は、実験的に特徴付けられた遺伝子の大規模なコレクションに依存しており、そのコンパイルには労力と時間がかかるだけでなく、科学文献の量と多様性を考慮すると不可能に近い。ここでは…

(RNA seqの下流解析のための)深層学習ベースのスプライシングジャンクション予測ツール Splam

2023/08/18更新、タイトル変更 イントロンを除去するためにメッセンジャーRNAをスプライシングするプロセスは、遺伝子や遺伝子バリアントを作り出す上で中心的な役割を果たしている。ここでは、深層残差畳み込みニューラルネットワークに基づく、DNA中のスプ…

ユーザーフレンドリーなナノポアロングリードの転写解析プラットフォーム NanopoReaTA

オックスフォード・ナノポア・テクノロジーズ(ONT)のシーケンスプラットフォームは、シーケンス中にリアルタイム解析を実行する優れた機会を提供する。この機能により、実験データに対する早期の洞察が可能になり、さらなる解析のための潜在的な意思決定プ…

どれだけ知られていないかを基にタンパク質をランク付けする Unknomeデータベース

ヒトゲノムには約2万個のタンパク質がコードされているが、その多くはまだ解明されていない。科学研究は、よく研究されているタンパク質に焦点を当てがちであることは明らかであり、未解明の遺伝子が不当に軽視されているという懸念につながっている。この問…

FASTAおよびFASTQファイルを大規模処理する BigSeqKit

ハイスループットシーケンス技術により、利用可能なシーケンスデータの量はかつてないほど爆発的に増加しており、それらは通常FASTAファイルやFASTQファイルとして保存されている。配列データを生物学的知識に変換する目的で、この種のファイルを処理・操作…

正確で拡張可能な系統樹を構築する uDance

2023/08/05 間違った説明を修正 系統樹は、生命のツリーを横断して進化の歴史を整理するための枠組みを提供し、メタゲノム同定などの下流の比較解析に役立つ。16S rRNAのような単一マーカー遺伝子に依存する手法では、数十万種の生物で精度の低い系統樹が作…

種のツリーにクエリを追加する DEPP

新しい配列をリファレンス系統樹上に配置することは、環境サンプル、特にマイクロバイオームの解析にますます利用されるようになってきている。既存の配置手法は、クエリ配列がリファレンス系統上で直接特定のモデルの下で進化してきたと仮定している。例え…