macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

タンパク質配列中の疎水性モジュール性を視覚的に探索するBlobulatorのウェブツール

疎水性残基のクラスターは構造を取っているタンパク質の安定性を促進し、タンパク質の凝集(aggregation)を促進することが知られている。最近の研究で、連続した疎水性残基クラスター("blob "と呼ばれる)を同定することが、内在性無秩序タンパク質(IDP)…

メタゲノム配列の関心がある配列を拡張アセンブリする TriMetAss

HPより TriMetAssはTrinityソフトウェアを拡張したもので、メタゲノムデータ中の興味深い特徴を囲む領域を選択してアセンブルできる。このソフトウエアは、研究対象の微生物群集において複数の文脈で出現する可能性のある、非常に一般的で保存状態の良い遺伝…

LAIスコアによる連続性の高い植物・藻類ゲノムアセンブリの品質比較を行うサイト PlantLAI

近年のゲノム解読の進歩により、解読されたゲノム数は増加している。しかし、反復配列の存在は植物ゲノムのアセンブリを複雑にしている。LTRアセンブリインデックス(LAI)は、LAIが高いほどアセンブリの質が高いことを意味することから、近年、ゲノムアセン…

タンパク質の要約統計を出力するEMBOSSのpepstatsコマンド

EMBOSSのpepstatsは、1つ以上のタンパク質配列からタンパク質の特性に関する様々な統計情報を出力する。 emboss pepstats https://emboss.sourceforge.net/apps/cvs/emboss/apps/pepstats.html インストール conda|mambaやbrewで導入できる。 #biocondamamba…

表現学習に基づくビニング法 COMEBin

コンティグビニングは、メタゲノムデータ解析において、同一または近縁ゲノムからのコンティグをグループ化することで重要な役割を果たしている。しかし、既存のビニング手法は、データの種類が多様であることや、異種情報を効率的に統合することが困難であ…

近傍した遺伝子の大規模解析、比較、可視化を行う AnnoView

遺伝子近傍の解析と比較は、微生物ゲノムの構造、機能、進化を探索するための強力なアプローチである。ゲノムの可視化や比較のためのツールは数多く存在するが、大規模なゲノムデータベースやユーザーが作成したデータセットを横断してゲノムを探索すること…

(ヒト)遺伝子スクリーニングの結果をタンパク質の配列と構造にリンクする Genomics 2 Proteins portal

近年のAIを用いた手法の進歩は、構造生物学の分野に革命をもたらした。それと同時に、ハイスループットシークエンシングと機能的ゲノミクス技術により、バリアントの検出と生成がかつてない規模で可能になった。しかし、バリアントをタンパク質構造に「マッ…

ウルトラロングデータセットに対する高速多重塩基配列アラインメント法 FMAlign2

バイオインフォマティクスにおいて、マルチプル配列アライメント(MSA)は極めて重要なタスクである。しかし、従来の方法では、ウルトラロングシークエンスのアライメントに苦労することが多い。この問題に対処するため、研究者たちは、並列アラインメントの…

ONTのリードからのリファレンスフリーのトランスクリプトーム再構成を行う isONform

ロングリードトランスクリプトームシーケンスの進歩により、転写産物の完全な配列決定が可能になり、転写プロセスを研究する能力が大幅に向上した。ロングリードのトランスクリプトームシーケンス技術としては、Oxford Nanopore Technologies (ONT)が有名で…

セントロメア構造の自動アノテーションツール HiCAT

ロングリードシーケンス技術の著しい向上により、ゲノム中のセントロメアのような複雑なゲノム領域が解明され、セントロメアのアノテーション問題が導入された。現在、セントロメアのアノテーションは半手動的に行われている。HiCATは、階層的タンデムリピー…

タンパク質コードDNAの高感度かつエラー耐性アノテーションを行う BATH

BATHは、タンパク質配列のデータベースまたはプロファイル隠れマルコフモデル(pHMM)へのDNAの直接アラインメントに基づく、タンパク質をコードするDNAの高感度アノテーションツールである。BATHはHMMER3コードベース上に構築されており、わかりやすい入力…

ターゲット2倍体ゲノムアセンブラ JTK

ハプロタイプ間の遺伝的差異を解明するためには、Diploid assembly(二倍体アセンブリ)、すなわち相同染色体の配列を別々に決定することが不可欠である。一つのアプローチは、リファレンス配列上で一塩基変異(SNV)をコールし、phase化することである。し…

分類学的シグナルを組み込むことでメタゲノムリードのアノテーションと分類学的プロファイリングを改善する RAT

メタゲノム解析には、リードベースの分類学的プロファイリング、アセンブル、メタゲノムアセンブリゲノム(MAGs)のビニングが一般的である。ここでは、これらのステップを統合したRead Annotation Tool (RAT)を報告する。RATを使ってMAGやコンティグから得…

天然変性タンパク質を予測する ADOPT

天然変性タンパク質(Intrinsically disordered proteins: IDPs)(wiki)は、広範な生物学的機能に重要であり、多くの疾患に関与している。内在性無秩序を理解することは、IDPを標的とする化合物を開発するための鍵となる。IDPの実験的特性解析は、IDPが非…

ウェブベースのタンパク質・構造解析ワークステーション PROFASA

バイオインフォマティクスと計算生物学の分野において、タンパク質の構造モデリングと解析は極めて重要な側面である。しかし、既存のツールのほとんどは高度な専門知識を必要とし、ユーザーフレンドリーなインターフェースを備えていない。この問題を解決す…

縮小アミノ酸アルファベットを用いたタンパク質構造の3次元可視化と解析のウェブサーバ RaacFold

タンパク質構造はDNA構造よりも複雑で多様であり、通常、機能、相互作用、生物学的注釈の解釈に影響を与える。Reduced amino acid alphabets (Raaa) は、タンパク質の複雑さを軽減し、機能的に保存された領域を同定する強力な能力を示す。RaacFoldは、58の還…

インタラクティブなタンパク質構造解析のためのウェブアプリケーション Foldy

Foldyは、専門家ではない科学者がAlphaFoldやDiffDockなどのAIベースの高度な構造生物学ツールに簡単にアクセスして利用できるようにするクラウドベースのアプリケーションである。Kubernetes上に構築されているため、大学、学部、研究室がハードウェアリソ…

(ヒト)バリアントの優先順位付けのためのインタラクティブなウェブアプリケーション Gene.iobio

多くの臨床現場で標準治療となることが予想される、包括的なゲノムデータの臨床治療への活用の増加に伴い、診断医学の実践は顕著な変化を遂げつつある。しかし、単一遺伝子またはパネルベースの遺伝子検査からエクソームおよびゲノムシーケンスへの移行は、…

遺伝子アノテーションをフィルタリング、解析、変換する gFACs

公開されたゲノムには、オープンリーディングフレーム、開始点、スプライスサイト、および関連する構造的特徴の同定に関連する問題を表す誤った遺伝子モデルが含まれていることが多い。これらの矛盾の原因は、ロングリードのアラインメントと予測された遺伝…

逆位の構造変異を持つノイジーなロングリードの高感度なマッピングツール invMap

PacBioやOxford Nanoporeシークエンサーで作られたロングリードは、ショートリードよりも構造変異(SV)のブレイクポイントに頻繁にまたがっている可能性がある。そのため、既存のロングリードのマッピング手法では、しばしば誤ったアラインメントやバリアン…

タンパク質配列と構造のハイブリッド類似性スコアに基づく進化推定のためのツール PC_ali

進化的推論は複数配列アラインメント(MSA)の質に大きく依存するが、遠縁のタンパク質では問題がある。タンパク質の構造は塩基配列よりも保存されているので、遠いホモログに対して構造アラインメントを用いるのは自然なことのように思われる。しかしながら、…

ヒトとマウスの転写因子結合部位予測ウェブツール TFBSPred

転写因子(TF)は遺伝子の発現調節に大きな役割を果たしている。各遺伝子の制御領域に結合するTFを発見することは、長年の研究の焦点であった。TF結合部位(TFBS)の実験的検証は複雑なプロセスであるため、予測を行うウェブツールが開発されてきた。しかし、…

メタゲノムロングリードの分類学的分類と定量を行う Melon

ロングリードシーケンスは、複雑な微生物群集の特徴を明らかにする上で大きな可能性を秘めているが、ロングリード専用に設計された分類学的プロファイリングツールはまだ不足している。ここでは、ロングリードのユニークな特性を生かしたマーカーベースの分…

完全かつ正確な細菌ゲノムアセンブリを行う Hybracter

2023/12/23 誤字修正 2024/02/11 help追記 ロングリードシークエンスの精度と利用可能性が向上したことで、現在ではハイブリッド(すなわちショートリードとロングリード)アセンブリアプローチを用いて完全な細菌ゲノムが日常的に再構築されている。完全長…

IGVのtips 4

またIGVの簡単なTipsを紹介します。 1,ロングリードシークエンスのindelエラーの表示/非表示 ロングリードシークエンスの普及により、IGVにTGS向けのオプションが追加されています。 View => Preference => Third Genタブ TGS向けの長めのVisibility range…

fastpの新機能

fastpは既に5000回以上引用されている(PubMedより)人気のシークエンシングデータの前処理ツールだが、最近のアップグレード(*1)でいくつか新機能が追加された。新機能を簡単に確認しておく。 インストール iMetaの論文ではv0.23.2が最新のバージョンのfa…

マイクロバイオーム関連に特化したsamtoolsの拡張 msamtools

msamtoolsは、マイクロバイオームデータ解析、特にショットガンメタゲノミクスやメタトランスクリプトミクスデータを解析する際によく使われる便利な機能を提供している。既にいくつかの論文で使用されている。 インストール M1 macstudioでテストした(rose…

植物関連細菌の植物生長促進能を解析するための包括的なウェブリソース PLaBAse

植物に有益な微生物は、持続可能な植物生産や植物衛生上の実践において重要性を増している。しかし、植物成長促進(PGP)に関連する細菌形質を対象とした計算論的アプローチが不足しており、植物刺激性細菌株のin-silico同定、比較、選択を妨げている。この…

ハプロタイプを考慮したロングリードエラー訂正の評価を行う hifieval

PacBio High-Fidelity(HiFi)シーケンス技術は>99%の精度のロングリードを生成する。この技術により、新世代のde novoシーケンスアセンブラが開発され、そのすべてがシーケンスエラー修正(EC)を最初のステップとしている。HiFiは新しいデータタイプであるた…

遺伝子ファミリーツリーからシングルコピーのオルソログを検索する OrthoSNAP

系統学的研究やゲノムワイドな選択調査などの分子進化研究は、しばしばシングルコピーオルソログ(SC-OG)の遺伝子ファミリーに依存している。トランスポーターや転写因子などいくつかの重要な遺伝子ファミリーに見られる現象であるが、1つ以上の種に複数の…