macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

2024-01-01から1年間の記事一覧

ロングリードのハイブリッドエラー訂正を行う HERRO

20240419 タイトル修正 注;論文のタイトルにはHEROと書かれてますが、レポジトリではHERROとなっています。ここではHERROで統一します。 一般的に優れているが、次世代シーケンシング(NGS)リードを用いた第3世代シーケンシング(TGS)リードのエラーを修…

複数のプロファイルHMMを1つに統合する HMMerge

過去数十年の間に多重配列アライメントのための手法開発が進歩したにもかかわらず、配列の長さが大きく異なるデータセットのアライメントは、特に入力配列に非常に短い配列(シークエンシング技術、または進化の過程で大きく欠失した配列)が含まれる場合、…

kraken2のレポートをkrona plotで視覚化する

2024/02/14 誤字修正 メタゲノムデータ解析レシピ(ISBN 978-4-7581-2255-9)3章のWEB年度更新で、kraken2のunclassifiledの割合には注意しましょうという説明をしました。その中で、unclassifiledがkrona plotには反映されないと書いたのですが、これはKrak…

ノイズの多いロングリードからハプロタイプを考慮したde novo二倍体ゲノムアセンブリを行う PECAT

2024/04/19 論文引用 高いシーケンスエラーは、2倍体ゲノムアセンブリへのロングノイズリードの適用を妨げてきた。既存のアセンブラーでは、長ノイズリードに含まれる高シーケンスエラーとヘテロ接合体を区別できず、ハプロタイプスイッチの多いアセンブリー…

キュレーションされたBLASTサービス Curated BLAST

Curated BLAST for Genomesは、目的のゲノム内のプロセスまたは酵素活性の候補遺伝子を見つける。通常、各タンパク質について単一の活性を予測するアノテーションツールとは対照的に、Curated BLASTは、ゲノム中のタンパク質のいずれかが、関連する特性化さ…

膜貫通タンパク質の統合リソース UniTmp

UNIfied database of TransMembrane Proteins (UniTmp)は、膜貫通タンパク質の構造情報を、タンパク質セグメントの局在、タンパク質のトポロジーから膜包埋3次元構造まで、様々なレベルで網羅的に収集した、自由にアクセス可能なリソースである。何万もの新…

細菌・古細菌の高速な比較ゲノムブラウザ Fast.genomics

ゲノムシークエンシングにより、細菌や古細菌の驚くべき多様性が明らかになったが、これらのゲノムを横断的に閲覧するための高速で便利なツールは存在しない。原核生物の多様性の中で、目的のタンパク質のホモログの存在率や、それらのホモログの遺伝子近傍…

in silicoタンパク質間相互作用予測のためのユーザーフレンドリーなパイプライン LazyAF

2024/02/07 タイトル変更 人工知能はタンパク質構造予測の分野に革命をもたらした。しかし、より強力で複雑なソフトウェアが開発されるにつれ、エンドユーザーにとって制限要因になりつつあるのは、能力よりもむしろアクセシビリティと使いやすさである。こ…

InterProScan 5

2014年の論文より ロバストな大規模配列解析は、生物学者が何百万もの配列の特徴を明らかにしようとしている現代のゲノム科学における大きな課題である。ここでは、広く使われているタンパク質機能予測ソフトウェアパッケージInterProScanの新しいJavaベース…

大規模微生物データセットのためのスケーラブルなコアゲノムアライメント Parsnp 2.0

2016年以降、NCBIでリファレンスゲノムが利用可能な微生物種の数は3倍以上に増えている。Multiple genome alignmentは、共通の祖先を共有する複数のゲノムのヌクレオチドを特定するプロセスであり、多くの下流の比較解析手法の入力として使用される。Parsnp…

高速・高感度タンパク質配列アノテーション用ソフトウェア nail

新たに塩基配列が決定された生物の多様性は極めて高く、最新の配列データベースは非常に大規模であるため、配列アノテーションにおける感度とスピードという相反するニーズの間で緊張関係が生じている。プロファイル隠れマルコフモデル(pHMM)に基づくアライ…

塩基配列アラインメント用ライブラリ BSAlign

塩基配列アライメントの精度を高めることはゲノム研究において必須の課題である。古典的な動的プログラミングアルゴリズム(Smith-WatermanやNeedleman-Wunschなど)は最適な結果を出すことを保証しているが、その時間の複雑さが大規模配列アライメントへの…

De novoで散在性反復配列を検出する REPrise

真核生物ゲノムの大部分を占める反復配列の正確なアノテーションは、様々なゲノム解析に不可欠である。データベースフリーのde novoリピート検出アプローチは、十分にキュレートされたリピートデータベースがないゲノムのアノテーションに威力を発揮する。し…

大規模生体分子構造の3D可視化のためのウェブアプリケーション Mol* Viewer

大規模な生体分子構造は、結晶学や電子顕微鏡などの確立された技術を用いて、日々実験的に決定されている。さらに、新たな統合的手法やハイブリッド手法(I/HM)により、時には数億個の水素原子以外の原子を含む巨大な高分子機械やアセンブリの構造モデルが…

タンパク質配列中の疎水性モジュール性を視覚的に探索するBlobulatorのウェブツール

疎水性残基のクラスターは構造を取っているタンパク質の安定性を促進し、タンパク質の凝集(aggregation)を促進することが知られている。最近の研究で、連続した疎水性残基クラスター("blob "と呼ばれる)を同定することが、内在性無秩序タンパク質(IDP)…

メタゲノム配列の関心がある配列を拡張アセンブリする TriMetAss

HPより TriMetAssはTrinityソフトウェアを拡張したもので、メタゲノムデータ中の興味深い特徴を囲む領域を選択してアセンブルできる。このソフトウエアは、研究対象の微生物群集において複数の文脈で出現する可能性のある、非常に一般的で保存状態の良い遺伝…

LAIスコアによる連続性の高い植物・藻類ゲノムアセンブリの品質比較を行うサイト PlantLAI

近年のゲノム解読の進歩により、解読されたゲノム数は増加している。しかし、反復配列の存在は植物ゲノムのアセンブリを複雑にしている。LTRアセンブリインデックス(LAI)は、LAIが高いほどアセンブリの質が高いことを意味することから、近年、ゲノムアセン…

タンパク質の要約統計を出力するEMBOSSのpepstatsコマンド

EMBOSSのpepstatsは、1つ以上のタンパク質配列からタンパク質の特性に関する様々な統計情報を出力する。 emboss pepstats https://emboss.sourceforge.net/apps/cvs/emboss/apps/pepstats.html インストール conda|mambaやbrewで導入できる。 #biocondamamba…

表現学習に基づくビニング法 COMEBin

コンティグビニングは、メタゲノムデータ解析において、同一または近縁ゲノムからのコンティグをグループ化することで重要な役割を果たしている。しかし、既存のビニング手法は、データの種類が多様であることや、異種情報を効率的に統合することが困難であ…

近傍した遺伝子の大規模解析、比較、可視化を行う AnnoView

2024/05/18 論文引用 遺伝子近傍の解析と比較は、微生物ゲノムの構造、機能、進化を探索するための強力なアプローチである。ゲノムの可視化や比較のためのツールは数多く存在するが、大規模なゲノムデータベースやユーザーが作成したデータセットを横断して…

(ヒト)遺伝子スクリーニングの結果をタンパク質の配列と構造にリンクする Genomics 2 Proteins portal

近年のAIを用いた手法の進歩は、構造生物学の分野に革命をもたらした。それと同時に、ハイスループットシークエンシングと機能的ゲノミクス技術により、バリアントの検出と生成がかつてない規模で可能になった。しかし、バリアントをタンパク質構造に「マッ…

ウルトラロングデータセットに対する高速多重塩基配列アラインメント法 FMAlign2

バイオインフォマティクスにおいて、マルチプル配列アライメント(MSA)は極めて重要なタスクである。しかし、従来の方法では、ウルトラロングシークエンスのアライメントに苦労することが多い。この問題に対処するため、研究者たちは、並列アラインメントの…

ONTのリードからのリファレンスフリーのトランスクリプトーム再構成を行う isONform

ロングリードトランスクリプトームシーケンスの進歩により、転写産物の完全な配列決定が可能になり、転写プロセスを研究する能力が大幅に向上した。ロングリードのトランスクリプトームシーケンス技術としては、Oxford Nanopore Technologies (ONT)が有名で…

セントロメア構造の自動アノテーションツール HiCAT

ロングリードシーケンス技術の著しい向上により、ゲノム中のセントロメアのような複雑なゲノム領域が解明され、セントロメアのアノテーション問題が導入された。現在、セントロメアのアノテーションは半手動的に行われている。HiCATは、階層的タンデムリピー…

タンパク質コードDNAの高感度かつエラー耐性アノテーションを行う BATH

BATHは、タンパク質配列のデータベースまたはプロファイル隠れマルコフモデル(pHMM)へのDNAの直接アラインメントに基づく、タンパク質をコードするDNAの高感度アノテーションツールである。BATHはHMMER3コードベース上に構築されており、わかりやすい入力…

ターゲット2倍体ゲノムアセンブラ JTK

ハプロタイプ間の遺伝的差異を解明するためには、Diploid assembly(二倍体アセンブリ)、すなわち相同染色体の配列を別々に決定することが不可欠である。一つのアプローチは、リファレンス配列上で一塩基変異(SNV)をコールし、phase化することである。し…

分類学的シグナルを組み込むことでメタゲノムリードのアノテーションと分類学的プロファイリングを改善する RAT

メタゲノム解析には、リードベースの分類学的プロファイリング、アセンブル、メタゲノムアセンブリゲノム(MAGs)のビニングが一般的である。ここでは、これらのステップを統合したRead Annotation Tool (RAT)を報告する。RATを使ってMAGやコンティグから得…

天然変性タンパク質を予測する ADOPT

天然変性タンパク質(Intrinsically disordered proteins: IDPs)(wiki)は、広範な生物学的機能に重要であり、多くの疾患に関与している。内在性無秩序を理解することは、IDPを標的とする化合物を開発するための鍵となる。IDPの実験的特性解析は、IDPが非…