macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

multiple sequence alignment (MSA)

複数のプロファイルHMMを1つに統合する HMMerge

過去数十年の間に多重配列アライメントのための手法開発が進歩したにもかかわらず、配列の長さが大きく異なるデータセットのアライメントは、特に入力配列に非常に短い配列(シークエンシング技術、または進化の過程で大きく欠失した配列)が含まれる場合、…

ウルトラロングデータセットに対する高速多重塩基配列アラインメント法 FMAlign2

バイオインフォマティクスにおいて、マルチプル配列アライメント(MSA)は極めて重要なタスクである。しかし、従来の方法では、ウルトラロングシークエンスのアライメントに苦労することが多い。この問題に対処するため、研究者たちは、並列アラインメントの…

タンパク質配列と構造のハイブリッド類似性スコアに基づく進化推定のためのツール PC_ali

進化的推論は複数配列アラインメント(MSA)の質に大きく依存するが、遠縁のタンパク質では問題がある。タンパク質の構造は塩基配列よりも保存されているので、遠いホモログに対して構造アラインメントを用いるのは自然なことのように思われる。しかしながら、…

アラインメント操作と要約統計量の計算のための高速なツールキット AMAS

近年、系統学で用いられるデータ量は爆発的に増加しており、数百から数千の遺伝子座と多数の分類群から多くの系統が推定されている。このような最新の系統学研究では、遺伝子のサブセットや連結配列の多重解析に加え、各遺伝子座の個別解析が必要となること…

MPI Bioinformatics ToolkitのPSI-BLASTサービス

MPI Bioinformatics Toolkit(https://toolkit.tuebingen.mpg.de)(紹介)は、多種多様なパブリックのバイオインフォマティクスツールへのアクセスを無料で提供するインタラクティブなウェブサービスです。30以上の外部ツールと内性ツールを提供しており(2…

系統樹検索エンジン SHOOT.bio

遺伝子間の進化的関係を明らかにすることは、比較生物学研究の基本である。ここでは、SHOOTを紹介する。SHOOTは、ユーザからのクエリー配列を系統樹のデータベースと照合し、クエリー配列が正しく配置された系統樹を返す。SHOOTはBLAST検索に匹敵する速度で…

シーケンスアラインメントやHMMER3のHMMプロファイルをlogoで視覚化する skylign

ロゴは、分子生物学において、配列の保存パターンをコンパクトなグラフで表現するためによく用いられる。ロゴは、配列アラインメントや隠れマルコフモデルに含まれる情報を、各位置に文字のスタックを描くことで表現する。スタックの高さはその位置の保存度…

オルガネラゲノムの遺伝子の多重整列を自動で構築するパイプライン HomBlocks

オルガネラの系統解析を行うためには、あらかじめアラインメントされた単一遺伝子データセットを連結したマルチ遺伝子アラインメントマトリクスを正確に構築する必要がある。しかし、数十から数百の相同遺伝子からなる高品質なマルチ遺伝子アラインメントを…

アンサンブルブートストラップにより、系統樹の信頼性をより正確に推定する MUSCLE v5

系統樹の信頼性は、多くの場合、Felsensteinブートストラップ法を用いてマルチプルシーケンスアラインメント(MSA)から推定される。しかし、この方法では、MSAの系統的な誤差を考慮していないため、推定される系統樹に大きな偏りが生じる可能性がある。ここ…

全ゲノムのヌクレオチドを可視化する FluentDNA

研究者がゲノムアセンブリを裸で見ることはほとんどない。その代わりに、DNA配列の属性は、統計、アノテーション、高レベルの要約によって媒介される。ここでは、全ゲノムアセンブリーの裸の配列をズーム可能なインターフェースで可視化するソフトウェアを紹…

Multiple Sequence Alignmentの結果を視覚化する Sequence Bundles

本研究では、複数の配列アライメント(MSA)を表現するための新しいデータ可視化手法であるSequence Bundlesを紹介する。既存のバイオインフォマティクスのデータ可視化手法(Sequence Logoなど)の主な限界を特定し、解決するために、Sequence Bundlesを用…

連結コアタンパク質の多重整列を素早く生成する cognac

ゲノムデータの量は増加の一途をたどっている。そのためには、利用可能なデータ量に合わせた系統解析のためのツールが必要とされている。本研究では、このようなニーズに対応するために、系統解析のための遺伝子連結アラインメントを迅速に生成するためのユ…

マルチプルシーケンスアラインメント(MSA)のクリーニングツール CIAlign

2022/03/15 論文引用 生物学の分野では、生物学的な特徴や関係性を調べるための多くの調査の基礎となっているのが、複数の配列のアラインメント(MSA)である。これらのアラインメントは、多くのバイオインフォマティクス解析の中心となっている。しかし、MS…

大規模なウイルスゲノムデータのマルチプルシーケンスアラインメントを行う ViralMSA

2023/04 ツイート追記 分子疫学において、感染クラスターの同定は、典型的にはウイルスゲノム配列データのアラインメントを必要とする。しかし、既存の複数配列のアラインメント手法では、配列数に対してスケールが小さく、その結果、ウイルスの感染クラスタ…

マルチプルシーケンスアラインメントを行う Clustal Omega

Clustal Omega は、複数配列のアラインメント(MSA)を作成するためのパッケージである。利用可能な配列数が大幅に増加していることと、大きな配列を迅速かつ正確に作成する必要性に対応するために、約10年前に開発された。過去30年間で最も広く使われてきた…

高感度な類似タンパク質配列検索ツール HH-suite3(hhblitsについて)

2020 7/13 タイトル変更 2020 7/14追記 2022/10/19 追記 ゲノミクスやメタゲノミクスプロジェクトのかなりの割合のタンパク質では同定可能なアノテーションされた相同なタンパク質がなく、アノテーションされていないタンパク質がかなりの割合を占めている[r…

インタラクティブなオンラインの系統樹ツール Interactive Tree Of Life (iTOL) v4

2020 7/2 誤字修正 2021 4/27 v5の論文リンク追加 2022 8/27追記 系統樹は、生物学やその他の科学分野において重要なツールであり、様々なデータタイプのコンテキスト化としても機能している。このことは、このような系統樹を作成するためのツールが頻繁に使…

正確な系統推定のためのアラインメントトリミングツール ClipKIT

2020 12/7 論文引用 2023/07/25 ツイート追記 複数シーケンスのアラインメントにおける発散性の高い部位は、相同性の誤った推論や置換の飽和に起因しており、系統推論に悪影響を及ぼすと考えられている。トリミング手法は、系統推論の前にこれらのサイトを除…

ロングリードのマルチプルシーケンスアラインメントを行う abPOA (POAのSIMD実装拡張)

マルチプルシーケンスアラインメント(MSA)問題を解決するために、Leeら(2002)によって最初に導入されたのがPartial order alignment(POA)である。POAでは、MSAをdirected acyclic graph(DAG)(有向無閉路グラフ)として表現し、動的計画法(wiki)(…

ラージデータにも対応したマルチプルシーケンスアラインメントツール Kalign 3

マルチプルシーケンスアラインメント(MSA)は、生物学的シーケンス解析の重要なタスクのままである。 MSAプログラムは、Consistency-based のメソッドとprogressive なメソッドに分けることができる。後者は、ペアワイズシーケンス距離を推定し、ガイドツリ…

マルチプルシーケンスアラインメント結果を閲覧したりフィルタリングする MView

MViewは、シーケンスデータベース検索またはマルチアライメントの結果を抽出および再フォーマットし、オプションでWebページレイアウト用のHTMLマークアップを追加するコマンドラインユーティリティである。 一般的な形式に変換するためのフィルターとしても…

ノンスペシャリストのための系統解析webサービス NGPhylogeny.fr

系統樹の推論と解釈は、広範囲の生物学的領域(比較ゲノミクス、機能予測、メタゲノミクス、種同定、分類学、分子疫学、集団遺伝学など)を対象とする多数の研究で必要となる。Phylogeny.fr(ref.1)はもともと、次の手順に基づいてワークフローを実装するこ…

UniProtKBデータベースを3つのレベルでクラスタリングした Uniclust データベース

UniProt(ref.1)やGenBank(ref.2)などの公共データベースのタンパク質配列の数は、さまざまな大規模ゲノミクスプロジェクト(ref.3〜5)のために急速に増加している。急速な成長により、多くのアプリケーションが代表的なサブセットで動作するようになっ…

PGAPとPGAP-Xを組み込んだバクテリアのパンゲノム解析webサーバー PGAweb

2019 7/21追記 2019 10/2 コードエラー修正 2019 11/2 誤字修正 "PGAP-X: extension on pan-genome analysis pipeline"より パンゲノムの概念は2005年に提案されて以来[ref.1、2]、過去10年間でバクテリアゲノムの進化と動態を調査するために急速に採用され…

様々なフォーマットのシーケンスファイルを素早くFASTA形式に変換する any2fasta

any2fastaは様々なフォーマットのシーケンスファイルをFASTAフォーマットに変換するperlスクリプトである。他の依存関係はなしにコアのPerlモジュールのみを使用する。非常に高速に実行する。(公開の動機はGithub参照) 以下のフォーマットをサポートしてい…

メタバーコディングのデータベース配列キュレーションなどを行うツールキット MetaCurator

配列ベースの生物学的コミュニティの特徴付けの過程において、配列の教師ありのtaxonomic classification は重要な目標である。多数の配列分類ソフトウェアプログラムは、配列類似性を測り、そして配列類似性と分類学的所属との間の関係をモデル化することに…

ホモログ及びオルソログタンパク質を検索するwebデータベース orthoFind

相同配列を見つけることは、機能転移によるタンパク質の機能的アノテーションを可能にし、これらの配列が共通の進化起源を有するために推論され、そして進化研究の支持としてしばしば使用される[ref.1−3]。ホモログ内では、オルソログは種分化事象から進…

非相同な領域をマスクしてアライメントの誤りを防ぐ PREQUAL

2018 12/02 mafftコマンドの誤り修正 系統的なデータセットには、品質の低い配列または誤った遺伝子モデルのために、常に、相同性のないストレッチが含まれる。大規模なデータセットでは、これらの手動によるキュレーションはできないが、この作業を自動化で…

multi-FASTA alignmentからSNPを抽出する SNP-sites

次世代シーケンシング(NGS)技術は、 Single Nucleotide polymorphism(SNP)発見のためにゲノムを大規模にリシーケンシングすることを容易にした。そのようなプロジェクト中に発見された何千ものSNPは、生物学的解釈および計算解析のためにいくらかの困難…

FASTAアライメントからSNP distance matrixを出力する snp-dists

snp-distsは、Torsten Seemannさん (GIthub) がGithubで公開されている、配列間のSNP数を計算して、行列出力するツール。 If you also want a SNP distance matrix from the alignment, I wrote snp-dists to match: https://t.co/CAM04kDSBP — Torsten Seem…