macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

multiple sequence alignment (MSA)

UniProtKBデータベースを3つのレベルでクラスタリングした Uniclust データベース

UniProt(ref.1)やGenBank(ref.2)などの公共データベースのタンパク質配列の数は、さまざまな大規模ゲノミクスプロジェクト(ref.3〜5)のために急速に増加している。急速な成長により、多くのアプリケーションが代表的なサブセットで動作するようになっ…

PGAPとPGAP-Xを組み込んだバクテリアのパンゲノム解析webサーバー PGAweb

2019 7/21追記 2019 10/2 コードエラー修正 "PGAP-X: extension on pan-genome analysis pipeline"より パンゲノムの概念は2005年に提案されて以来[ref.1、2]、過去10年間でバクテリアゲノムの進化と動態を調査するために急速に採用されてきた[ref.3、6]。最…

様々なフォーマットのシーケンスファイルを素早くFASTA形式に変換する any2fasta

any2fastaは様々なフォーマットのシーケンスファイルをFASTAフォーマットに変換するperlスクリプトである。他の依存関係はなしにコアのPerlモジュールのみを使用する。非常に高速に実行する。(公開の動機はGithub参照) 以下のフォーマットをサポートしてい…

メタバーコディングのデータベース配列キュレーションなどを行うツールキット MetaCurator

配列ベースの生物学的コミュニティの特徴付けの過程において、配列の教師ありのtaxonomic classification は重要な目標である。多数の配列分類ソフトウェアプログラムは、配列類似性を測り、そして配列類似性と分類学的所属との間の関係をモデル化することに…

ホモログ及びオルソログタンパク質を検索するwebデータベース orthoFind

相同配列を見つけることは、機能転移によるタンパク質の機能的アノテーションを可能にし、これらの配列が共通の進化起源を有するために推論され、そして進化研究の支持としてしばしば使用される[ref.1−3]。ホモログ内では、オルソログは種分化事象から進…

非相同な領域をマスクしてアライメントの誤りを防ぐ PREQUAL

2018 12/02 mafftコマンドの誤り修正 系統的なデータセットには、品質の低い配列または誤った遺伝子モデルのために、常に、相同性のないストレッチが含まれる。大規模なデータセットでは、これらの手動によるキュレーションはできないが、この作業を自動化で…

multi-FASTA alignmentからSNPを抽出する SNP-sites

次世代シーケンシング(NGS)技術は、 Single Nucleotide polymorphism(SNP)発見のためにゲノムを大規模にリシーケンシングすることを容易にした。そのようなプロジェクト中に発見された何千ものSNPは、生物学的解釈および計算解析のためにいくらかの困難…

FASTAアライメントからSNP distance matrixを出力する snp-dists

snp-distsは、Torsten Seemannさん (GIthub) がGithubで公開されている、配列間のSNP数を計算して、行列出力するツール。 If you also want a SNP distance matrix from the alignment, I wrote snp-dists to match: https://t.co/CAM04kDSBP — Torsten Seem…

(ウィルス) コドンを考慮し、フレームシフトエラーに強いアライメントツール VIRULIGN

多くのウイルス性病原体、特にRNAウイルスは、宿主内および宿主間で急速に進化しており、変化する状態への適応のマーカーがそれらのゲノムにおいて検出され得る(Lemeyら、2006)。ウイルス遺伝子型からの構造、機能および表現型予測は、ウイルス感染の薬物…

アライメントビューア Alan

Alanはターミナル(端末エミュレータ)で動くアライメントのビューア。GUIに頼らず端末内で確認作業を完結させることができる。 インストール ubuntu18.04でテストした。 --対応フォーマット-- FASTA、Clustal format alignments 本体 GIthub alan-2.1.1/ala…

web上でマルチプルアライメントを実行し分子系統樹を出力する MAFFT online service

Multiple sequence alignment (MSA)は、biological sequencesの比較分析において重要なステップである。著者らは、MAFFT [論文より ref.1、2]を使用してウェブ上のMSAを計算するためのオンラインサービスを提供する。 MAFFTには、何千ものシーケンスからな…

プライマーを自動設計したり、プライマー全アニーリング部位を確認できる FastPCR

ポリメラーゼ連鎖反応(PCR)は、分子生物学の基本であり、核酸増幅に使用される最も重要な実験技術である。(一部略) 増幅反応を引き起こすための熱サイクリングに依存しない多くの等温増幅技術も開発されている。 そのような技術の1つは、鋳型DNAをオリ…

ゲノムのマルチプルアライメントを行う Mugsy

2019 6/10 インストール追記 Mugsyはnucmerを内部で動かし、all against allのペアワイズアライメントを行い、ゲノムサイズのマルチプルアライメントを可能にする方法論。論文では31のバクテリアゲノムを2時間以内に解析できたと記載されている。 公式サイ…

メガサイズのマルチプルアライメントや数千の配列のマルチプルアライメントが可能なFSA

2019 7/29 condaインストール、help追記 公式サイト http://fsa.sourceforge.net Q&A FSA Frequently Asked Questions ダウンロード sorceforge https://sourceforge.net/projects/fsa/ 解凍して、中に入りビルドする。 ./configuremakemake installfsa -h #…

SNVをコールしたり、全ゲノムのマルチプルアライメントを行う Snippy

Snippyはバクテリアのゲノムのマルチプルアライメントを行なって、SNV、indelをコールするツール。バリアントに基づいた系統解析を行う時などに使うことができる。 公式ページ http://www.vicbioinformatics.com/software.snippy.shtml マニュアル(README.m…

巨大なプロテインファミリーのマルチプルアライメントを行うFAMSA

FAMSAは大規模タンパク質ファミリーのマルチプルアライメントを可能にするアルゴリズムを持つ方法論。CPUの並列化に対応しており、数千-数十万のタンパク質ファミリーの高速なマルチプルアライメントが可能になっている。 論文中では、オーサーが定義したお…

マルチプルアライメントを行うMAFFT

2019 6/13 説明及びインストール追記 2019 6/21 コマンド微修正 2019 7/3 説明修正 2019 7/15 help追記 2019 9/29 twitter追加 MAFFT開発秘話。私が4回生で宮田研に加わった時、まず手動で多重アラインメントする訓練から始まりました。研究室内部で使われて…

マルチプルアライメンントのトリミングツール trimAI

マルチプルアライメントを行うとアライメントがほとんどできない領域ができることがあるが、そういった領域は情報として利用するのが難しいため、一般的に除去しても問題にならない。trimAIはラージスケールにも対応したマルチプルアライメントのトリミング…

コード領域のアミノ酸配列を考えてマルチプルアライメントを行うMUCSE

塩基配列からコード領域のアミノ酸配列を予測してマルチプルアライメントを行う場合、従来はギャップやミスを補正せず全ての配列をアミノ酸に変換してアライメントを行なっていた。しかしこのような一義的に変換する方法だと、シーケンスエラーや擬遺伝子のs…

マルチプルアライメントを行う T-Coffee

T-Coffee(Tree based Consistency Objective Function For AlignmEnt Evaluation)はマルチプルアライメントを行うツールである。始めに2つずつ配列を比較し、それから全部の配列を使いマルチプルアライメントを実行する。従来のclustalより高速に動作する…

配列のクラスタリングツール UCLUST

2019 9/29 help追加 2019 9/30 fastaへの変換コマンド追加 相同な配列をクラスタリングするツール。相同性の下限値を指定してランすると、閾値以上の相同性を持った塩基配列をまとめてくれる。CD-HIT-ESTより高速に動作するとされる。 ダウンロード (linux, …

ゲノム比較 x 変異コール x ビューア を統合したGUI(CUI)ツール Mauve

mauveはよく似たゲノムのアライメントを行い、その結果を見やすいビューアで表示して比較できるソフトである。Mac、windows、Linux版が用意されており、無償でダウンロードできる。 ダウンロードは公式サイトから行う。 the Darling lab | computational (me…

blast解析からArtemis comparison tool 起動まで自動で行うラッパーツール

ローカルblastは通常genebankファイルを扱えない。そのため、ACTのようなツールでゲノム比較を行うためには以下のような面倒な流れを取る必要がある。 gbkファイルの入手。 ↓ fastaファイルの抽出(またはgenebankと同じfaファイルの入手) ↓ ローカルblast…