macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

2013

コンティグの拡張アセンブリを行う PRICE

低価格のDNAシーケンス技術により、ゲノム、トランスクリプトーム、生態系全体のメタゲノム解析における直接核酸シーケンスの役割は拡大しています。このような大規模なデータセットに対する人間や機械の理解は、配列断片を長く連続した配列ブロック(コンテ…

AUGUSTUSの訓練と遺伝子予測のためのウェブサービス WebAUGUSTUS

2023/01/01 誤字修正 タンパク質をコードする遺伝子の予測は、新たにシークエンシングされアセンブルされたゲノムのアノテーションにおいて重要なステップである。AUGUSTUSは真核生物の遺伝子予測のための最も正確なツールの一つである。ここでは、AUGUSTUS…

真核生物の比較ゲノミクスのためのゲノムブラウザ Genomicus

Genomicusは、真核生物の比較ゲノミクスに特化したデータベースおよびウェブサーバである。Genomicusの主な機能は、複数のゲノム間でのゲノムブロックの保存状態をグラフィカルに表現することであり、特定の遺伝子を中心とした局所的な保存状態や、核型比較…

(メタ)ゲノムアセンブリを評価する ALE

研究者は、シングルおよびメタゲノムアセンブリの精度を客観的に評価し、それらに含まれる可能性のあるエラーを自動的に検出するための汎用的な手法を必要としている。現在の手法は、リファレンスを必要としたり、アセンブリ品質の多くの側面のうちの1つしか…

De novo transcriptomeのアセンブラ IDBA-tran

トランスクリプトームの解析には、次世代シーケンシング技術を用いたRNAシーケンシングが有効である。de novoゲノムアセンブリと同様に、de novoトランスクリプトームアセンブリは、リファレンスゲノムや追加のアノテーション情報に依存しないが、より困難で…

古代DNAの損傷パラメータを推定する mapDamage2

骨や歯の化石、コプロライト、堆積物、ミイラ化した標本、博物館のコレクションなどに含まれるAncient DNA(aDNA)分子は、進化生物学者にとって素晴らしい情報源であり、過去の伝染病の原因や過去の集団の動態を明らかにしてくれる。しかし、aDNA の分析に…

infernal

infernalは、入力として与えられた構造的にアノテーションされた複数の配列アラインメントから、共分散モデル(CM)と呼ばれるRNAファミリーの配列と二次構造の確率的プロファイルを構築する。infernalは、共分散モデルを使用して、配列データベース内の新し…

メタゲノムのシーケンシングリードからアセンブリしてCRISPRsを探す Crass

Clustered Regularly Interspaced Short Palindromic Repeats (CRISPRs) は、バクテリオファージ(ファージ)から細胞を保護する細菌および古細菌の適応免疫システムを構成する。 CRISPR遺伝子座の分析により、ファージ感染の履歴が明らかになり、ファージと…

(植物)葉緑体ゲノム配列を自動で完全にアノテーションする CPGAVAS2

葉緑体ゲノムの完全長配列は、種の進化の歴史に関する豊富な情報を提供している。次世代シークエンシング技術の進展に伴い、葉緑体ゲノムの完全配列の数は飛躍的に増加すると予想されており、ゲノム配列をアノテーションするための強力な計算機ツールが急務…

動物(Metazoa)ミトコンドリアゲノムのアノテーションを行うウェブサーバー MITOS

信頼性の高い標準化されたゲノムアノテーションは、ゲノム配列データの系統的な比較解析に不可欠な前提条件である。これは、特に系統の再構成、ゲノムリアレンジメントのメカニズムの研究、配列変化の影響の調査に当てはまる。正確で偏りのないアノテーショ…

パンゲノム解析を行う GET HOMOLOGUES

2020 5/28 追記、10/5 タイトル修正、12/24 linuxでのインストール追記 2021 1/13 誤字修正 2024/02/21 追記,2/25追記 GenBank のような公開データベースに登録されているゲノムの数が増え続けていることから、種の遺伝子レパートリーを比較するためのツール…

k-merカウンタ DSK

DNA/RNAシーケンシングのリード中のすべてのk-mer(長さkの部分文字列)をカウントすることは、多くのバイオインフォマティクスアプリケーションの前段階である。しかし、最新のk-merカウント方法では、大きなデータ構造がメモリ内に存在する必要がある。こ…

アセンブリ結果を評価するwebサービス gVolante

2021 5/12 ツイート追記 全ゲノムやトランスクリプトームなどの包括的な配列情報へのアクセスが増加するとともに、それらの品質を評価する必要性が高まっている。N50などのシーケンス長に基づくメトリックが標準になったが、これはアセンブリ品質の1つの側面…

膜タンパク質の推定膜貫通領域などのフィーチャを視覚化する Protter

biological sequences内の特徴の視覚化は、シーケンシングデータの統合分析および解釈に不可欠である。豊富なfeature annotations(例:遺伝子、プロモーター)および実験的証拠(例:RNA-Seq読み取り)のコンテキストでゲノムDNAなどの核酸配列を視覚化する…

microbialの遺伝子コンテキストを視覚化するwebサービス MGcV

保存された遺伝子コンテキストは、多くのタイプの比較ゲノム解析で使用される。遺伝子機能のリードを提供し、調節配列の発見を導くだけでなく、代謝ネットワークの再構築を支援するために使用さされる。 Microbial Genomic context Viewer(MGcV)は、バクテ…

VCFのアノテーションを行う Snpdat(非モデル生物にも対応)

一塩基多型(SNP)は、脊椎動物と無脊椎動物で見られる最も一般的なgenetic variantである[ref.1]。 SNPは、関連研究[ref.2]、遺伝子マッピング[ref.3]、および集団遺伝学[4]で好まれている分子マーカーとして定期的に利用されている。技術の改善とコストの…

contigをscaffoldingする Scaffold_builder

#今回からDNAシーケンシング => DNAシークエンシングに統一。 第二世代シークエンシングは、完全なゲノムシークエンシングのための最も費用対効果が高く、すぐに利用可能な技術である。完全なゲノム配列のアセンブリとscaffoldingはしばしば課題のままとなっ…

モデルベースでDNA-DNAハイブリダイゼーションを計算するwebツール GGDC

2020 7/28 追記、タイトル修正 DNA-DNAハイブリダイゼーション(DDH)は、古細菌および細菌種の描写のための分類学的ゴールドスタンダードとして現在も使用されているウェットラボ法である。 2つのそれぞれの生物のゲノムDNAがDDHの類似性が70%未満であるこ…

Pacbioのpolishingツール Quiver / ArrowとバリアントコーラーPlurality

Quiverは、Pacbioがテンプレートリードを前提として、最大準尤度テンプレートシーケンスを見つける、より洗練されたアルゴリズムである。 PacBioのリードは、テンプレートシーケンスを指定してリードの準尤度をスコア付けする条件付きランダムフィールドアプ…

スモールゲノムのシンテニーブロックを探して可視化する SiberiaとC-Sibelia

2019 6/9 bioconda インストール追記 同じ微生物種内の株を比較することは、病原性の原因となる遺伝子およびゲノム領域の同定、ならびに感染症の診断および治療に有効であることが証明されている。本稿では、Sibeliaという、反復de Bruijnグラフを使用して複…

シーケンシングデータからヒトの病原性細菌かどうかを判定するwebツール PathogenFinder

2019 2/21タイトル修正 2019 2/24 コメント追記 毎年1500万人を超える人が感染症の直接の原因で死亡している。その多くは細菌感染によるものである。毎年推定130万人が結核で死亡し、200万人が百日咳を発症しているが、下痢は250万人以上の死亡の原…

QuasiRecomb

次世代シークエンシング(NGS)技術は、以前はあまりにも労働集約的であると考えられていた実験を日常的な作業に変えた(Metzker、2010)。 NGSの1つの用途は、genetic diversityを定量化するために遺伝的にheterogousなpopulationsのシーケンシングである。…

複数のアセンブラのコンティグをマージする GAM-NGS

2019 6/10 インストール追記 2019 6/11 sparsehashインストール追記 次世代シーケンシング(NGS)技術の出現により、生物圏のすべての生物を事実上 シーケンシングでききるようになった[論文より ref.1]。 NGS技術は、非常に高いデータ生産量を特徴としてお…

Varscan2 の解析の流れ

修正 不確かな情報を削除 2019 2/17 誤字修正 Using VarScan 2 for Germline Variant Calling and Somatic Mutation Detection(Daniel C. Koboldt et al., 2013)より シングルヌクレオチド変異(SNV)および小さな挿入/欠失(indels)のようなバリアントの…

MaSuRCA アセンブラ

2018/8/28,29 dockerコマンド等、分かりにくい部分を修正 2019 5/3 動作条件追記、6/12 hybrid assembly リンク追加、10/9 condaインストール追記、ONTのハイブリッド追記、12/22 condaインストール追記 2020 1/22リンク追記 2022/10/10 help更新、dockerイ…

リードをマッピングしてゲノムアセンブリの精度を評価する REAPR

2021 7/11 link追加 REAPRは、リファレンスゲノムを使わずゲノムアセンブリの精度を評価するツール。カバレッジおよびインサートサイズの分布などのマッピング情報を分析して、ミスアセンブリの位置が特定される。 誤ったアセンブリはレポートされ、新しいア…

複数ゲノムを比較してリファレンスがないデータから変異を検出する NIKS

NIKSはリファンレンスが利用できないようなサンプルについて、NGSデータを直接比較して変異を検出する方法論。k-merの分析から、サンプル特異的な配列を検出している。 本手法によって、リファレンスゲノムがない非モデル植物のホモの変異も検出することが可…

illuminaのエラーコレクションツール Musket

2018 12/07 コマンド修正 2021 1/21 help更新 Musketはk-merスペクトルに基づいたエラー補正ツール。他のエラー補正ツールよりメモリ要求量が少ないとされている(ref.1)。 Musket HP http://musket.sourceforge.net/homepage.htm インストール cent OSとub…

マッピングを評価するツール qplot

qplotはマッピング結果の統計情報を出力したり、empiricalなクオリティスコアとマッピング結果から求めたベースクオリティスコアの差などをグラフ化したPDFを出力することができる(既知SNPsファイルが必要)。クオリティの低い塩基(バーコードとか)が残っ…

メタゲノムデータを種レベルで検出し割合を計算するmOTUとfetch-MG

追記9/5;ソフト名や使い方を勘違いしておりましたので修正します。 環境サンプル中の種の多様性を評価する手法として16S rRNA遺伝子を特異的に増幅する手法がよく知られているが、種によっては配列の異なるrRNA遺伝子を複数持つことがある。ここにPCR増幅の…