macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

2019-07-01から1ヶ月間の記事一覧

VCFの要約統計を出力するRTG toolsの rtg vcfstatsコマンド

2019 8/3 コマンドのミス修正 2020 4/19 例追加 2021 10/1 追記 RTG toolsはRTGコアのサブセットである。VCFファイルの高度な比較を実行するvcfevalなど、VCFファイルとシーケンスデータを扱うための便利なユーティリティが含まれている。vcfevalが特に重要…

ロングリードを使ってリファレンスベースのアセンブリとpolishを行う Rebaler

優先順位の高いジョブがたまっているため、お盆明けくらいまで不定期更新にします。よろしくお願いいたします。 Rebalerはロングリード使用してリファレンスベースのアセンブリを実行するためのプログラムである。細菌ゲノム用に作られている。 Method (Git…

viral quasispeciesのクラスタリング(binning)ツール VirBin

ウイルス集団内の高い遺伝的多様性が、HIV、HCVなどのRNAウイルスによる慢性感染症の患者において観察されている(Sullivan et al、2007; PerrinおよびTelenti、1998)。遺伝的多様性は、異なる株の多重感染、または宿主内でのウイルス複製中の変異によって…

ニューラルネットワークを使ってONTのロングリードの低クオリティ領域を除く MiniScrub

Pacific Biosciences [ref.1]やOxford Nanopore [ref.2]のような企業のシーケンシング技術がゲノムアセンブリ[ref.1]、[ref.10]、抗菌剤耐性遺伝子[ref.18]、個人用トランスクリプトームシーケンシング[ref.19]、およびドラフトゲノム[ref.20]の改善に寄与し…

マッピングベースでゲノムサイズを推定する MGSE

現在では植物のほぼすべての部分を測定することが可能になってきているがが、植物ゲノムのサイズを評価することは依然として困難である。染色体サイズは顕微鏡下で測定することができるが[ref.1]、単一細胞内の全DNA分子の合計の長さはまだ不明である。シロ…

ヒトとマウスの様々なアライナー用indexやアノテーションをダウンロードできる Refgenie

2019 8/15 リンク追記 2020 1/30論文追記 2020 8/28 実行例を一部修正 2022/04/19 画像追加 リファレンスゲノムの構築とキュレーションに多大な努力が注がれている (ref.1–5)。これらのリファレンスアセンブリは結果を比較するための共通の表現を提供し、そ…

アラインメントのPAFファイルを扱うユーティリティ paftools

2019,11,15 paftools.js call のコマンドエラー修正 2019 11/26 vatiantコールコマンドのエラー修正 2021 7/21 コマンド例追加 Minimap2には、PAFフォーマットのアライメントを処理する(java)スクリプトpaftools.jsが付属している。paftoolsを使うことで、…

bamファイルを使ってDNA/RNAシーケンスのピーク定量やTPM計算、bigwigのcoverage trackを作成する BAMscale

2020 1/14 conda追記 2020 9/23 タイトル修正 BAMscaleは、chromatin binding(ChIP-seq)およびクロマチン状態変化(ATAC-seq、END-seq)やchromatin state changes(ATAC-seq, END-seq)、RNA seqのシーケンシングデータセットを処理するワンステップツー…

fasta/fastqのlow complexity領域をマスクする komplexity

komplexityはFAST [A / Q]ファイルから複雑度の低いシーケンスをすばやく計算および/またはマスクするために開発された。複雑さを評価するために、長さで割ったシーケンス上の一意のk-mer値を使用する。例えばk = 4の場合、正規化複雑度スコアが<0.55である…

アラインメントフリーの配列比較GUIツール CAFE

配列比較は、分子配列間の関係を研究するために広く使用されている。配列比較のための主なツールは、global(ref.1)およびlocal(ref.2)シーケンスアラインメントを含むアラインメントベースの方法である。 BLAST(ref.3)のようなアラインメントベースの…

de novo transcriptomeのアセンブリツール TransLiG

オルタナティブスプライシングは真核生物遺伝子における遺伝子調節の重要な形態であり、遺伝子機能の多様性ならびに疾患のリスクを増大させる[ref.1、2、3]。報告されているように[ref.4]、[ref.5]、ヒト遺伝子を含む真核生物遺伝子のほとんどはオルタ…

アンプリコンシーケンスのペアエンドリードマージツール MeFiT

次世代シークエンシング技術は,その開始以来,研究者が複雑なシステムから多面的な生物学的情報を抽出する方法を変え、ヒト疾患,環境科学、進化科学などの分野における研究を促進してきた。16S rRNA小サブユニット遺伝子、またはより一般的にはその一部のシー…

アセンブリ過程でロングリードをフィルタリングする fpa

2020 4/23 論文追記 以前、ロングリードのアセンブリ前処理ツール yacrdを紹介した。 今回はアセンブリ過程でフィルタリングして出力を調節するfpaを紹介する。 以下のフィルタリングが行える (Githubより)。 internal match containment dovetails self mat…

PGAPとPGAP-Xを組み込んだバクテリアのパンゲノム解析webサーバー PGAweb

2019 7/21追記 2019 10/2 コードエラー修正 2019 11/2 誤字修正 "PGAP-X: extension on pan-genome analysis pipeline"より パンゲノムの概念は2005年に提案されて以来[ref.1、2]、過去10年間でバクテリアゲノムの進化と動態を調査するために急速に採用され…

マルチプルアラインメント結果からコンセンサス配列を出力するEMBOSSのconsコマンド

2020 9/25 help修正 タイトルの通りのコマンド。 HP EMBOSS: cons インストール macos10.12の miniconda3-4.3.21環境でテストした。 condaやbrewで導入できる。 #bioconda (link) conda install -c bioconda -y emboss #homebrew brew install emboss > cons…

マッピングベースのメタゲノム存在量プロファイリングを行う MiCoP

微生物は、土壌、海水、人体など、地球上のほとんどすべての生態系に遍在している。単細胞生物はこれらの環境のそれぞれにおいて多くの重要な役割を果たしている[ref.1、2]。サンプル中に存在する微生物を特定することは、これらの生物によってどのような機…

illuminaと454の前処理ツール seqyclean

最新のハイスループットシーケンス機器は大量のデータを生するが、これにはシーケンスエラー、シーケンスアダプタ、汚染されたリードなどのノイズが含まれていることがよくある。このノイズはゲノミクス研究を複雑にする。シーケンスノイズを減らすために多…

アセンブリグラフからプラスミドを検出する HyAsP

プラスミドはバクテリアで一般的なextra-chromosomalのDNA分子である。プラスミドは、それらの長さ(それらはchromosomeよりはるかに短い傾向がある)、コピー数(プラスミドは細胞内に複数のコピーで存在する場合がある)およびGC含有量などの様々な特徴に…

シングルの配列やメタゲノムのbinned.fastaのtaxonomic classificationを行う BASTA

2019 7/13 説明修正 2019 8/1 説明追記 2020 1/21 インストール手順修正 2020 2/4 データベースダウンロード手順修正 2020 4/17 コマンド修正 2020 4/19 binned fastaを使う手順追記 DNAシーケンシング、例えばアンプリコン、メタゲノムおよび全ゲノムシーケ…

de novo transcriptome解析のクラスタリングとclosely rellatedな種の情報を用いたアノテーションを行う Grouper

シーケンシング技術の進歩により、モデル生物の範囲を超えてトランスクリプトームを効率的かつ正確に探索することが可能になった(Ekblom and Galindo、2011; Marioni et al、2008)。トランスクリプトームシークエンシングは、高品質のリファレンスゲノムを…

Pacbioシーケンシングリードのオーバーラップ検出感度を改善する GroupK

リード長の増加により、第3世代のシークエンシングでゲノムアセンブリのギャップを埋め[ref.1, 2]、構造の変化を明らかにし[ef.13]、トランスクリプトームシークエンシングで遺伝子アイソフォームをより正確に定量できるようになった[ef.14]。さらに、ロング…

様々なフォーマットのシーケンスファイルを素早くFASTA形式に変換する any2fasta

any2fastaは様々なフォーマットのシーケンスファイルをFASTAフォーマットに変換するperlスクリプトである。他の依存関係はなしにコアのPerlモジュールのみを使用する。非常に高速に実行する。(公開の動機はGithub参照) 以下のフォーマットをサポートしてい…

アセンブリ配列の16S rRNA相同性からシーケンシングデータの汚染を素早く見積もる ContEst16S

近年、次世代シークエンシング(NGS)と呼ばれる新しいDNAシークエンシング技術の開発により、ゲノムシークエンシングのコストと時間が劇的に減少した。現在、publicデータベースの原核生物ゲノム配列数は約7万に達している(論文執筆時点)。大規模ゲノムデ…

メタゲノムのビニングを行う COCACOLA

アセンブリはコンティグを生成するが、それ以上の分類学的なプロファイリングや機能解析のためには、OTUに分類することが重要である。このOTUクラスタリングはビニングとも呼ばれる。しかしコンティグの正確なビニングは、ゲノム中のリピート配列、シークエ…

メタゲノムシーケンシングリードをアセンブリしてvirusゲノム配列を探す自動パイプライン virMine

真核生物および原核生物とは対照的に、ウイルスゲノムはごく一部のみがシーケンシングされ特徴付けられている。ウイルスのメタゲノム研究は、地球上でのウイルスの多様性についての理解を深めるうえで極めて重要である。海水(Breitbart et al、2002; Yoosep…

タイプ株を中心にバクテリアの表現型情報をまとめたデータベース BacDive

2020 10/16 タイトル変更、誤字修正 2021 10/7 画像一部更新 原核生物は、研究開発との関連性が高い多種多様な表現型形質を発現する。バクテリアのメタデータのホットスポットとしてよく利用できるのは、最初の(一次)文献で報告された種の説明と、生物資源…

アセンブリのグラフを分析する Asgan

Asgan - [As] sembly [G] raphs [An] alyzer - は、アセンブリグラフを分析するためのツールである。 このツールはGFA形式の2つのアセンブリグラフを入力として受け取り、そのグラフの最小セットの相同配列(シンテニーパス)を見つけ、見つかったパスに基づ…

メタゲノムcontigのビニングとアノテーションwebサーバー BusyBee Web

メタゲノムシーケンシング、すなわち微生物混合群集から無差別に抽出されたDNAの全ゲノムシーケンシングは、分類学的組成および環境マイクロバイオームの機能的可能性を研究するために首尾よく使用されてきた(ref.1-4)。従来の単離培養工程の独立性は、費…

アセンブリの前処理としてロングリードのキメラ領域(低オーバーラップ領域)を除く yacrd

2019 コマンドの誤り修正 2020 3/30 バージョンによるコマンドの違いを記載 2020 3/31 version0.6.0のコマンドを一番下に追記 2020 4/23 論文追記 第三世代DNAシーケンシング法(PacBio、オックスフォードナノポア)は、リファレンスゲノムの構築(デノボア…

メタゲノムデータセットをタンパク質レベルでアセンブリし、ホモログサーチを行う GRASP2

メタゲノミクスは、特定の微生物群集のゲノム含有量を研究するための培養に依存しないアプローチである。典型的なメタゲノミクス研究では、環境サンプルから微生物のDNAが抽出され、次世代シークエンシング(NGS)技術を使用してシークエンシングされる。中…