macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

高速なツール

メタゲノムデータからrRNAをターゲットアセンブリし、系統アサイン、定量、比較する phyloFlash

ショットガンメタゲノミクスは、微生物群集の機能を調査し、それらの系統または分類学的な構成を決定するための強力なツールである(Preprintより ref.1、2)。プライマーバイアス(ref.3)やキメラ配列(ref.4、5)など、PCRベースのアンプリコンメソッドに…

ラップトップで大量のゲノム比較を可能にする BinHash

ゲノム(メタゲノムを含む)の数は急速に増加している。 近い将来、何百万ものゲノム間のペアワイズ距離を推定する必要があるかもしれない。 クラウドコンピューティングを使用しても、そのような推定を実行できるソフトウェアはほとんどない。マルチスレッ…

taxonomy ID、学名、系統情報など相互変換できるツール taxonkit

2019 1/24 リネージュコマンドのミス修正 NCBI taxonomy databaseは、公共のシーケンスデータベースに含まれるすべての生物の分類(以後taxonomy)および命名法をまとめたものである(NCBI、2018)。taxonomyデータベースの一般的な操作には、分類名からのta…

pblat: マルチスレッドに対応したblat

Blat [論文より ref.1 link]は、DNA、RNAおよびタンパク質配列をリファレンスゲノムにマッピングするように設計された配列アラインメントツールである。これは一般に、リファレンスゲノム内の配列の検索、closely relatedな種のゲノムからの相同配列の発見、…

KrakenUniq

2019 1/17 エラー修正 メタゲノミクス分類手法は、データセット内の各リードに taxonomic identityをアサインすることを試みる。メタゲノミクスデータにはしばしば何千万ものリードが含まれているため、分類は、通常、長さk(k-mers)の短いワードの正確な一…

bamからのリードの抽出とリアライメントを素早く実行する Bazam

過去10年間にわたるハイスループットゲノムシーケンシングマシンの大規模な採用は、巨大な可能性を有する膨大な量のゲノムデータを生み出してきた。ゲノムデータは、座標 (coordinate) ソートされたBAMまたはCRAMフォーマットでアライメントされたリードとし…

ロングリードのアセンブリツール Flye

ゲノムアセンブリの問題は、最終的には、リピートキャラクタライゼーション問題、すなわちリピートグラフとしてのゲノム中のすべてのリピートファミリーをコンパクトに表現する(Pevzner et al。、2004)、ことに結びつく。 Long readの技術はリピートキャラ…

RNA seqシーケンシングデータの包括的な前処理ツール FastqPuri

2018 12/3 図差し替え RNA-seq実験から正確な結果を得るには、前処理ステップでのクオリティチェック(QC)とシーケンスデータのフィルタリングが重要になる。ワークフローは通常、次のように進行する。最初にシーケンスクオリティチェックを行い、続いてア…

SRA Toolkitのfastq-dumpを並列実行して高速化する parallel-fastq-dump

NCBIのfastq-dumpはリソース(ネットワーク、IO、CPU)が速くても、時には非常に遅くなることがある(Githubのprotipを参照)。 fastq-dumpにはsraファイルの特定の範囲を照会するオプション(-Nと-X)があるため、このツールparallel-fastq-dumpは作業を要…

Minhashを使い、genomic DNA / proteinを高速比較する sourmash

sourmashは、ゲノムデータのMinHash sketchesを作成、比較、操作するためのツールボックスである。MinHash sketchは、大規模なDNAまたはRNAシーケンスコレクションの"signatures"を保存し、Jaccard indexを使用してそれらを比較または検索するための軽量な方…

(ウィルス) コドンを考慮し、フレームシフトエラーに強いアライメントツール VIRULIGN

多くのウイルス性病原体、特にRNAウイルスは、宿主内および宿主間で急速に進化しており、変化する状態への適応のマーカーがそれらのゲノムにおいて検出され得る(Lemeyら、2006)。ウイルス遺伝子型からの構造、機能および表現型予測は、ウイルス感染の薬物…

Structural Variation Engine (SVE)

先日紹介したFusoSVのSVコールパイプラインSVEを紹介する。 Core Frameworks and Extension. Githubより インストール 依存関係が多いためdockerコンテナを使ったランが推奨されている。 Github docker pull timothyjamesbecker/sve > docker run --rm timot…

複数のSVコーラーを動かし、結果を統合する Parliament2

2018 10/26 エラー修正 2018 10/28 エラー修正 構造変異(SV)は、ゲノムの大きな(50bp+)変異である[論文より ref.1,2]。これらのバリエーションは、個々のショート・リードのサイズに近いか、最も頻繁には、リードより大きいため、ショート・リード・デー…

大きなk-merも使うde Bruijn graph のアセンブリツール SKESA

NGSデータを分析するためのシーケンスアライメント、アセンブリ、変異検出、またはそれらのいくつかの組み合わせは、通常、バイオインフォマティクスパイプラインの主要なモジュールである[論文より ref.1,2,3,4,5,6]。微生物ゲノムシーケンシングの重要な用…

アダプタートリミングツール illumiprocessor

2018 10/11 コードの誤り修正 Illumiprocessorは、illuminaのSEとPEのシーケンシングリードからアダプターのコンタミネーションをトリミングするツール。 double-indexのリードのトリミングができる。 scytheとsickle(v1.xで使用)よりtrimmomatiを使った方…

webで動作する高速で軽量な分子系統樹可視化ツール IcyTree

系統樹の可視化は、計算系統学(computational phylogenetics)の極めて重要な側面である。確かに、よく知られているテキスト「Inferring Phylogenies」(Felsenstein、2003)(amazon) は、このトピックに全章を割いている。従って、系統樹可視化ソフトウェ…

LightAssembler

次世代シークエンシング(NGS)技術の出現はゲノム研究に革命をもたらしたが、シーケンスされた生物の全体像を提供することはできていない。なぜなら、数十億のフラグメント断片の相対位置はゲノムアセンブリなしでは分からず、それらは非常にあいまいな重複…

ロングリードのマッピングツール lordFAST

ハイスループットシーケンシング(HTS)技術は、発足以来進化してきた(Margulies et al、2005)。特にPacific Biosciences(Eid et al、2009; Korlach et al、2010)およびOxford Nanopore(Cherf et al、2012; Manrao et al、2012; Eisenstein)などの一分…

高感度で高速なプロテイン検索を行う MMseqs2

DNAシーケンシングのスループットは、過去10年間で計算速度よりもはるかに速くなってきており、感度の高いシーケンス検索は、ラージメタゲノムデータセットの分析における主要なボトルネックになっている。それゆえ、著者らは、速度と感度のトレードオフの全…

インタラクティブなヒートマップを簡単に作成できるwebツール shinyheatmap

ヒートマップソフトウェアは、一般に、静的ヒートマップソフトウェア (static heatmap software) [論文より ref.1-9]とインタラクティブヒートマップソフトウェア (interactive heatmap software) [ref.10-20]の2つのカテゴリに分類することができる。静的ヒ…

MinHashを使った高速なANI計算ツール fastANI

2019 1/09 cocndaインストール追記 2019 2/12 不要な文を削除 さまざまな生態学的背景と進化の歴史を持つ原核生物ゲノムのコレクションが公開されている。このゲノムデータの大洪水は、微生物生態学と進化における重要な問題をより堅固に評価する機会を提供…

MetaBAT

ハイスループットのメタゲノムショットガンシークエンシングは、環境から採取された微生物群集を直接研究するための強力なツールであり、それによって培養から解放され、また培養から生じる可能性のあるバイアスを回避する。ショートメタゲノムショットガン…

高速な端末エミュレータ Alacritty

AlacrittyはRustで書かれたGPUをレンダリングに使う高速な端末エミュレータ。OpenGL(wiki)を使ってレンダリングを行う。開発はまだアルファ段階らしいが、すでに色々なプラットフォームに対応している(windowsはこれかららしい)。開発の大きな動機は、WU…

小メモリで高速にtaxonomy assignmentを行う metacache

メタゲノム研究の例として、ヒト腸のシーケンシング解析(Korpela et al、2016)、ヒトの皮膚(Bzhalava et al、2014)、水生生態系(Bork et al、2015)、食物(Ripp et al、2014 )、土壌(Fierer et al、2012)および空中の微生物(Barberánet al、2015)…

Kallisto

典型的なRNA-seqの転写産物レベル処理ワークフローの最初の2つのステップは、トランスクリプトーム配列またはリファレンスゲノムへのアラインメントおよび転写産物存在量の推定である。これらのステップには時間がかかることがある。例えば、広く使用されて…

k-merを使い 進化距離や相同性を高速計算する Kmer-db

Preprintより 何千もの異なる生物のシーケンシング解析の過程で大量のデータが生成された(100K Pathogen Genome Project(Weimer el al、2017、NCBI Pathogen Detection(https://www.ncbi.nlm.nih.gov/ pathogens) )、これは迅速な分析方法を要求する。 …

高速なロングリードのマッピング、エラー訂正、アセンブリツール MECAT

MECATは、1分子シークエンシング(SMRT)リードの超高速マッピング、エラー訂正、およびデノボアセンブリを行うツール。State of the artのアライナとエラー訂正ツールよりもはるかに効率的な、新しいアライメントとエラー訂正アルゴリズムを採用している。 …

MinHashを利用した長い配列(ゲノムやロングリード)のアライナー MashMap

(タイトル修正) ハイスループットDNAシーケンサーによって生成されたリードをリファレンスゲノムにマッピングすることは、根本的かつ広く研究されている課題である[Preprintより ref.16,24]。この問題は、BWA [ref.15]やBowtie [ref.12]のようなマッピング…

polyploidのラージゲノムのアセンブラ Meraculous2

ヒトや他のギガベース規模のゲノムの正確なディープショットガンシーケンスは、今や控えめなコストで容易に利用可能になっている。これらのシーケンシングスループットの増加により、大規模かつ複雑なゲノム用のショットガンシーケンスを構築するための新し…

fastq-dumpを並列化した pfastq-dump

2018 11/25 誤字修正 pfastq-dumpは、Ohtaさんが公開されているfastq-dumpを並列処理するpythonスクリプトparallel-fastq-dumpのbash実装バージョン。Sequence Read Archive(wiki)からダウンロードされたシーケンスデータ(SRAフォーマット )をfastq-dump…