macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

k-mer

リファレンスフリーで家族内変異や病変組織の変異を調べ、数十以下まで候補を絞り込む DIAMUND

追記 4/16 エラーが大量に出たので内容を修正しました。 遺伝性疾患と癌の両方を含む、疾患の原因である突然変異を発見するためのゲノムシーケンシングの使用は、近年爆発的に増加している。全ゲノムシーケンスおよび全exomeシーケンスは、疾患表現型の原因…

抗生物質耐性遺伝子のde brujin graphを出力する metacherchant

抗生物質に対する微生物の抵抗性(抗生物質耐性、AR)の広がりは、世界的な医療問題である。多剤耐性の病原性微生物は特に危険性が高い。 AMR(O'Neill、2016)の報告書によれば、AR関連死亡者の負担は、2050年までに年間1000万人、世界的な経済的負担は100…

メタゲノムデータ間の類似性を計算し可視化する metafast

最近、コンピュータ生命科学者たちは、利用可能なショットガンメタゲノミックデータセットの量が驚異的に増加するのを目の当たりにしている。データ分析の次元性を低下させるという課題は、メタゲノムの統計分析の第一の要求である。これには、分類学的およ…

k-merを使いSimple sequence repeats (SSRs) を検索する Kmer-SSR

Simple sequence repeats (SSRs) は、DNA複製、修復、または組換えに起こるミスペアリングやミスのために、少なくとも1つの塩基が何回もタンデムに繰り返されるDNAの短いリピート領域である(Levinson and Gutman、1987)。数十年間、SSRは、短いリピート配…

k-merサイズを変えながらエラー訂正を繰り返す SGA-ICE (IterativeErrorCorrection)

イルミナのMiSeqでシーケンスを1回実行すると、300 bpのペアエンドで15ギガバイト(GB)のデータが出力される。Illumina HiSeq 2500では、最大ペアエンド250 bpで300 GBのシーケンスが可能担っている。この高いスループットは、ゲノムアセンブリにとって魅力…

高カバレッジな細菌ゲノムのdenovoゲノムアセンブリツール HGA

デノボゲノムアセンブリにはgreedy strategy、string overlap graph、そしてde Bruijn graphの3つの主なアプローチがある。greedy strategyは、シードリードを選択し、最大のオーバーラップが可能になるまで貪欲に拡張していくことによって機能する。このア…

kallistoを動かしメタゲノムからウィルスゲノムを高速に検出・定量する FastViromeExplorer

伝統的なウイルス同定法は単離および培養に依存しており、時間がかかるだけでなく、多くのウイルスおよび宿主が培地で増えないため実行不可能なことも多い。 2004年に登場したNGSの技術により、ウイルスとその存在量を迅速に測定することが可能になった。ウ…

k-merを高速にカウントする KCMBT

アセンブル、リピート検出、エラー検出などNGSの多くの方法論においてk-merカウンタが使用されている。大規模なデータのk-mersを数えるには、非常に高速で効率的なアルゴリズムが必要となる。KCMBTは、このk-merカウント問題のためのアルゴリズム。KMC2より…

de novo transcriptome assemblyの適切なk-merレンジを推定する KREATION

de Bruijn graphを使ったde novoトランスクリプトームのアセンブルでは、単一のk- merより異なるk merのアセンブル結果を統合した方が感度が増す。KREATIONは関連するアセンブリの比較クラスタリングを使用して、追加のkmerアセンブリの重要性を推定するツー…

高頻度なk-merを効率的にカウントする Turtle

k-merを用いたde Bruijnグラフ構造は今日普及しているゲノムアセンブルの中核であり、多くの方法論で使われている。k-merはCeleraのようなOLCのアセンブルツールでも重複のシードを用いるのに使われている。また、いくつかのエラー訂正ツールは、k-merの頻度…

ターゲットゲノムにしかない配列を探し出すEAGLE

EAGLEは指定したゲノムにしかない配列を検出するツール。論文では、EAGLEを使い、ヒトゲノムのどこにもない、エボラウィルスからしか見つからない14merの配列を検出している。特定の種のみ存在する配列があれば、ユニークなプライマーを設計したり、RNA干渉…

複数ファイルのk-merをカウントし、共通/固有のk-merを抽出できる GenomeTester4

GenomeTester4はk-merをカウントしたり、操作するためのパッケージ。 固有のk-merを調べたりもできる。 インストール Github https://github.com/bioinfo-ut/GenomeTester4 git clone https://github.com/bioinfo-ut/GenomeTester4.gitcd src/make cleanmake…

アダプターやプライマーのコンタミを除く AlienTrimmer

シーケンスされる長さより短いライブラリサイズのシーケンスを行うと、3'側にアダプタやバーコードが出現する。このような汚染配列があると、後の解析に悪影響を与える可能性があるため、クオリティチェックの時に除くのが望ましい。AlienTrimmerはユーザが…

アライメントフリーでk-merデータベースから高速にバリアントを検出する FastGT

ゲノム変異の研究には、次世代シーケンシング(NGS)技術が広く使用されている。ヒトゲノムの変異は、通常、配列決定されたリードをマッピングし、次いでgenotypeのコールを行うことによって検出される(論文より ref.1-4)。標準的なパイプラインでは、rawシ…

複数ゲノムを比較してリファレンスがないデータから変異を検出する NIKS

NIKSはリファンレンスが利用できないようなサンプルについて、NGSデータを直接比較して変異を検出する方法論。k-merの分析から、サンプル特異的な配列を検出している。 本手法によって、リファレンスゲノムがない非モデル植物のホモの変異も検出することが可…

高速なk-merカウントツール KMC

KMCは高速なk-merカウントの方法論。初代KMC、KMC2、KMC3が発表されている。ここではversion3のKMC3について記載する。ヒトゲノムの619GBのgz圧縮fastqを89分で分析できたと書かれている(2.3GHzの12コア、HDD2台のストライピング読み書き)(注1)。 インス…

異なるk-merの割合を計算し、エラー率推定やゲノムサイズ推定に使える KmerStream

KmerStreamは異なるk-merの数を計算する方法論。シーケンス業者のクオリティに依存せず純粋にk-merの頻度からエラー率を見積もることができるため、上手く使えばシーケンスの品質管理などに使用することができる。サンプリングを行うためメモリ使用量が少な…

k-mer出現頻度を高速計算するntCard

DSK、KmerStream、Khmer、kmerGenieなどより高速に動作するk-merカウントの方法論。原理は大きく異なるが、論文中での上記ツールとの比較では、kmerGenieより100倍以上高速に処理できている。 インストール brewでインストールできる。 brew install ntcardn…

多機能なNGSの管理ツール BBtools 其の1

BBtoolsはアメリカのJGIが提供している多機能なNGS向けの解析ツール。2014年にオープンソース化されたらしい。論文は現在準備中とある。アライメントのBBmapや、オーバーラップがないペアリードをマージするBBMerge、エラーコレクションしたfastqを出力するB…

k-mer カウントして、配列も出力するツール jellyfish、BFCounter

k-merカウントを行うjellyfishと、k-merの全配列を書き出すBFCounterを紹介する。 2017.11追記 2018.03 -sフラグ修正 Jellyfish 公式サイト JELLYFISH - Fast, Parallel k-mer Counting for DNA Github https://github.com/gmarcais/Jellyfish マニュアルPDF…

velvetのベストなk-merを自動で決めてアセンブルするvelvetoptimiser

velvetoptimiserは自動でk-merを振ってKmer coverage を調べ、velvetのアセブルにベストと思われるk-merのサイズを決め、アセンブルまで自動で行うラッパーツール。Velvetkよりもっと便利に使える。 Githubのダンウロードリンク。 GitHub - tseemann/VelvetO…