macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

2014

de brujin graphからinversionのブレイクポイントを検出する TakeABreak

構造変化はゲノム変化の重要なソースであり、表現型の変化、遺伝性疾患、進化に関与する可能性がある。集団における構造的変異の程度は、主にNGSのおかげで、最近になって認められているに過ぎない。事実、いくつかのヒト個体のゲノムをシーケンシングするこ…

Structural Variation Engine (SVE)

先日紹介したFusoSVのSVコールパイプラインSVEを紹介する。 Core Frameworks and Extension. Githubより インストール 依存関係が多いためdockerコンテナを使ったランが推奨されている。 Github docker pull timothyjamesbecker/sve > docker run --rm timot…

マッピングツール segemehl

2018 11/5 タイトル修正 近年、短いシーケンシングリードを大きなリファレンスゲノムにアライメントさせる問題はかなりの注目を集めており、これまで様々な異なるアルゴリズムアプローチに基づく、異なる多くのアラインメントツールが発表されている。 EBIの…

webブウラザを使ったゲノムブラウザ PyBamView

次世代シークエンシング(NGS)技術の急速な発展により、幅広い種類のショートリードDNAデータセットがもたらされた。シーケンスアライメントのマニュアル検査は、クオリティ管理の重要な側面である。大部分のNGS解析は一塩基多型(SNP)に焦点を当てている…

ラージゲノムにも対応したcontigのscaffoldingツール BESST

近年のハイスループットシーケンシング(HTS)技術は、低コストで数百万の短いDNA配列(リードと呼ばれる)を生成するため、デノボアセンブリプロジェクトにとって魅力的である。しかしながら、これらのリードは数百bpの長さしかないため、アセンブラ(例え…

review article要約 ラージゲノムのシーケンシング解析

はじめに この記事はレビュー論文の要約です。チェックリスト、または思考を整頓するガイドとして使ってください。ただし、この要約で論文を読んだことにはなりません。時間が許す限り原著論文を読むことをお勧めします。review articleは各段落が一般論で構…

somaticとgermlineのバリアント検出ツール Scalpel

注: docker イメージのリンクも紹介してますが、テストするとエラーを吐きました。condaを使いlinuxマシンでに導入するのが無難なようです。 SNVsの分析はヒト遺伝学を研究するための標準的な技術となっているが[論文より ref.1]。、DNA配列(indels)の挿入…

リファレンスフリーで家族内変異や病変組織の変異を調べ、数十以下まで候補を絞り込む DIAMUND

追記 4/16 エラーが大量に出たので内容を修正しました。 遺伝性疾患と癌の両方を含む、疾患の原因である突然変異を発見するためのゲノムシーケンシングの使用は、近年爆発的に増加している。全ゲノムシーケンスおよび全exomeシーケンスは、疾患表現型の原因…

高頻度なk-merを効率的にカウントする Turtle

k-merを用いたde Bruijnグラフ構造は今日普及しているゲノムアセンブルの中核であり、多くの方法論で使われている。k-merはCeleraのようなOLCのアセンブルツールでも重複のシードを用いるのに使われている。また、いくつかのエラー訂正ツールは、k-merの頻度…

Roche 454のクオリティトリミングツール QTrim

QTrimは454のトリミングツール。PRINSEQと同等のパフォーマンスを持つとされる。 公式HP http://hiv.sanbi.ac.za/software/qtrim#Installation webサーバー http://hiv.sanbi.ac.za/tools/#/qtrim インストール 公式HPから実行可能なバイナリと454のテストデ…

エラーコレクションツール BLESS2

BLESS、BLESS2はショートリードのエラー補正ツール。BLESSはやや遅いという問題点があった。BLESS2は並列化に対応することで高速化された。またメモリ効率、および精度の要素でもBLESSより改善しているとされる。特に複数のノードが使える条件でランタイムは…

fastq のシミュレーター XS (リファンレスなし)

XSはIon Torrent、Roche-454、Illumina、SOLiDに対応したショートリードのシミュレータ。軽量で依存がないように設計されている。クラウドに向けて時間とメモリに応じていくつかの実行モードを備えている。リファンレスは使わない。塩基はランダム発生され、…

検索可能な圧縮を行う BEETL

多くのインフォマティクスツールはzlibのAPIを介してgzip圧縮ファイルを直接読み込むことができるが、オーサーらはgzipより圧縮率が高く、ファイル内のk-merを紹介できるツールBEETLを開発した。BEETL (Burrows-Wheeler Extended Tool Library) はfastq、fas…

Pacbioのハイブリッドエラーコレクションツール LoRDEC

LoRDECはショートリードを使ってロングリードのエラー補正を行う方法論。ロングリード自信によるエラー補正は深いカバレッジを必要とするためコストが高くなるデメリットを持つ。 LoRDECは低コストで高い信頼性をもつショートリードを使い、Pacbioのロングリ…

エラーコレクションツール lighter

インストール cent OSに導入した。 Github https://github.com/mourisl/Lighter git clone https://github.com/mourisl/Lighter.gitcd Lighter/make./lighter #動作確認 ghter]$ lighter Usage: ./lighter [OPTIONS] OPTIONS: Required parameters: -r seq_f…

異なるk-merの割合を計算してエラー率推定やゲノムサイズ推定ができる KmerStream

KmerStreamは異なるk-merの数を計算する方法論。シーケンス業者のクオリティに依存せず純粋にk-merの頻度からエラー率を見積もることができるため、上手く使えばシーケンスの品質管理などに使用することができる。サンプリングを行うためメモリ使用量が少な…

数百から数千のバクテリアゲノムの同時比較を行うHarvest

Harvestは数百、数千のバクテリアのゲノム比較を高速に実行する方法論。同じ種のほぼ同一なゲノムの比較を対象としている。labo-strainのような非常に似ているがわずかに変異が出現したような株同士のマルチプルアライメントを行い、バリアントの出現パター…

高速で高効率なfastqの圧縮ツール DSRC

DSRCはマルチスレッドに対応したfastq(ABI SOLiD, and 454/Ion Torrent)の圧縮ツール。gzipやbzipなどの汎用的な圧縮ツールと比較して15~60%高効率とされる。圧縮・解凍速度も極めて速く、8スレッドで500MB/s出るとされる。 インストール binaryのダウンロ…

並列化で高速に動作するシミュレーター SlnC

SlnCは最も多い変異であるSNV、indel、CNVをシミュレートできるNGSのリードシミュレーションツール。マルチコアに対応しており、ARTのようなツールと比較して高速にカバレッジのディープなデータセットを発生させることができる。 ダウンロード 依存 GSL (ht…

トランスポゾン検出ツール6 Tangram

Tangramはトランスポゾンの検出に特化した構造変化検出ツール。SV検出で用いられるread-pairとsplit-readのアルゴリズムを使い高感度にトランスポゾンを検出する。1000ゲノムでもmobile element検出ツールとして用いられた。トランスポゾン検出ツールは様々…

アセンブリのエラーやギャップ(NNN)を検出し、ポリッシュしたFASTAを出力するPilon

2018 8/31 タイトルと紹介文修正 2018 11/5 タイトル修正 何百というバクテリアゲノムをシーケンスできる時代になったが、それに伴い大量のデータを効率よく分析できる堅牢でスケール変化に対応できる手法が求められている。Pilonは全自動で動作するバクテリ…

small RNAをアノテートする ShortStack

ShortStackはsmall RNA seqのデータをリファレンスゲノムにアライメントし、small RNAのlociをアノテートするツール。改良が続けられており、2報目の論文では、高速化の他、複数のシーケンスデータの入力、bowtieによるアライメントなどに対応した。 テスト…

de novoアセンブルしてバリアントをコールするDISCOVAR

DISCOVARは2014年にNature geneticsに載ったバリアントを検出する方法論。シーケンスデータをアセンブルして、バリアントをコールする。ヒトゲノムの構造変化は90%ほどは既存のツールで検出可能だが、残りの構造変化(low-complexity sequenceやsegmental du…

メタゲノムデータの高速なtaxonomy assignmentを行う kraken

2018 10/6 タイトル修正 2018 11/17 簡単なテスト追加 krakenは2014年に発表されたメタゲノムデータの分類手法。fastqまたはfastaの入力からk-merの配列に分解し、構築したデータベースにアライメントを行う。BLASTと同等の精度を保ちながら、megablastより…

Reference-assisted assembly4 AlignGraph

AlignGraphは、よく似たゲノム配列を使いcontigを伸ばしたり繋いでくれるツール。よく似たゲノム配列が存在するとき、アセンブリして作ったcontigやscaffoldsをさらに伸ばすために使われたりする。 インストール 依存 Bowtie2 BLAT PBLAT (http://icebert.gi…

duplicationリードにタグをつける samblaster

samblasterは、samファイルのduplicationのリードにタグをつけたり、構造変化の指標となるsplit-alingment readやdiscordant read pairを別ファイルに出力できるツール。samの時点でデータをより分けることで、discordant read pairやsplit-alingment readを…

RNA seqのリードカウント featureCounts

RNA reqのリードカウントツールを紹介する。 featureCounts ダウンロード sourceforgeリンク https://sourceforge.net/projects/subread/files/subread-1.5.2/ インストール ソースコードをダウンロードして解凍し、/srcに移動。macでは以下のようにしてビル…

トランスポゾン検出ツール2 ngs_te_mapper

ショートリードをリファレンスゲノムにアライメントし、de novoでトランスポゾン挿入部位を検出する。論文ではBLATをアライメントに使っていたが、gitでダウンロードできる現バージョンはbwaでアライメントを行うようになっている。トランスポゾン挿入時にト…

Reference-assisted assembly1 ragout

small genomeとlarge genomeいずれにも使えるツール。2014年に発表された(ref.1)。複数の近縁ゲノムを使うことで、アセンブル精度を高めたとされる。公式ページには、現在レビュアー審査中の論文では哺乳類のクロモソームを再構成できると記載されている(…

Prokaryotesのアノテーションツール; Prokka

2018 10/6 タイトル修正 Prokkaは、バクテリア、アーキア、ウィルスのアノテーションツール。はじめにblast+でcore geneを特定し、それからHMMER3を使ってより精度の高い分析が行われる。 インストール インストールはbrewで簡単にできる。公式サイトに従い…