macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

高速なツール

bamの分析に使うバイオインフォマティクスのツールキット goleft

goleftはMIT licence下で提供されているバイオイオンフォのツールキット。GO言語で構築されている。 インストール Github https://github.com/brentp/goleft リリース(リンク)からosx向けバイナリーをダウンロードできる。パスの通ったディレクトリに移動…

リファンレンスガイドのトランスクリプトのアセンブル strawberry

ゲノムガイドのRNAのアセンブル法は、遺伝子アノテーション情報を使わず、RNA-Seqデータから転写物の再構成を行う方法である。 Strawberryは ゲノムガイドのアセンブリと定量の2つのモジュールで構成されており、ゲノムガイドのアセンブルではbamをスプライ…

超高速にRNA seqのリードカウント(定量)を行う salmon

salmonは豊富なbiasモデルを取り込み、高速、高精度、堅牢なRNAseqの発現定量を行う方法論。 kallistoやeXpressと比べて、同じFDRで2倍以上精度が高い(DEG判定された遺伝子が2倍以上少ない=false positiveが少ない)というデータを出している。 Supplement…

高頻度なk-merを効率的にカウントする Turtle

k-merを用いたde Bruijnグラフ構造は今日普及しているゲノムアセンブルの中核であり、多くの方法論で使われている。k-merはCeleraのようなOLCのアセンブルツールでも重複のシードを用いるのに使われている。また、いくつかのエラー訂正ツールは、k-merの頻度…

並列化に対応したリファレンスベースのfastq圧縮ツール LW-FQZip2

fastqの圧縮の方法論にはいくつか種類があるが、その内の1つリファレンスベースの圧縮ツールは、シーケンスデータをそのまま圧縮するのではなく、リファンレスとの位置合わせ結果を記録する方法論である。そのために、リファレンスにリードをアライメントし…

シングルコアでも高速なRNA seqのアライナー RapMap

RapMapはRNAのアライナー。非常に高速で、ほかのツールと比較すると、Bowtie2より数十倍高速で、高速なSTARと比べても2倍以上高速にアライメントできる(Figure2参照)。アライメントが 具体的には7500万のリードをヒトトランスクリプトームに10分程度でア…

TE及び単純反復をDe novoで検出する Red

RedはTE及び単純反復の検出ツール。機械学習を通して訓練された。バクテリアゲノムでのテストでは既存のツールより高速に動作し(バクテリアなら10秒程度)、中程度の偽陽性率であった。よく知られている既存のリピート検出ツールと異なり、ほかのアライメン…

TEなどのリピート配列をDe novoで検出し、マスクするphRAIDER

RepeatMaskerはTEなどの検索によく使われているが、プリコンパイルされたライブラリを必要とする。ゲノム解析された哺乳類では、このプリコンパイルされたライブラリを用いてTE検索が可能になるが、植物で近縁種のゲノムを使った場合、うまくいかないことが…

アライメントフリーでk-merデータベースから高速にバリアントを検出する FastGT

公式HP http://bioinfo.ut.ee/FastGT/index.php?r=site/index チュートリアル http://bioinfo.ut.ee/FastGT/index.php?r=site/page&view=manual k-merデータベース(ヒトゲノムのみ) http://bioinfo.ut.ee/FastGT/index.php?r=site/page&view=kmers 公式サ…

高速なk-merカウントツール KMC

KMCは高速なk-merカウントの方法論。初代KMC、KMC2、KMC3が発表されている。ここではversion3のKMC3について記載する。ヒトゲノムの619GBのgz圧縮fastqを89分で分析できたと書かれている(2.3GHzの12コア、HDD2台のストライピング読み書き)(注1)。 インス…

BWAに近い精度でかつ数倍高速なマッピングツール FSVA

HiseqX10などの登場でシーケンススループットはますます高まっているが、ソフトの方が追いついていない。200GBのデータを処理するのに、BWA MEMだと1CPU使用で80時間程度かかる(20コアでようやく10-20時間)。解決には分散コンピューティング(e.g., pBWA、Sp…

k-mer出現頻度を高速計算するntCard

DSK、KmerStream、Khmer、kmerGenieなどより高速に動作するk-merカウントの方法論。原理は大きく異なるが、論文中での上記ツールとの比較では、kmerGenieより100倍以上高速に処理できている。 インストール brewでインストールできる。 brew install ntcardn…

高速なbam/samの解析ツール Sambamba

Sambambaはsam、bam、cramの処理ツール。D言語で構築されている。フォーマットを変えたり、フィルタリングすることができる。SAMToolsやPicard-toolsの一部機能と重複するが、Sambambaは並列化に対応しており、SAMToolsより高速に動作するとされる。特にmpil…

mrsFAST-Ultraでアライメントを行う

mrsFAST-UltraはSNPに対応した次世代リードのアライメントツール。 mrsFASTの改良版となる。既知SNPsを許容しながら(ミスマッチとして扱わないためidentityが上がる)アライメントを行うことができる。indexファイルの軽量化にも成功しており、bowtie2でind…

巨大なプロテインファミリーのマルチプルアライメントを行うFAMSA

FAMSAは大規模タンパク質ファミリーのマルチプルアライメントを可能にするアルゴリズムを持つ方法論。CPUの並列化に対応しており、数千-数十万のタンパク質ファミリーの高速なマルチプルアライメントが可能になっている。 論文中では、オーサーが定義したお…

高速で高効率なfastqの圧縮ツール DSRC

DSRCはマルチスレッドに対応したfastq(ABI SOLiD, and 454/Ion Torrent)の圧縮ツール。gzipやbzipなどの汎用的な圧縮ツールと比較して15~60%高効率とされる。圧縮・解凍速度も極めて速く、8スレッドで500MB/s出るとされる。 インストール binaryのダウンロ…

並列化で高速に動作するシミュレーター SlnC

SlnCは最も多い変異であるSNV、indel、CNVをシミュレートできるNGSのリードシミュレーションツール。マルチコアに対応しており、ARTのようなツールと比較して高速にカバレッジのディープなデータセットを発生させることができる。 ダウンロード 依存 GSL (ht…

krakenによるメタゲノムデータの超高速なtaxonomyラベリング

krakenは2014年に発表されたメタゲノムデータの分類手法。fastqまたはfastaの入力からk-merの配列に分解し、構築したデータベースにアライメントを行う。BLASTと同等の精度を保ちながら、megablastより最大909倍高速と主張されている。似たツールにメタゲノ…

BLASTとコンパチブルで高速なホモロジー検索ツール Diamond

Diamondはindexのつけ方を工夫することでBLASTXの解析速度を加速できるツール。blastと同等の機能を持つが、論文ではblastより最大20000倍高速化できると主張されている。特にクエリー配列が非常に多い場合に高速とされる。2015年に論文が発表された。 マニ…

RNA seqの高速なリードアライメントツール STAR

STARは高速なRNAのアライメントツール。intron-exonのsplit-alingmentに対応している。動作はbowtie2より10倍以上高速とされ、マッピング感度の高さとエラー率の低さは既存のツールと同等とされている。 github https://github.com/alexdobin/STAR マニュ…

Oxford Nanoporeリードのアセンブリ MiniasmとNanopolish

MiniasmはPacbioのロングリードやナノポアのロングリードのアセンブルツールで2015年に論文が発表された (ref.1)。アルゴリズムはオーバーラップ法になる。アセンブル時間が非常に短いのが特徴で、ナノポアリードのアセンブルの比較ペーパーでは、競合アセン…