macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

2017-12-01から1ヶ月間の記事一覧

エラーコレクションツール BFC

100MBのデータならおよそ10秒程度で処理できる(10スレッド使用時)。 インストール Github git clone https://github.com/lh3/bfc.gitcd bfc/make./bfc -h #動作確認 user$ ./bfc -h Usage: bfc [options] <to-count.fq> [to-correct.fq] Options: -s FLOAT approx genom</to-count.fq>…

エラーコレクションツール karect

2019 9/8 インストール追記 De novo assembly時、シーケンスエラーを間違ってscaffoldsに組み込んでしまうと、dead-endのグラフができたり、false positiveの分岐が生じたり、あるいはキメラのパスができてしまう可能性がある。そのため、アセンブル前にエラ…

アダプタートリミングツール Skewer

Skewerは並列化に対応したアダプタートリミングツール。ミスマッチの閾値を設定し、それ以上の配列を全てトリミングするように設計されている。シングルエンド、ペアードエンド、ロングインサートのメイトペアのシーケンスリードを扱うことができる。Demulti…

アダプター配列を自動検出し、トリミングするPEAT

PEATはアダプターの自動トリミングツール。アダプター配列を入力しなくても、頻出する配列を自動で探し出してトリミングを実行する。並列化にも対応しており、高速なトリミングが可能である。論文中ではChIP-seq、MNase-seq、およびRNA-seqなどのデータを使…

並列化に対応したアダプタートリミングツール Atropos

AtroposはCutadaptのフォークとして開発されたNGSのアダプタートリミングツール。並列化に対応しており、高速に動作する。Cutadaptよりセンシティブで(ミスマッチを考慮する)、miRNAやbisulfite-seq用のトリミングモードも備える。エラー率やアダプター配…

プラスミド配列を予測する cBar

cBarは(論文発表当時では)大規模なトレーニングデータを用いて学習されたメタゲノムなどのデータ(FASTA)中の プラスミドゲノムを区別する方法論。5量体頻度(pentamer frequencies)を元に判定を行う。入力はFASTAは配列。 インストール macOSXではビル…

異なるk-merの割合を計算してエラー率推定やゲノムサイズ推定を行う KmerStream

2019 5/27インストール方法追記 2019 7/29タイトル修正 KmerStreamは異なるk-merの数を計算する方法論。シーケンス業者のクオリティに依存せず純粋にk-merの頻度からエラー率を見積もることができるため、上手く使えばシーケンスの品質管理などに使用するこ…

k-mer出現頻度を高速計算するntCard

2019 5/29 インストール追記 DSK、KmerStream、Khmer、kmerGenieなどより高速に動作するk-merカウントの方法論。原理は大きく異なるが、論文中での上記ツールとの比較では、kmerGenieより100倍以上高速に処理できている。 インストール brewやcondaでインス…

高速なbam/samの解析ツール Sambamba

2018 8/20 mpileupコマンドの謝り修正 2019 2/26 condaインストール追記 2021 6/2 help更新 Sambambaはsam、bam、cramの処理ツール。D言語で構築されている。フォーマットを変えたり、フィルタリングすることができる。SAMToolsやPicard-toolsの一部機能と重…

構造変化の予測結果を可視化する SVPV

SVPVは 構造変化の検出結果のvcfファイルを読み込んで、異なる構造変化の検出ツールでの解析結果を比較できるツール。特定の条件でフィルタリングすることが可能になっている。GUIのアプリでも提供されている。 オーサーらが作成したSVの解説wiki https://gi…

バクテリアの保存されたgene clusterを探し、結果をビジュアル表示する Gecko3

Gecko3は複数ゲノムを比較して、保存された遺伝子クラスターを検出する方法論。ユーザーが指定した特定の遺伝子群について関連のある遺伝子や遺伝子クラスターを検索することができるSTRINGなどのデータベースと異なり、Gecko3は調べたい生物群の全遺伝子を…

ゲノムのマルチプルアライメントを行う Mugsy

2019 6/10 インストール追記 Mugsyはnucmerを内部で動かし、all against allのペアワイズアライメントを行い、ゲノムサイズのマルチプルアライメントを可能にする方法論。論文では31のバクテリアゲノムを2時間以内に解析できたと記載されている。 公式サイ…

メガサイズのマルチプルアライメントや数千の配列のマルチプルアライメントが可能なFSA

2019 7/29 condaインストール、help追記 公式サイト http://fsa.sourceforge.net Q&A FSA Frequently Asked Questions ダウンロード sorceforge https://sourceforge.net/projects/fsa/ 解凍して、中に入りビルドする。 ./configuremakemake installfsa -h #…

近縁な何百~何千のバクテリアの系統解析を行うGubbins

2022 1/26 インストール手順変更 2024/04/08 追記 ハイスループット第二世代のDNAシーケンス技術が導入されて以来、細菌集団の系統力学を推定するために使用されるデータセットのサイズが非常に大きくなってきている。多くの系統学的手法は数百の細菌ゲノム…

SNVをコールしたり、全ゲノムのマルチプルアライメントを行う Snippy

2021 11/16 condaのインストール追記、help更新 Snippyはバクテリアのゲノムのマルチプルアライメントを行なって、SNV、indelをコールするツール。バリアントに基づいた系統解析を行う時などに使うことができる。 公式ページ http://www.vicbioinformatics.c…

バクテリアのPan genome解析ツール FRIPAN

2020 2/14 追記 公式ページ http://www.vicbioinformatics.com/software.fripan.shtml インストール Github https://github.com/drpowell/FriPan brew install npm #npmがない人だけ#python2環境で動かすconda create -n FriPan python=2.7conda activate Fr…

DGEリストからベン図を作成するwebサービス Vennt

2019 12/9 タイトル修正 Venntは共通/非共通のDGEsを図示するのに使われるvenn diagramを描画してくれるhtmlベースのツール。 公式ページ http://drpowell.github.io/vennt/ インストール Github https://github.com/drpowell/vennt brew install npm #npmが…

webベースでRNA seqのDEG解析などができるDegust

2020 7/16 ツイート追記 Degustはweb上でRNA seq解析を行うことができるツール。DEG解析などを主眼においている。リードカウントデータ(CSVファイル)をアップロードするだけで使うことができる。 Degustに関するツイート Tool Technique Tuesday: Even more…

ロングリードを使いcontigをアップグレードするFinisherSC

FinisherSCはPacbioなどのロングリード情報を使いcontigを伸ばす(contiguityを良くする)パイプライン。ショートリードから作ったcontigだけでなく、ロングリードから作ったcontigをアップグレードすることもできる。論文では同様の機能を持つPBjelly2より…

構造変化の検出ツール RAPTR-SV

RAPTER-SVは構造変化を検出するjavaのプログラム。split-readとreid-pairのアプローチで構造変化を予測する。 タンデムデュプリケーションの 検出などにおいて競合するツールより感度が高いとされている。 Github https://github.com/njdbickhart/RAPTR-SV …

SNPsをエラーとして扱わないマッピングが可能な mrsFAST-Ultra

mrsFAST-UltraはSNPsに対応した次世代リードのアライメントツール。 mrsFASTの改良版となる。既知SNPsを許容しながら(ミスマッチとして扱わないためidentityが上がる)アライメントを行うことができる。indexファイルの軽量化にも成功しており、bowtie2でin…

mVISTAでゲノムを比較する

mVISTAはJGIから提供されているメガベースのゲノム比較を行い、その結果を可視化するパッケージ。webサーバー版があり簡単に実行することが可能である。内部ではAVIDやLAGANが動作している。 公式ページ VISTA tools - enome.lbl.gov about VISTA About mVIS…

メタゲノムデータからvirusゲノムを検出するVIP

VIPはメタゲノムデータからホスト由来のコンタミリードを除き、virus由来のリードをアセンブルしてviursを分類・検出するパイプライン。クオリティトリミングからvirusのデータベースにリードをアライメントして照合することまで自動化されており、シンプル…