macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

2017-08-01から1ヶ月間の記事一覧

NGSの スモールユーティリティツール Ngs crumbs

2020 7/26 構成を修正 Ngs crumbsはfastqデータの様々な処理ができるツール群。本体が1つあるわけではなく、たくさんのユーティリィスクリプトが集まったツールセットとなっている。論文にはなっていないが、いくつかの論文でデータ処理に利用されている。…

多機能なNGS分析ツール BBtools 其の2

20196/13 タイトル修正 2020 7/24 bbdukコマンド追記 の続き。BBtoolsの残りのコマンドを紹介する。紹介するのは以下のコマンド。 Reformat - フォーマット変換やクオリティトリミング。 Repair - ペアリードの順番が壊れたファイルを修復する。 Stats - ア…

多機能なNGS分析ツール BBtools 其の1

2018 9/5 bbmerge-auto.sh修正 2019 5/14 BBnormコメント修正、パラメータ修正、ヘルプ追加 bbmap.sh2019 6/13 タイトル修正、6/19 其の3追記 2020 1/29 condaインストール追記、メモリ使用量指定、11/6 誤字修正 2023/02/02 追記 BBtoolsはアメリカのJGIが…

メタゲノムデータの高速なtaxonomy assignmentを行う kraken

2018 10/6 タイトル修正 2018 11/17 簡単なテスト追加 2019 4/12 dockerリンク追加 2019 10/15リンク追加 krakenは2014年に発表されたメタゲノムデータの分類手法。fastqまたはfastaの入力からk-merの配列に分解し、構築したデータベースにアライメントを行…

fastqのクオリティレポートを出力する qrqc

qrqcは qrqcはリードのクオリティや配列の分布をレポートできるRのパッケージ。1000-bp以下のfastqに対応している。同様の目的で使用されるツールとしてfastqcがある。 インストール Rにて ## try http:// if https:// URLs are not supported source("https…

ベイズ的アプローチによるアダプタートリミングツール Scythe

Scytheはfastqのアダプター配列トリミングツール。ライブラリ調整過程でリード長より短い回断片が精製されてくると、3'末端側にアダプター配列のついた配列がシーケンスされる。これは例えばsmall RNAのシーケンスを想定するとわかりやすい。small-RNAのライ…

アセンブルのgraphからプラスミドデータを検出するツール Recycler

2018 1/9 condaインストール追記 Recyclerはアセンブルのgraph pathからプラスミドの配列を検出する方法論。プラスミドのグラフは他のゲノムのグラフと独立しており、カバレッジが均一な少数のノードで構成される環状のグラフと推測される。これらの手がかり…

Nextera Mate Pair protocolのジャンクションプライマー除去ツール NxTrim

イルミナはmate pairシーケンスのキットも販売している。このプロトコルではNextraのトランスポゾンでタギングしたゲノムをセルフライゲーションさせて離れた配列を近づける。そのため中央にジャンクション配列が残る(図1 赤の配列)。NxTrimはそのジャン…

fastqの操作ツール illumina-utils

illumina-utilsはpythonで記述されたilluminaのシーケンスデータのユーティリティツール。オーバーラップしたペアリードのmergeやクオリティフィルタリングを行うことができる。 インストール Github sudo pip install illumina-utils 実行方法 raw fastqのd…

複数のトランスクリプトーム解析からコア遺伝子を探索するGET_HOMOLOGUES-EST

2018 9/27 引用の誤り修正 2020 4/13 インストール手順とヘルプ追記, タイトル修正 2020 4/14 インストール手順修正 2020 5/27 タイトル修正 種のパンゲノムとは、その種のすべての個体に見られるすべての遺伝子とノンコーディング配列の集合体と定義される…

BLASTとコンパチブルで高速なホモロジー検索ツール Diamond

2019 1/20 help追加 、コマンド追記, 6/9 -コマンド例から-max-target-seqs削除, 7/19 追記 2021 2/13 ツイート追記 2022/04/07 インストール追記、07/22 例追記、help更新 Diamondはindexのつけ方を工夫することでBLASTXの解析速度を加速できるツール。blas…

SSU rRNAを素早く検出する Barrnap

2019 3/10 タイトル修正 2019 5/30 インストール方法追記 2020 6/15 コマンド修正, help追記 2020 6/29 例追記 BarrnapはrRNAをゲノムから探すツール。 検索対象 bacteria (5S,23S,16S) archaea (5S,5.8S,23S,16S) mitochondria (12S,16S) eukaryotes (5S,5.…

高速なRNA seqのマッピングツール STAR

2019 2/15 動画とbiocondaによる install追加 2020 7/6 コメントとhelp追加 2021 10/9 gzip fastqのオプション追記、12/5 chimera出力について追記 2024/02/20 情報を整頓 STARは高速なRNAのアライメントツール。intron-exonのsplit-alingmentに対応している…

RNA seqのリードカウント HTSeq-count

2020 8/15 condaによるインストールとhelp追記 2021 8/6 リンク消去 HTSeqはNGSデータの各種ハンドリングができるツール。ここではその1つhtseq-countコマンドを紹介する。htseq-countはリードのアライメントデータからカウントデータを出力するために使う…

クオリティトリミングツール sickle

2020 10/31 インストール追記 2020 11/24 help追記 2021 6/15 コマンド追記 sickleはfastqのクオリティトリミングツール。リード長の0.1倍のウィンドウサイズでリードを分析し、指定値以下のクオリティになった領域をトリムする。Trimmomaticと同様、ペアリ…

RNA-seqのゲノムガイドアセンブリツール StringTie

StringTieはゲノムガイドのRNAアセンブリツール。cufflinksよりアセンブリ精度が高く、解析時間も短いと言われている。2015年にNature Biotechnologyに論文が発表された。 インストール Github https://github.com/gpertea/stringtie brewで導入可能。 マニ…

アセンブリ結果を評価する QUAST

2019 4/12 quast-lg追記 QUASTはspadesアセンブラで有名なAlgorithmic Biology Labのチームが発表した、アセンブリの性能や精度を評価するツール。web版とコマンドラインでランするローカル版がある。 QUASTマニュアル ダウンロード http://bioinf.spbau.ru/…

Reference-assisted assembly4 AlignGraph

AlignGraphは、よく似たゲノム配列を使いcontigを伸ばしたり繋いでくれるツール。よく似たゲノム配列が存在するとき、アセンブリして作ったcontigやscaffoldsをさらに伸ばすために使われたりする。 インストール 依存 Bowtie2 BLAT PBLAT (http://icebert.gi…

duplicationリードにタグをつける samblaster

2019 1/14 コマンド修正 2020 4/17 help追加 samblasterは、samファイルのduplicationのリードにタグをつけたり、構造変化の指標となるsplit-alingment readやdiscordant read pairを別ファイルに出力できるツール。samの時点でデータをより分けることで、di…

fastqデータを検証する FastQValidator

FastQValidatorは、fastqのフォーマットを検証しておかしなリードが含まれるのか調べることができるツール。具体的には、1つだけファイル名がおかしかったり(ヘッダーが@で始まっていないとか短すぎるとか)、数塩基しかないようなリードが混じっているか…

バリアントのフィルタリングを行うSnpSift

2021 9/29 タイトル修正(変異 => バリアント), help追加 以前SnpEffというバリアントのアノテーションを行うことができるツールを紹介した(リンク)。このツールにはもう一つSnpSiftというツールが同梱されている。SnpSiftはバリアントコール結果のVCF…

ユーザー定義の変異を再現可能なfastqのシミュレーター NEAT-genReads

2017 8/29追記 2019 4/16 誤字修正 ゲノム解析の検証方法やベンチマーク方法の障害は、サンプルゲノムの突然変異の状況についての「根拠のある真実」がわかっていて完全に検証されている参照データセットがほとんどないことである。さらに、本物のヒトゲノム…

ONTリードのシミュレーター NanoSim

NanoSImは2017年に発表されたOxford nanoporeのロングリードのシミュレーター。ユーザーが指定したONTリードからプロファイルを作成し、それに基づいてロングリードを発生させることができる。 インストール 依存 minimap2 (Tested with version 2.10) LAST …

SNVやindel変異を再現できるfastqのシミュレーターwgsim

#標準出力修正 2021 7/11 condaインストール追記 2022/09/17 -hオプション修正 wgsimはfastqをシミュレートできるツールである。Wgsimは、SNPと挿入/欠失多型と二倍体ゲノムをシミュレートできる(シーケンスエラーを再現したり、diploidゲノムの多型を想定…

NCBIで全データを一度にblast解析し、得られたリストをEntrez Directでアノテーションに変換する。

2020 10/9 リンク追加 複数の配列のblast解析を行う場合、ローカルでデータベースなどを構築して進めるのが一つの手である。しかしローカルだとデータベースの更新や、データサイズが問題になる(例えばnrのデータも2015年にダウンロードすると200GBを超えて…

fastq / fastaの操作ツール seqkit

2019 4/15 Githubリンク追加 2019 6/21 seqmit sample コマンド追記 2019 8/7 help追加 2019 8/8 stats追記 2020 3/18 help更新 2021 ツイート追加(対応するバージョンを使っている人は注意) 2016年に発表されたfastqの操作ツール。競合ツールより多機能と…

クレード特異的マーカー遺伝子を使いメタゲノム配列のtaxnomy assigmentを行う MetaPhlAn2、クラスタリングするHclust2、系統樹を作成するGraPhlAn

2019 5/17 condaインストール追記、イントロ文章修正、 2019 7/2タイトル修正 2019 7/4 インストール追記 2019 7/6 インストール追記タイトル修正、誤解を招く文章を削除 2019 10/8 インストール追記 2020 8/24 condaインストール追記 2021 7/16 mambaに変更…

PanPhlAnによるメタゲノムのプロファイリング

2018 10/30 イントロ修正 PanPhlAnはメタゲノムをstrainレベルで解析するツール。調べるのは遺伝子の有り/無しで、データベースのゲノムと比較することでメタゲムシーケンスしたバクテリアの特定の種に、実際にはどれくらいの多様性があるか(どれくらいのst…

ウィルスゲノムのアセンブルツール IVA (Iterative Virus Assembler)

IVA (Iterative Virus Assembler)はウィルス用のDNAアセンブラ。2015年に発表された。カバレッジが大きく変動するウィルスゲノムのアセンブルに対応しているとされる。入力データはilluminaのペーアドエンドである。前もって作ったcontigからscaffoldを作っ…

diginormによるシーケンスデータの軽量化

2019 5/14 helpとパラメータ追記 "digital normalization"という名で発表されたこの手法は、k-merを指標にリードを間引いて、データサイズを軽量化する方法論。データサイズが大きすぎてアセンブルできないサンプルの軽量化に使えるとされる。トリミングター…