macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

fastqの操作ツール

異なるk-merの割合を計算し、エラー率推定やゲノムサイズ推定に使える KmerStream

KmerStreamは異なるk-merの数を計算する方法論。シーケンス業者のクオリティに依存せず純粋にk-merの頻度からエラー率を見積もることができるため、上手く使えばシーケンスの品質管理などに使用することができる。サンプリングを行うためメモリ使用量が少な…

fastqのクオリティスコアをASCII +64からASCII +33に変換する。

BBtoolsのreformat.shを使えば、ASCII+64でクオリティスコアを計算しているfastqをASCII+33に変換することができる。 シングルリード reformat.sh in=input.fq out=output_phred33.fq qin=64 qout=33 ペアリード reformat.sh in1=input1.fq in2=input2.fq ou…

高速で高効率なfastqの圧縮ツール DSRC

DSRCはマルチスレッドに対応したfastq(ABI SOLiD, and 454/Ion Torrent)の圧縮ツール。gzipやbzipなどの汎用的な圧縮ツールと比較して15~60%高効率とされる。圧縮・解凍速度も極めて速く、8スレッドで500MB/s出るとされる。 インストール binaryのダウンロ…

embossのseqretでFASTAを修復する

FASTAをいじっていると、何らかの拍子に構造がおかしくなってsamtoolsのindexでsegmentation errorを起こすことがある。途中に空行ができていたり、特殊文字が入っていたり、何らかの理由があるわけだが、embossのseqretを使うと簡単に修復することができる…

ナノポアのロングリードのトリミングやフィルタリングを行うNanofilt

nanofitはナノポアのロングリードのクオリティトリミングができるツールである。 インストール Github https://github.com/wdecoster/nanofilt conda install -c bioconda nanofilt ラン 5'末端75-bpの強制トリミングと、平均クオリティ10以下のリードを捨て…

ナノポアのロングリードの長さやクオリティを分析するnanostatとNanoPlot

ショートリード用のクオリティ分析ツールはナノポアのロングリードでは機能しないので、専用のツールが必要である。nanostatとNanoPlotはWouter De CosterさんがGithubで公開しているナノポアのロングリード分析ツール。クオリティや長さの分布を調べる時の…

AfterQCでQC、エラー修復、トリミング、レポート作成を自動実行する

AfterQCはfastqのフィルタリング、トリミング、エラー修復、およびクオリティチェックを全て自動で行なってくれるツールである。エラー修復はオーバーラップするペアードエンドリードのクオリティを比較して実行される。2017年に論文が発表された。 インスト…

condetriでクオリティトリミングを行う

condetriはペアリードを考量してクオリティトリミングが行えるperlのツール。 公式サイト https://code.google.com/archive/p/condetri/ マニュアル ダウンロードしたディレクトリにPDFマニュアルあり。 インストール 本体はperlスクリプトである。 GIthub h…

UCLUSTでクラスタリングする

相同な配列をクラスタリングするツール。相同性の下限値を指定してランすると、閾値以上の相同性を持った塩基配列をまとめてくれる。CD-HIT-ESTより高速に動作するとされる。 ダウンロード http://www.drive5.com/uclust/downloads1_2_22q.html マニュアル h…

NGSの スモールユーティリティツール Ngs crumbs

Ngs crumbsはfastqデータの様々な処理ができるツール群。本体が1つあるわけではなく、bin/にたくさんのユーティリィスクリプトが集まった一群のツールセットとなっている。論文にはなっていないが、いくつかの論文でデータ処理に利用されている。マニュアル…

多機能なNGSの管理ツール BBtools 其の2

の続き。BBtoolsの残りのコマンドを紹介する。紹介するのは以下のコマンドである。 Reformat - フォーマット変換やクオリティトリミング。 Repair - ペアリードの順番が壊れたファイルを修復する。 Stats - アセンブリの基本情報をレポートする。 BBDuk - ク…

多機能なNGSの管理ツール BBtools 其の1

BBtoolsはアメリカのJGIが提供している多機能なNGS向けの解析ツール。2014年にオープンソース化されたらしい。論文は現在準備中とある。アライメントのBBmapや、オーバーラップがないペアリードをマージするBBMerge、エラーコレクションしたfastqを出力するB…

qrqcによるfastqのクオリティレポートの作成

qrqcは qrqcはリードのクオリティや配列の分布をレポートできるRのパッケージ。1000-bp以下のfastqに対応している。同様の目的で使用されるツールとしてfastqcがある。 インストール Rにて ## try http:// if https:// URLs are not supported source("https…

ベイズ的アプローチによるアダプタートリミングツール Scythe

Scytheはfastqのアダプター配列トリミングツール。ライブラリ調整過程でリード長より短い回断片が精製されてくると、3'末端側にアダプター配列のついた配列がシーケンスされる。これは例えばsmall RNAのシーケンスを想定するとわかりやすい。small-RNAのライ…

fastqの操作ツール illumina-utils

illumina-utilsはpythonで記述されたilluminaのシーケンスデータのユーティリティツール。オーバーラップしたペアリードのmergeやクオリティフィルタリングを行うことができる。 Github https://github.com/merenlab/illumina-utils インストール sudo pip i…

クオリティトリミングツール sickle

sickleはfastqのクオリティトリミングツール。リード長の0.1倍のウィンドウサイズでリードを分析し、指定値以下のクオリティになった領域をトリムする。Trimmomaticと同じようにペアリードの数を維持したまま出力することが可能である(orphanなリードは別出…

FastQValidatorでfastqデータを検証する。

FastQValidatorは、fastqのフォーマットを検証しておかしなリードが含まれるのか調べることができるツール。具体的には、1つだけファイル名がおかしかったり(ヘッダーが@で始まっていないとか短すぎるとか)、数塩基しかないようなリードが混じっているか…

fastq / fastaの操作ツール seqkit

2016年に発表されたfastqの操作ツール。競合ツールより多機能とされる。seqtkと同様、動作は非常に早い。メモリ使用量はseqtkより少ないとされる。 マニュアル Usage - SeqKit - Ultrafast FASTA/Q kit チュートリアル Tutorial - SeqKit - Ultrafast FASTA/…

diginormによるシーケンスデータの軽量化

"digital normalization"という名で発表されたこの手法は、k-merを指標にリードを間引いて、データサイズを軽量化する方法論。データサイズが大きすぎてアセンブルできないサンプルの軽量化に使えるとされる。トリミングターゲットは、低/高のk-merカバレッ…

fastq / fastaの操作ツール seqtk

seqtkはfastqをfastaに変換したり、相補鎖に変換できるツール。ランダムサンプリング機能ももち、de novo transcriptome解析でアセンブルに有利なリードデプスに間引くツールとして用いられることもある(ペーパー)。動作が非常に高速のため使いやすい。似…

ショートリードのアダプタートリミングツール Trim Galore

これまで様々なアダプタートリミングツールが報告されてきている。OMIC toolsで検索すると、2017年6月で35件ヒットする(OMIC toolリンク)。その中でもFastQC、cutadapt、Fastx-toolkitなどはよく耳にする。Trim Galore!はFastQCとcutadaptを内部で動かし、…

フォーマット変換 Fastq=> Fasta

awkのコマンドで一発でできる。 awk '(NR - 1) % 4 < 2' test.fq | sed 's/@/>/' > test.fa または、embossのseqretコマンドでも同じことができる。seqretコマンドは別に紹介しています。

ナノポアリードの分析ツール

2017年現在、すでにOXford nanoporeの分析ツールは色々発表されている。いくつかインストールとして実際に使ってみた結果を紹介する。 NanoOK インストール マニュアルページ https://documentation.tgac.ac.uk/display/NANOOK/NanoOK+tutorial 本体以外に必…