macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

フォーマット変換

高速なbam/samの解析ツール Sambamba

Sambambaはsam、bam、cramの処理ツール。D言語で構築されている。フォーマットを変えたり、フィルタリングすることができる。SAMToolsやPicard-toolsの一部機能と重複するが、Sambambaは並列化に対応しており、SAMToolsより高速に動作するとされる。特にmpil…

fastqのクオリティスコアをASCII +64からASCII +33に変換する。

BBtoolsのreformat.shを使えば、ASCII+64でクオリティスコアを計算しているfastqをASCII+33に変換することができる。 シングルリード reformat.sh in=input.fq out=output_phred33.fq qin=64 qout=33 ペアリード reformat.sh in1=input1.fq in2=input2.fq ou…

高速で高効率なfastqの圧縮ツール DSRC

DSRCはマルチスレッドに対応したfastq(ABI SOLiD, and 454/Ion Torrent)の圧縮ツール。gzipやbzipなどの汎用的な圧縮ツールと比較して15~60%高効率とされる。圧縮・解凍速度も極めて速く、8スレッドで500MB/s出るとされる。 インストール binaryのダウンロ…

embossのseqretでFASTAを修復する

FASTAをいじっていると、何らかの拍子に構造がおかしくなってsamtoolsのindexでsegmentation errorを起こすことがある。途中に空行ができていたり、特殊文字が入っていたり、何らかの理由があるわけだが、embossのseqretを使うと簡単に修復することができる…

DNA解析ソフトに近い機能を提供するwebツール集 SMS

SMSは、NGSの登場よりずっと以前から使われているDNA/プロテインの編集や変換ができるツール集である。昔からあるDNA解析ソフトの大半の機能をカバーしている。webサーバー版とオフラインで動くローカル版がある。いずれもhtmlベースで動作する(内部でjava…

多機能なNGSの管理ツール BBtools 其の2

の続き。BBtoolsの残りのコマンドを紹介する。紹介するのは以下のコマンドである。 Reformat - フォーマット変換やクオリティトリミング。 Repair - ペアリードの順番が壊れたファイルを修復する。 Stats - アセンブリの基本情報をレポートする。 BBDuk - ク…

fastq / fastaの操作ツール seqkit

2016年に発表されたfastqの操作ツール。競合ツールより多機能とされる。seqtkと同様、動作は非常に早い。メモリ使用量はseqtkより少ないとされる。 マニュアル Usage - SeqKit - Ultrafast FASTA/Q kit チュートリアル Tutorial - SeqKit - Ultrafast FASTA/…

fastq / fastaの操作ツール seqtk

seqtkはfastqをfastaに変換したり、相補鎖に変換できるツール。ランダムサンプリング機能ももち、de novo transcriptome解析でアセンブルに有利なリードデプスに間引くツールとして用いられることもある(ペーパー)。動作が非常に高速のため使いやすい。似…

フォーマット変換 FASTA => BED

fasta.faiから作る。 samtools faidx input.fasta awk '{print $1 "\t0\t" $2}' input.fasta.fai > output.bed またはpythonのスクリプトを使う。 pip install pyfaidx faidx --transform bed input.fasta > output.bed ヒトゲノムhg19ならこのようなbedがで…

BEDOPSを使いVCF, GTF, GFF などを BED に変換 する。

BEDヘの変換はawkやperlやpythonのスクリプトで簡単にできるが、BEDOPSのvcf2nedを使うと、indelの種類などによってフィルタリングしながら分類することができ便利である。 BEDOPSがない人はbrewで入れておく。 brew install BEDOPS 公式マニュアル http://b…

bedtools

BEDファイルのオーバーラップ領域を抽出したり、マージしたりできるツール。BED以外にGFF、VCFも扱うことができる。bedtools <command> -a .bed -b .bedという使い方が基本。-aで指定したbedを-bで指定したbedと比較する。出力はリダイレクト(>)で指定しないと標準</command>…

bamからbigWigとWiggle Formatに変換するツール

bamからwiggleファイルに変換してカバレッジのtrackをviewerのトラックに取り込みことができる。ただしそれにはsamtoolsのpileupを使いbamからwiggleファイルを作る必要があり、作り方がやや面倒だった。現在では、ありがたいことにコマンド一発でwiggleファ…

インフォマティクス解析に使えるコマンドの紹介1 excelからのデータ抽出

バイオインフォマティクス解析の初心者の方が、ターミナル環境を扱う際に知ってると便利そうなコマンド、tipsなどを紹介していきます。 Excelの重たい解析データも、ターミナルで操作すればサクサク扱うことができます。ということで、最初は 1、Excelファ…

フォーマット変換 bam=> Fastq アライメントされなかったリードの取り出し方など

いくつか方法があるが、例えばbam2fastqを使う。ただし、公式サイトでは今後は使用非推奨で、代わりにpicardを使ってと記載されています。これまでのデータであれば問題ないと思われますが、注意して使ってください。 ダウンロード 公式サイト Genomic Servi…

フォーマット変換 genebank => fasta

以前紹介したラッパーツールbwastを使うと楽にできる。 bwast.py sample1.gbk sample2.gbk 正規表現をサポートしているので、うまくワイルドカードを使えば大量のgenebakファイルから同時にfastaを抜き出すこともできる(正し*gbkと打っても受け付けない)。…

Oxford NanoporeリードのFAST5 => FASTA / FASTQ変換

MNIONのシーケンスデータはFAST5というフォーマットで出力される。FAST5はHDF5という時系列データ関係でよく使われる形式に乗っ取っているらしい。塩基配列になっていないバイナリーなデータのため、ビューアソフトで開いても文字化けしてしまう。 このデー…

sam/bamファイルを変換、編集したり分析するためのツール

samとbamのハンドリングに関するツールを紹介する。 似たような機能と名前を持つツールが多くて混乱するが、データ処理時に使えると便利なものもある。代表的な機能に限って紹介するので、確認してみて下さい。 brewでツールをインストールするので、はじめ…

フォーマット変換 Fastq=> Fasta

awkのコマンドで一発でできる。 awk '(NR - 1) % 4 < 2' test.fq | sed 's/@/>/' > test.fa または、embossのseqretコマンドでも同じことができる。seqretコマンドは別に紹介しています。