macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

format conversion

fastqのクオリティスコアをASCII +64からASCII +33に変換する。

BBtoolsのreformat.shを使えば、ASCII+64でクオリティスコアを計算しているfastqをASCII+33に変換することができる。 シングルリード reformat.sh in=input.fq out=output_phred33.fq qin=64 qout=33 ペアリード reformat.sh in1=input1.fq in2=input2.fq ou…

高速で高効率なfastqの圧縮ツール DSRC

DSRCはマルチスレッドに対応したfastq(ABI SOLiD, and 454/Ion Torrent)の圧縮ツール。gzipやbzipなどの汎用的な圧縮ツールと比較して15~60%高効率とされる。圧縮・解凍速度も極めて速く、8スレッドで500MB/s出るとされる。 インストール binaryのダウンロ…

EMBOSSのseqretを使ってfastaファイルを修復する

2019 6/19 インストール追記 2019 7/15 タイトル修正 2019 8/7リンク追加 2019 10/3コメント追加 fastaファイルfをいじっていると、何らかの拍子に構造がおかしくなってsamtoolsのindexでsegmentation errorを起こすことがある。途中に空行ができていたり、…

VCFを管理、編集する VCFtools

2019 4/16 condaインストール 2019 12/9ビルド手順の誤り修正 2020 1/5 mergeの説明追加 2020 4/18 基本コマンド追記 2020 10/13 追記 20200 10/14 分かりにくい説明を修正 2021 2/17 dockerリンク追加 2021 5/16 ”変異”を”バリアント”に修正 2023/09/29 vcf…

DNA解析ソフトに近い機能を提供するwebツール集 SMS

2019 8/7リンク追加 2021 10/3リンクエラー修正 SMSは、NGSの登場よりずっと以前から使われているDNA/プロテインの編集や変換ができるツール集である。昔からあるDNA解析ソフトの大半の機能をカバーしている。webサーバー版とオフラインで動くローカル版があ…

多機能なNGS分析ツール BBtools 其の2

20196/13 タイトル修正 2020 7/24 bbdukコマンド追記 の続き。BBtoolsの残りのコマンドを紹介する。紹介するのは以下のコマンド。 Reformat - フォーマット変換やクオリティトリミング。 Repair - ペアリードの順番が壊れたファイルを修復する。 Stats - ア…

fastq / fastaの操作ツール seqkit

2019 4/15 Githubリンク追加 2019 6/21 seqmit sample コマンド追記 2019 8/7 help追加 2019 8/8 stats追記 2020 3/18 help更新 2021 ツイート追加(対応するバージョンを使っている人は注意) 2016年に発表されたfastqの操作ツール。競合ツールより多機能と…

fastq / fastaの操作ツール seqtk

seqtkはfastqをfastaに変換したり、相補鎖に変換できるツール。ランダムサンプリング機能ももち、de novo transcriptome解析でアセンブルに有利なリードデプスに間引くツールとして用いられることもある(ペーパー)。動作が非常に高速のため使いやすい。似…

フォーマット変換 FASTA => BED

fasta.faiから作る。 samtools faidx input.fasta awk '{print $1 "\t0\t" $2}' input.fasta.fai > output.bed またはpythonのスクリプトを使う。 pip install pyfaidx faidx --transform bed input.fasta > output.bed ヒトゲノムhg19ならこのようなbedがで…

VCF, GTF, GFF などを BED に変換 する BEDOPS

2019 6/17 追記 2020 2/21 タイトル修正 2020 3/30 help追記 BEDヘの変換はawkやperlやpythonのスクリプトで簡単にできるが、BEDOPSのvcf2nedを使うと、indelの種類などによってフィルタリングしながら分類することができ便利である。 インストール #homebre…

bedtools

追記 bedgraph出力 2019 9/4 インストール、twitterリンク追加 BEDファイルのオーバーラップ領域を抽出したり、マージしたりできるツール。BED以外にGFF、VCFも扱うことができる。bedtools <command> -a .bed -b .bedという使い方が基本。-aで指定したbedを-bで指定し</command>…

bamからbigWigとWiggle Formatに変換するツール

2019 3/20 誤字修正 2021 12/23 コマンド修正 2023/10/01追記 bamからwiggleファイルに変換してviewerに取り込むと、カバレッジtrackとして表示できる。ただしそれにはsamtoolsのpileupを使いbamからwiggleファイルを作る必要があり、作り方がやや面倒だった…

インフォマティクス解析に使えるコマンドの紹介1 excelからのデータ抽出

バイオインフォマティクス解析の初心者の方が、ターミナル環境を扱う際に知ってると便利そうなコマンド、tipsなどを紹介していきます。 Excelの重たい解析データも、ターミナルで操作すればサクサク扱うことができます。ということで、最初は 1、Excelファ…

フォーマット変換 bam=> Fastq アライメントされなかったリードの取り出し方など

いくつか方法があるのでまとめておく。 追記 文章修正 1、bam2fastq 公式サイトでは今後は使用非推奨で、代わりにpicardを使ってと記載されています。これまでのデータであれば問題ないと思われますが、注意して使ってください。 ダウンロード 公式サイト Ge…

フォーマット変換 GenBank => FASTA

2020 6/4 構成を変更 1、EMBOSSのseqretコマンドを使う(インストール)。 ゲノムのGenbankファイルを読み込んでfasta出力する。複数配列あるならmulti fasta出力される。 seqret input.gbk out.fasta 正規表現をサポートしているので、うまくワイルドカー…

Oxford NanoporeリードのFAST5 => FASTA / FASTQ変換

2021 8/22 説明を修正 MNIONのシーケンスデータはFAST5というフォーマットで出力される。FAST5はHDF5(wiki)という時系列データ関係でよく使われる形式に乗っ取っている。塩基配列になっていないバイナリーなデータである。このデータから塩基配列に変換す…

sam/bam関係のツールまとめ

随時更新 2019 1/23 リンク修正 2020 4/17 samtoolsについてmultiqcと連携する例を追記、4/18 help更新、インストール方法追加 2024/02/24 誤字修正 &インストールコマンド修正(conda => mamba ) samとbamのハンドリングに関するツールを紹介する。 追記 -…

フォーマット変換 Fastq=> Fasta

awkのコマンドで一発でできる。 awk '(NR - 1) % 4 < 2' test.fq | sed 's/@/>/' > test.fa または、embossのseqretコマンドでも同じことができる。seqretコマンドは別に紹介しています。

バリアントコール結果のVCFフォーマット

2018 10/25 追記 2019 8/9 コマンド追記 2020 10/14 vcflibのインストールコマンドを最後に追記 2021 5/15 誤字修正 次世代データからリファンレンスゲノムの変異検出を行うと、Variant Call Format(VCF)という形式で出力されることが多い。VCFの詳細はsam…