macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

fasta/fastqの操作

ベイズ的アプローチによるアダプタートリミングツール Scythe

Scytheはfastqのアダプター配列トリミングツール。ライブラリ調整過程でリード長より短い回断片が精製されてくると、3'末端側にアダプター配列のついた配列がシーケンスされる。これは例えばsmall RNAのシーケンスを想定するとわかりやすい。small-RNAのライ…

fastqの操作ツール illumina-utils

illumina-utilsはpythonで記述されたilluminaのシーケンスデータのユーティリティツール。オーバーラップしたペアリードのmergeやクオリティフィルタリングを行うことができる。 インストール Github sudo pip install illumina-utils 実行方法 raw fastqのd…

クオリティトリミングツール sickle

2020 10/31 インストール追記 2020 11/24 help追記 2021 6/15 コマンド追記 sickleはfastqのクオリティトリミングツール。リード長の0.1倍のウィンドウサイズでリードを分析し、指定値以下のクオリティになった領域をトリムする。Trimmomaticと同様、ペアリ…

fastqデータを検証する FastQValidator

FastQValidatorは、fastqのフォーマットを検証しておかしなリードが含まれるのか調べることができるツール。具体的には、1つだけファイル名がおかしかったり(ヘッダーが@で始まっていないとか短すぎるとか)、数塩基しかないようなリードが混じっているか…

fastq / fastaの操作ツール seqkit

2019 4/15 Githubリンク追加 2019 6/21 seqmit sample コマンド追記 2019 8/7 help追加 2019 8/8 stats追記 2020 3/18 help更新 2021 ツイート追加(対応するバージョンを使っている人は注意) 2016年に発表されたfastqの操作ツール。競合ツールより多機能と…

diginormによるシーケンスデータの軽量化

2019 5/14 helpとパラメータ追記 "digital normalization"という名で発表されたこの手法は、k-merを指標にリードを間引いて、データサイズを軽量化する方法論。データサイズが大きすぎてアセンブルできないサンプルの軽量化に使えるとされる。トリミングター…

fastq / fastaの操作ツール seqtk

seqtkはfastqをfastaに変換したり、相補鎖に変換できるツール。ランダムサンプリング機能ももち、de novo transcriptome解析でアセンブルに有利なリードデプスに間引くツールとして用いられることもある(ペーパー)。動作が非常に高速のため使いやすい。似…

ショートリードのアダプタートリミングツール Trim Galore

2019 5/8 インストールおよびヘルプ追記 2020 12/9 help更新 これまで様々なアダプタートリミングツールが報告されてきている。OMIC toolsで検索すると、2017年6月で35件ヒットする(OMIC toolリンク)。その中でもFastQC、cutadapt、Fastx-toolkitなどはよ…

フォーマット変換 Fastq=> Fasta

awkのコマンドで一発でできる。 awk '(NR - 1) % 4 < 2' test.fq | sed 's/@/>/' > test.fa または、embossのseqretコマンドでも同じことができる。seqretコマンドは別に紹介しています。

ナノポアリードの分析ツール

2017年現在、すでにOXford nanoporeの分析ツールは色々発表されている。いくつかインストールとして実際に使ってみた結果を紹介する。 NanoOK インストール マニュアルページ https://documentation.tgac.ac.uk/display/NANOOK/NanoOK+tutorial 本体以外に必…