macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

fasta/fastqの操作

fastq-dumpを並列化した pfastq-dump

2018 11/25 誤字修正 2019 12/18 インストール手順修正、コマンド実行手順追加 pfastq-dumpは、Ohtaさんが公開されているfastq-dumpを並列処理するpythonスクリプトparallel-fastq-dumpのbash実装バージョン。Sequence Read Archive(wiki)からダウンロード…

fastqから素早くインサートサイズを計算する

bamファイルをすでに作っているなら、ペアエンドのインサートサイズはPicard-tools等ですぐ出せますが、raw fastqしかない時にいちいちbamにして求めるのは少し面倒です。ワンランナーで出すスクリプト書きました。好みにあわせて修正して使ってください。手…

Y染色体由来リードをエンリッチする RecoverY

ハプロイド哺乳動物Y染色体配列は、大規模な次世代配列決定(NGS)プロジェクトではいくつかの理由により適切に組み立てられないことが多い。 Yは女性には存在せず、男性に1コピーのみ存在する。したがって、所望のシーケンスデプスを得るためには、2倍シー…

オーバーラップするペアエンドリードをマージする PEAR

2019 5/20 condaインストールおよび引用追記、コメント削除 PEARはオーバーラップするペアエンドリードをマージするツール。フラグメントサイーズがリード長x2より小さい場合、ペアエンドリード間にオーバーラップが存在する。PEARはこのオーバーラップ領域…

シーケンスデータからk-merスペクトラム分析を行う GenomeScope

2019 3/5 インストール追記、コマンドのわかりにくい部分を修正 2019 5/14 リンク追加 2019 5/27 docker追加、オプションヘルプ追加 2019 8/27 twitter追記 ハイスループットシーケンシングにより、新規ゲノムのシーケンシングが日常的に可能になっている。…

samやfastqの単純分割

2020 3/20 コマンド修正 リードの境目を気にせず、とにかくfastqやsamを分割したいという時は、splitコマンドが使いやすい。fastqを認識して正しく分けるならseqkit split(紹介)を使う。 --非圧縮ファイルの分割-- 1000MB (1GB) ずつ分割し、gzip圧縮して…

FASTA分析に使えるpythonライブラリ Goldilocks

Goldilocksは基準を満たす領域のさらなる解析を行うために設計されたPythonパッケージである。パッケージをスタンドアロンスクリプトにインポートするか、コマンドラインツールを使用して使用できる。(一部略)Goldilocksはもともと、複数のサンプルにわた…

FASTQ、BED、BAMを操作するNGSUtilsその3 fastqutils

3回目はfastqを操作するfastqutilsを紹介する。 インストール 公式ページ NGSUtils - bedutils git clone git://github.com/ngsutils/ngsutils.gitcd ngsutils/make #依存がインストールされる(詳細はwebマニュアル参照) $ fastqutils Usage: fastqutils …

大量のサンガーシーケンスやfastqを自動でクオリティフィルタリングする臨床向けツール ClinQC

ClinQCは、SangerおよびNGSシーケンシングデータの品質管理、フィルタリングおよびトリミングの統合パイプライン。臨床研究で数百から数千のサンプル/患者に対する サンガーのシーケンシングとNGSデータを分析し、サンプル/患者ごとに統一された分析レポート…

fastqの処理ツール fqtools

fqtoolsは 無効なファイルを識別しながら、FASTQファイルを処理できる、高速で信頼性の高いFASTQファイル操作ツール。自動解析パイプラインでの使用も視野に設計されている。 インストール 依存 makezlib is required for processing compressed (.gz) data.…

エラーを除去しながらペアリードをマージする CASPER

ペアエンドシーケンスからのフォワードリードとリバースリードのマージは、ゲノムアセンブリやマッピングなどのダウンストリームタスクのパフォーマンスを大幅に向上させる(インサートサイズの問題には触れない)。しかしエラー率はシーケンス限界が近づく…

FASTA/FASTQ関係のツールまとめ

随時更新 情報が増えてきたので、これまで紹介してきたfasta、fastqの分析、変換(圧縮)、修復ツールをまとめておく。 アダプタートリミング trimming / preprocessing カテゴリー seqkit fastq / fastaの操作ツール seqkit seqkitに最近追加されたコマンド…

FASTAやFASTQの塩基数をカウントする

インストール TECHOVERFLO((https://techoverflow.net)の公開しているpythonスクリプトを利用させてもらう。該当記事(リンク)からコピーして、ファイル名 fasta-stats.pyで保存。 "chmod u+x python fasta-stats.py"で実行権もつけておく。 > python fas…

並列化に対応したリファレンスベースのfastq圧縮ツール LW-FQZip2

fastqの圧縮の方法論にはいくつか種類があるが、その内の1つリファレンスベースの圧縮ツールは、シーケンスデータをそのまま圧縮するのではなく、リファンレスとの位置合わせ結果を記録する方法論である。そのために、リファレンスにリードをアライメントし…

454とSOLIDのfastqで高いロスレス圧縮を行う LFQC

高い圧縮率を示すfastqの圧縮ツール。圧縮率が高いだけあって時間はかかるが、1/10ほどのサイズの圧縮ファイルを作ることができる(ロスレス)。 インストール cent OSに導入した。 環境 Unix system with at least 4gb of RAM (preferably 8) Ruby 本体 Git…

Mulit-FASTAの分割 (split)

2018 10/26追記 2019 10/28インストール追記 2020 4/29 追記 BBtoolsを使うと簡単にマルチFASTAを分割できる(BBtools)。 インストール conda install -c bioconda -y bbmap > partition.sh -h $ partition.sh -h Written by Brian Bushnell Last modified …

高速なk-merカウントツール KMC3

2019 9/11 インストール追記 KMCは高速なk-merカウントの方法論。初代KMC、KMC2、KMC3が発表されている。ここではversion3のKMC3について記載する。ヒトゲノムの619GBのgz圧縮fastqを89分で分析できたと書かれている(2.3GHzの12コア、HDD2台のストライピン…

異なるk-merの割合を計算してエラー率推定やゲノムサイズ推定を行う KmerStream

2019 5/27インストール方法追記 2019 7/29タイトル修正 KmerStreamは異なるk-merの数を計算する方法論。シーケンス業者のクオリティに依存せず純粋にk-merの頻度からエラー率を見積もることができるため、上手く使えばシーケンスの品質管理などに使用するこ…

fastqのクオリティスコアをASCII +64からASCII +33に変換する。

BBtoolsのreformat.shを使えば、ASCII+64でクオリティスコアを計算しているfastqをASCII+33に変換することができる。 シングルリード reformat.sh in=input.fq out=output_phred33.fq qin=64 qout=33 ペアリード reformat.sh in1=input1.fq in2=input2.fq ou…

高速で高効率なfastqの圧縮ツール DSRC

DSRCはマルチスレッドに対応したfastq(ABI SOLiD, and 454/Ion Torrent)の圧縮ツール。gzipやbzipなどの汎用的な圧縮ツールと比較して15~60%高効率とされる。圧縮・解凍速度も極めて速く、8スレッドで500MB/s出るとされる。 インストール binaryのダウンロ…

EMBOSSのseqretを使ってfastaファイルを修復する

2019 6/19 インストール追記 2019 7/15 タイトル修正 2019 8/7リンク追加 2019 10/3コメント追加 fastaファイルfをいじっていると、何らかの拍子に構造がおかしくなってsamtoolsのindexでsegmentation errorを起こすことがある。途中に空行ができていたり、…

ナノポアのロングリードのトリミングやフィルタリングを行うNanofilt

2019 2/14 コマンド追加 2019 5/19 ヘルプ追加、パラメータ変更 2019 12/30並列処理例追加 2020 10/10 リンク追加 nanofitはナノポアのロングリードのクオリティトリミングができるツールである。 インストール Github https://github.com/wdecoster/nanofil…

ナノポアのロングリードの長さやクオリティを分析するnanostatとNanoPlot

2019 5/19 インストール追記 2019 9/7コメント追加2020 1/4 インストール手順仮想環境に導入するように修正 2021 9/17 追記 2022/04/20 インストール追記 (python=3.5 => python=3.8 ) ショートリード用のクオリティ分析ツールはナノポアのロングリードでは…

QC、エラー修復、トリミング、レポート作成を自動実行する AfterQC

AfterQCはfastqのフィルタリング、トリミング、エラー修復、およびクオリティチェックを全て自動で行なってくれるツールである。エラー修復はオーバーラップするペアードエンドリードのクオリティを比較して実行される。2017年に論文が発表された。 インスト…

クオリティトリミングを行う condetri

condetriはペアリードを考量してクオリティトリミングが行えるperlのツール。 公式サイト https://code.google.com/archive/p/condetri/ マニュアル ダウンロードしたディレクトリにPDFマニュアルあり。 インストール 本体はperlスクリプトである。 GIthub …

配列のクラスタリングツール UCLUST

2019 9/29 help追加 2019 9/30 fastaへの変換コマンド追加 相同な配列をクラスタリングするツール。相同性の下限値を指定してランすると、閾値以上の相同性を持った塩基配列をまとめてくれる。CD-HIT-ESTより高速に動作するとされる。 ダウンロード (linux, …

NGSの スモールユーティリティツール Ngs crumbs

2020 7/26 構成を修正 Ngs crumbsはfastqデータの様々な処理ができるツール群。本体が1つあるわけではなく、たくさんのユーティリィスクリプトが集まったツールセットとなっている。論文にはなっていないが、いくつかの論文でデータ処理に利用されている。…

多機能なNGS分析ツール BBtools 其の2

20196/13 タイトル修正 2020 7/24 bbdukコマンド追記 の続き。BBtoolsの残りのコマンドを紹介する。紹介するのは以下のコマンド。 Reformat - フォーマット変換やクオリティトリミング。 Repair - ペアリードの順番が壊れたファイルを修復する。 Stats - ア…

多機能なNGS分析ツール BBtools 其の1

2018 9/5 bbmerge-auto.sh修正 2019 5/14 BBnormコメント修正、パラメータ修正、ヘルプ追加 bbmap.sh2019 6/13 タイトル修正、6/19 其の3追記 2020 1/29 condaインストール追記、メモリ使用量指定、11/6 誤字修正 2023/02/02 追記 BBtoolsはアメリカのJGIが…

fastqのクオリティレポートを出力する qrqc

qrqcは qrqcはリードのクオリティや配列の分布をレポートできるRのパッケージ。1000-bp以下のfastqに対応している。同様の目的で使用されるツールとしてfastqcがある。 インストール Rにて ## try http:// if https:// URLs are not supported source("https…