macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

fasta/fastqの操作

アダプタートリミングツール illumiprocessor

2018 10/11 コードの誤り修正 Illumiprocessorは、illuminaのSEとPEのシーケンシングリードからアダプターのコンタミネーションをトリミングするツール。 double-indexのリードのトリミングができる。 scytheとsickle(v1.xで使用)よりtrimmomatiを使った方…

複数ゲノムへマッピングして、コンタミの可能性を探ったりフィルタリングを行う FastQ Screen

DNAシーケンシング解析では、通常、リードはただ1つのリファレンスゲノムにマッピングされる。 しかしながら、起源となるゲノムの確認を必要とする場合、複数のゲノムに対するマッピングが必要である。 複数のゲノムに対するマッピングは、汚染を検出するた…

インタラクティブなDNA配列の2次元プロットを作成する Squiggle

次世代シークエンシング技術の登場により、DNA配列解析は、バイオインフォマティクスと生物学の両方でますます一般的なツールとなっている。この理由から、注釈されていないDNA配列を迅速に検査する能力は極めて重要である。しかし、FASTAファイルに含まれる…

fastqの配列をランダムに変化させる fastq-anonymous

インストール mac os10.13のPython 3.6.2 :: Anaconda 3-5.0.0 でテストした。 本体 GIthub pip install fastq-anonymous#Anaconda環境ならconda install -c bioconda fastq-anonymous > fastq-anonymous -h $ fastq-anonymous -h usage: fastq-anonymous [-…

バクテリアのシーケンシングデータ分析ツール GenomePeek

シーケンシングコストが低下するにつれて、バクテリアゲノムの配列が増加している。現在、NCBI(Benson et al、2009; Sayers et al、2009)、SEEDデータベース(Overbeek、Disz&Stevens、2004)には約15,000種類の原核生物ゲノムがあり、約75,000種類のアセ…

アセンブリの簡単なstatisticsを出力する assembly-stats

assembly-statsはsanger-pathogensのGithubレポジトリで公開されているアセンブリ配列の簡単な要約統計を出力するツール。 インストール mac os10.13でテストした。 本体 Github #Anaconda環境ならcondaでインストールできるconda install -c bioconda assem…

mauveを使いcontigをリファレンスfasta順に並べ替える

http://darlinglab.org/mauve/user-guide/reordering.html より。 インストール mac os 10.13でテストした。 mauveのHPからインストーラーをダウンロードする。 http://darlinglab.org/mauve/download.html ラン 1、起動したらメニューのTools からMove Cont…

review article要約 SNPs callingビギナーズガイド

8/24 誤字修正 A beginners guide to SNP calling from high-throughput DNA-sequencing data (Andre ́ Altman et al., 2012)より ハイスループットDNAシークエンシング(HTS)は、ライフサイエンスにおいてますます重要になっている。その最も顕著な用途…

bam, fastqのユーティリティツール EA-Utils

2013年のペーパーより ハイスループットシーケンシング(HTS)は、シーケンシングデータの急速な成長率をもたらした。 著者らのラボでは、毎日テラバイトのデータを生成している。 これは通常、バリアントコーラー、定量およびアセンブリなどの一般的なタス…

fasta、fastqの簡単なstatisticsを出す Seqstats

SeqstatsはHeng Li(wiki)の優れたklibライブラリを使い、Cで書かれたツール。 シーケンスリード、リファレンスゲノムおよびアセンブリファイルの一般的な要約統計情報を提供する。 gzipまたはプレーンのfastqおよびfastaファイルを読み込むことができる。 …

シンプルなfastq、sam、bamの分析ツール fastqp 

fastqpはシンプルなNGSのシーケンスデータ(fastq、sam、bam)評価ツール。 インストール mac os 10.13 python2.7.14環境に導入した。 依存 Tested on Python 2.7, and 3.4 Tested on Mac OS 10.10 and Linux 2.6.18 Numpy, Scipy, and Matplotlib samtools …

fastq-dumpを並列化した pfastq-dump

pfastq-dumpは、Ohtaさんが公開されているfastq-dumpを並列処理するbashスクリプト。Sequence Read Archive(wiki)からダウンロードされたシーケンスデータ(SRAフォーマット )をfastq-dumpの並列処理で素早くfastqに変換することができる。 インストール …

fastqから素早くインサートサイズを計算する

bamファイルをすでに作っているなら、ペアエンドのインサートサイズはPicard-tools等ですぐ出せますが、raw fastqしかない時にいちいちbamにして求めるのは少し面倒です。ワンランナーで出すスクリプト書きました。好みにあわせて修正して使ってください。手…

Y染色体由来リードをエンリッチする RecoverY

ハプロイド哺乳動物Y染色体配列は、大規模な次世代配列決定(NGS)プロジェクトではいくつかの理由により適切に組み立てられないことが多い。 Yは女性には存在せず、男性に1コピーのみ存在する。したがって、所望のシーケンスデプスを得るためには、2倍シー…

オーバーラップするペアエンドリードをマージする PEAR

PEARはオーバーラップするペアエンドリードをマージするツール。フラグメントサイーズがリード長x2より小さい場合、ペアエンドリード間にオーバーラップが存在する。PEARはこのオーバーラップ領域を認識してマージするツールとなる。 公式ページ https://sco…

シーケンスデータからk-merスペクトラム分析を行う GenomeScope

ハイスループットシーケンシングにより、新規ゲノムのシーケンシングが日常的に可能になっている。しかしながら、これらのゲノムの最も基本的な特徴、例えばサイズまたはヘテロ接合率などは、最初は未知であり、例えばリードマッパー、デノボアセンブラ、SNP…

samやfastqの単純分割

リードの境目を気にせず、とにかくfastqやsamを分割したいという時は、splitコマンドが使いやすい。 --非圧縮ファイルの分割-- 100Mbずつ分割し、gzip圧縮して保存。 split -b 100m input output_ && gzip output_* 非圧縮出力で良いなら、&&の手前まででOK…

FASTA分析に使えるpythonライブラリ Goldilocks

Goldilocksは基準を満たす領域のさらなる解析を行うために設計されたPythonパッケージである。パッケージをスタンドアロンスクリプトにインポートするか、コマンドラインツールを使用して使用できる。(一部略)Goldilocksはもともと、複数のサンプルにわた…

FASTQ、BED、BAMを操作するNGSUtilsその3 fastqutils

3回目はfastqを操作するfastqutilsを紹介する。 インストール 公式ページ NGSUtils - bedutils git clone git://github.com/ngsutils/ngsutils.gitcd ngsutils/make #依存がインストールされる(詳細はwebマニュアル参照) $ fastqutils Usage: fastqutils …

大量のサンガーシーケンスやfastqを自動でクオリティフィルタリングする臨床向けツール ClinQC

ClinQCは、SangerおよびNGSシーケンシングデータの品質管理、フィルタリングおよびトリミングの統合パイプライン。臨床研究で数百から数千のサンプル/患者に対する サンガーのシーケンシングとNGSデータを分析し、サンプル/患者ごとに統一された分析レポート…

fastqの処理ツール fqtools

fqtoolsは 無効なファイルを識別しながら、FASTQファイルを処理できる、高速で信頼性の高いFASTQファイル操作ツール。自動解析パイプラインでの使用も視野に設計されている。 インストール 依存 makezlib is required for processing compressed (.gz) data.…

エラーを除去しながらペアリードをマージする CASPER

ペアエンドシーケンスからのフォワードリードとリバースリードのマージは、ゲノムアセンブリやマッピングなどのダウンストリームタスクのパフォーマンスを大幅に向上させる(インサートサイズの問題には触れない)。しかしエラー率はシーケンス限界が近づく…

FASTA/FASTQの操作ツール

情報が増えてきたので、これまで紹介してきたfasta、fastqの分析、変換(圧縮)、修復ツールをまとめておく。 アダプタートリミング trimming / preprocessing カテゴリー seqkit fastq / fastaの操作ツール seqkit seqtk fastq / fastaの操作ツール seqtk B…

FASTAやFASTQの塩基数をカウントする

インストール TECHOVERFLO((https://techoverflow.net)の公開しているpythonスクリプトを利用させてもらう。該当記事(リンク)からコピーして、ファイル名 fasta-stats.pyで保存。 "chmod u+x python fasta-stats.py"で実行権もつけておく。 > python fas…

並列化に対応したリファレンスベースのfastq圧縮ツール LW-FQZip2

fastqの圧縮の方法論にはいくつか種類があるが、その内の1つリファレンスベースの圧縮ツールは、シーケンスデータをそのまま圧縮するのではなく、リファンレスとの位置合わせ結果を記録する方法論である。そのために、リファレンスにリードをアライメントし…

454とSOLIDのfastqで高いロスレス圧縮を行う LFQC

高い圧縮率を示すfastqの圧縮ツール。圧縮率が高いだけあって時間はかかるが、1/10ほどのサイズの圧縮ファイルを作ることができる(ロスレス)。 インストール cent OSに導入した。 環境 Unix system with at least 4gb of RAM (preferably 8) Ruby 本体 Git…

Mulit-FASTAの分割 (split)

2018 10/26追記 BBtoolsを使うと簡単にマルチFASTAを分割できる(BBtools)。 user$ partition.sh Written by Brian Bushnell Last modified June 16, 2016 Description: Splits a sequence file evenly into multiple files. Usage: partition.sh in=<file> in2=<file2> </file2></file>…

高速なk-merカウントツール KMC3

KMCは高速なk-merカウントの方法論。初代KMC、KMC2、KMC3が発表されている。ここではversion3のKMC3について記載する。ヒトゲノムの619GBのgz圧縮fastqを89分で分析できたと書かれている(2.3GHzの12コア、HDD2台のストライピング読み書き)(注1)。 インス…

異なるk-merの割合を計算してエラー率推定やゲノムサイズ推定ができる KmerStream

KmerStreamは異なるk-merの数を計算する方法論。シーケンス業者のクオリティに依存せず純粋にk-merの頻度からエラー率を見積もることができるため、上手く使えばシーケンスの品質管理などに使用することができる。サンプリングを行うためメモリ使用量が少な…

fastqのクオリティスコアをASCII +64からASCII +33に変換する。

BBtoolsのreformat.shを使えば、ASCII+64でクオリティスコアを計算しているfastqをASCII+33に変換することができる。 シングルリード reformat.sh in=input.fq out=output_phred33.fq qin=64 qout=33 ペアリード reformat.sh in1=input1.fq in2=input2.fq ou…