macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

fasta/fastqの操作

FASTQの圧縮/解凍を行う Spring

過去数年間に生産されたゲノムデータの量は、主に高スループットシーケンシング(HTS)技術の向上とゲノムのシーケンシングコストの削減によって大幅に増加した。ヒトに対する単一のゲノムシーケンシング実験は、典型的には数億のショートリード(長さ100〜1…

RNA seqシーケンシングデータの包括的な前処理ツール FastqPuri

2018 12/3 図差し替え 2019 6/18 condaインストール追記 2019 6/21 コマンド追記 2019 10/23引用追記 2020 1/7 インストール追記 2020 12/9 my docker imageのラン手順修正 RNA-seq実験から正確な結果を得るには、前処理ステップでのクオリティチェック(QC…

fastaのフォーマットを変換したり、指定サイズを取り出す seqmajic

Documentation https://seqmagick.readthedocs.io/en/latest/ 対応フォーマット 拡張子によってフォーマットが自動認識される。 インストール mac os10.14の miniconda3-5.0環境でテストした。 依存 Python >= 3.4 biopython >= 1.70 本体 Github #Anaconda…

ペアエンドfastqをマージする flash2

DNAシーケンシング技術の急速な低下に伴い、デノボ全ゲノムシーケンシング(WGS)プロジェクトは新しいゲノムについて非常に深いカバレッジを生み出している。しかし、これらの技術による高いカバレッジとゲノムアセンブリアルゴリズム(Gnerre et al、2011;…

アダプタートリミング、クオリティトリミング、ペアエンドのマージを一括して行う ClipAndMerge

ClipAndMergeはAlexander PeltzerさんがGithubで公開されている、アダプタートリミング、クオリティトリミング、ペアエンドのマージを一括して行ってくれるツール。ワンライナーでマージしたfastq出力を得ることができる。 インストール mac os10.14のminico…

アダプタートリミングツール illumiprocessor

2018 10/11 コードの誤り修正 Illumiprocessorは、illuminaのSEとPEのシーケンシングリードからアダプターのコンタミネーションをトリミングするツール。 double-indexのリードのトリミングができる。 scytheとsickle(v1.xで使用)よりtrimmomatiを使った方…

複数ゲノムへマッピングして、コンタミの可能性を探ったりフィルタリングを行う FastQ Screen

DNAシーケンシング解析では、通常、リードはただ1つのリファレンスゲノムにマッピングされる。 しかしながら、起源となるゲノムの確認を必要とする場合、複数のゲノムに対するマッピングが必要である。 複数のゲノムに対するマッピングは、汚染を検出するた…

インタラクティブなDNA配列の2次元プロットを作成する Squiggle

次世代シークエンシング技術の登場により、DNA配列解析は、バイオインフォマティクスと生物学の両方でますます一般的なツールとなっている。この理由から、注釈されていないDNA配列を迅速に検査する能力は極めて重要である。しかし、FASTAファイルに含まれる…

fastqの配列をランダムに変化させる fastq-anonymous

インストール mac os10.13のPython 3.6.2 :: Anaconda 3-5.0.0 でテストした。 本体 GIthub pip install fastq-anonymous#Anaconda環境ならconda install -c bioconda fastq-anonymous > fastq-anonymous -h $ fastq-anonymous -h usage: fastq-anonymous [-…

バクテリアのシーケンシングデータ分析ツール GenomePeek

シーケンシングコストが低下するにつれて、バクテリアゲノムの配列が増加している。現在、NCBI(Benson et al、2009; Sayers et al、2009)、SEEDデータベース(Overbeek、Disz&Stevens、2004)には約15,000種類の原核生物ゲノムがあり、約75,000種類のアセ…

アセンブリの簡単なstatisticsを出力する assembly-stats

assembly-statsはsanger-pathogensのGithubレポジトリで公開されているアセンブリ配列の簡単な要約統計を出力するツール。 インストール mac os10.13でテストした。 本体 Github #Anaconda環境ならcondaでインストールできるconda install -c bioconda assem…

mauveを使いcontigをリファレンスfasta順に並べ替える

2019 6/11追記 http://darlinglab.org/mauve/user-guide/reordering.html より。 インストール mac os 10.13でテストした。 mauveのHPからインストーラーをダウンロードする。 http://darlinglab.org/mauve/download.html ラン 1、起動したらメニューのTools…

review article要約 SNPs callingビギナーズガイド

8/24 誤字修正 A beginners guide to SNP calling from high-throughput DNA-sequencing data (Andre ́ Altman et al., 2012)より ハイスループットDNAシークエンシング(HTS)は、ライフサイエンスにおいてますます重要になっている。その最も顕著な用途…

bam, fastqのユーティリティツール EA-Utils

2019 9/8 インストール追記 2013年のペーパーより ハイスループットシーケンシング(HTS)は、シーケンシングデータの急速な成長率をもたらした。 著者らのラボでは、毎日テラバイトのデータを生成している。 これは通常、バリアントコーラー、定量およびア…

fasta、fastqの簡単なstatisticsを出す Seqstats

SeqstatsはHeng Li(wiki)の優れたklibライブラリを使い、Cで書かれたツール。 シーケンスリード、リファレンスゲノムおよびアセンブリファイルの一般的な要約統計情報を提供する。 gzipまたはプレーンのfastqおよびfastaファイルを読み込むことができる。 …

シンプルなfastq、sam、bamの分析ツール fastqp 

fastqpはシンプルなNGSのシーケンスデータ(fastq、sam、bam)評価ツール。 インストール mac os 10.13 python2.7.14環境に導入した。 依存 Tested on Python 2.7, and 3.4 Tested on Mac OS 10.10 and Linux 2.6.18 Numpy, Scipy, and Matplotlib samtools …

fastq-dumpを並列化した pfastq-dump

2018 11/25 誤字修正 2019 12/18 インストール手順修正、コマンド実行手順追加 pfastq-dumpは、Ohtaさんが公開されているfastq-dumpを並列処理するpythonスクリプトparallel-fastq-dumpのbash実装バージョン。Sequence Read Archive(wiki)からダウンロード…

fastqから素早くインサートサイズを計算する

bamファイルをすでに作っているなら、ペアエンドのインサートサイズはPicard-tools等ですぐ出せますが、raw fastqしかない時にいちいちbamにして求めるのは少し面倒です。ワンランナーで出すスクリプト書きました。好みにあわせて修正して使ってください。手…

Y染色体由来リードをエンリッチする RecoverY

ハプロイド哺乳動物Y染色体配列は、大規模な次世代配列決定(NGS)プロジェクトではいくつかの理由により適切に組み立てられないことが多い。 Yは女性には存在せず、男性に1コピーのみ存在する。したがって、所望のシーケンスデプスを得るためには、2倍シー…

オーバーラップするペアエンドリードをマージする PEAR

2019 5/20 condaインストールおよび引用追記、コメント削除 PEARはオーバーラップするペアエンドリードをマージするツール。フラグメントサイーズがリード長x2より小さい場合、ペアエンドリード間にオーバーラップが存在する。PEARはこのオーバーラップ領域…

シーケンスデータからk-merスペクトラム分析を行う GenomeScope

2019 3/5 インストール追記、コマンドのわかりにくい部分を修正 2019 5/14 リンク追加 2019 5/27 docker追加、オプションヘルプ追加 2019 8/27 twitter追記 ハイスループットシーケンシングにより、新規ゲノムのシーケンシングが日常的に可能になっている。…

samやfastqの単純分割

2020 3/20 コマンド修正 リードの境目を気にせず、とにかくfastqやsamを分割したいという時は、splitコマンドが使いやすい。fastqを認識して正しく分けるならseqkit split(紹介)を使う。 --非圧縮ファイルの分割-- 1000MB (1GB) ずつ分割し、gzip圧縮して…

FASTA分析に使えるpythonライブラリ Goldilocks

Goldilocksは基準を満たす領域のさらなる解析を行うために設計されたPythonパッケージである。パッケージをスタンドアロンスクリプトにインポートするか、コマンドラインツールを使用して使用できる。(一部略)Goldilocksはもともと、複数のサンプルにわた…

FASTQ、BED、BAMを操作するNGSUtilsその3 fastqutils

3回目はfastqを操作するfastqutilsを紹介する。 インストール 公式ページ NGSUtils - bedutils git clone git://github.com/ngsutils/ngsutils.gitcd ngsutils/make #依存がインストールされる(詳細はwebマニュアル参照) $ fastqutils Usage: fastqutils …

大量のサンガーシーケンスやfastqを自動でクオリティフィルタリングする臨床向けツール ClinQC

ClinQCは、SangerおよびNGSシーケンシングデータの品質管理、フィルタリングおよびトリミングの統合パイプライン。臨床研究で数百から数千のサンプル/患者に対する サンガーのシーケンシングとNGSデータを分析し、サンプル/患者ごとに統一された分析レポート…

fastqの処理ツール fqtools

fqtoolsは 無効なファイルを識別しながら、FASTQファイルを処理できる、高速で信頼性の高いFASTQファイル操作ツール。自動解析パイプラインでの使用も視野に設計されている。 インストール 依存 makezlib is required for processing compressed (.gz) data.…

エラーを除去しながらペアリードをマージする CASPER

ペアエンドシーケンスからのフォワードリードとリバースリードのマージは、ゲノムアセンブリやマッピングなどのダウンストリームタスクのパフォーマンスを大幅に向上させる(インサートサイズの問題には触れない)。しかしエラー率はシーケンス限界が近づく…

FASTA/FASTQ関係のツールまとめ

随時更新 情報が増えてきたので、これまで紹介してきたfasta、fastqの分析、変換(圧縮)、修復ツールをまとめておく。 アダプタートリミング trimming / preprocessing カテゴリー seqkit fastq / fastaの操作ツール seqkit seqkitに最近追加されたコマンド…

FASTAやFASTQの塩基数をカウントする

インストール TECHOVERFLO((https://techoverflow.net)の公開しているpythonスクリプトを利用させてもらう。該当記事(リンク)からコピーして、ファイル名 fasta-stats.pyで保存。 "chmod u+x python fasta-stats.py"で実行権もつけておく。 > python fas…

並列化に対応したリファレンスベースのfastq圧縮ツール LW-FQZip2

fastqの圧縮の方法論にはいくつか種類があるが、その内の1つリファレンスベースの圧縮ツールは、シーケンスデータをそのまま圧縮するのではなく、リファンレスとの位置合わせ結果を記録する方法論である。そのために、リファレンスにリードをアライメントし…