bamのユーティリティツール fxtools

インストール ubuntu16.0.4でテストした。本体 Github git clone https://github.com/yangao07/fxtools.git --recursivecd fxtools; make > ./fxtools $ fxtools Program: fxtools (light-weight processing tool for FASTA, FASTQ and BAM format data) Us…

2019-07-22

fasta/fastqのlow complexity領域をマスクする komplexity

fasta/fastqの操作 mask low complexity

komplexityはFAST [A / Q]ファイルから複雑度の低いシーケンスをすばやく計算および/またはマスクするために開発された。複雑さを評価するために、長さで割ったシーケンス上の一意のk-mer値を使用する。例えばk = 4の場合、正規化複雑度スコアが<0.55である…

2019-07-19

アンプリコンシーケンスのペアエンドリードマージツール MeFiT

2016 BMC Bioinformatics amplicon sequence fasta/fastqの操作 quality check

次世代シークエンシング技術は,その開始以来,研究者が複雑なシステムから多面的な生物学的情報を抽出する方法を変え、ヒト疾患,環境科学、進化科学などの分野における研究を促進してきた。16S rRNA小サブユニット遺伝子、またはより一般的にはその一部のシー…

2019-07-15

illuminaと454の前処理ツール seqyclean

2017 Conference Paper fasta/fastqの操作 quality check contamination

最新のハイスループットシーケンス機器は大量のデータを生するが、これにはシーケンスエラー、シーケンスアダプタ、汚染されたリードなどのノイズが含まれていることがよくある。このノイズはゲノミクス研究を複雑にする。シーケンスノイズを減らすために多…

2019-07-10

様々なフォーマットのシーケンスファイルを素早くFASTA形式に変換する any2fasta

fasta/fastqの操作 format conversion assembly graph multiple sequence alignment (MSA) GFA

any2fastaは様々なフォーマットのシーケンスファイルをFASTAフォーマットに変換するperlスクリプトである。他の依存関係はなしにコアのPerlモジュールのみを使用する。非常に高速に実行する。（公開の動機はGithub参照）以下のフォーマットをサポートしてい…

2019-07-03

アセンブリの前処理としてロングリードのキメラ領域（低オーバーラップ領域）を除く yacrd

2019 Preprint fasta/fastqの操作 filtering Nanopore long read Pacbio trimming / preprocessing 高速なツール 2020 Bioinformatics

2019 コマンドの誤り修正 2020 3/30 バージョンによるコマンドの違いを記載 2020 3/31 version0.6.0のコマンドを一番下に追記 2020 4/23 論文追記第三世代DNAシーケンシング法（PacBio、オックスフォードナノポア）は、リファレンスゲノムの構築（デノボア…

2019-03-10

illuminaのショートリードシミュレータ Sandy（RNA seqにも対応）

simulator RNA seq fasta/fastqの操作

Sandyは、与えられたfastaファイルからシングルエンド/ペアエンドのリードを生成するシンプルなバイオインフォマティックツールである。多くの次世代シーケンシング分析は、実際には正確には満足されていない仮説モデルおよび原理に依存している。ポジティブ…

2019-03-07

高速かつ高効率にシーケンスデータを圧縮 / 解凍する NAF

2019 Compression / decompression Bioinformatics 高速なツール fasta/fastqの操作 Nanopore direct RNA-seq

2019 3/9 twitterコメント追記 Preprintより DNA配列データベースは、シーケンシング技術の継続的な進歩により、指数関数的に成長している。通常、データ圧縮は保存スペースを節約するためにすべての保存DNAシーケンシングデータに使用される。1993年に最初…

2019-02-26

効率的にペアエンドfastqを同期する Fastq-pair

2019 Preprint fasta/fastqの操作高速なツール

2019 2/26 テストラン追加 2019 7/10 コメント追加 Fastqフォーマットのファイルは、シーケンスと品質の両方の情報を1つのファイルにまとめて含むため、DNAシーケンスを共有するための主要なファイルフォーマットとなっている（ref.1）。さらに、オーバーラ…

2019-02-02

In vitro合成用にゲノムを分割する Genome Partitioner

2017 PLoS ONE 合成生物学 web tool fasta/fastqの操作

40年以上前に制限エンドヌクレアーゼが発見されて初めて使用されて以来、DNAを単一および複数のコンストラクトに組み立てる能力が分子生物学を推進してきた[論文より ref.1]。過去10年間で、合成生物学の分野を形作り、ゲノム規模の生物学的オペレーティング…

2019-01-29

16S/18S rRNAのV1~V9領域の配列を取り出す V-Xtractor

2010 Journal of Microbiological Methods rRNA fasta/fastqの操作 family trios

V-Xtractorは、隠れマルコフモデルを使用して、16S/18S rRNAの定義済みの超可変配列セグメント（V1〜V9）を検索、検証、および抽出する。99.6％の検出効率と低い偽陽性感受性により、このツールはデータの信頼性を向上させ、その後のコミュニティアッセイで…

2019-01-25

リアルデータから学習したエラープロファイルを割り当てるペアエンドマージツール NGmerge

2018 BMC Bioinformatics fasta/fastqの操作

ハイスループットDNAシーケンス技術の中で、Solexa / Illuminaプラットフォーム[ref.1]は、1回の実行で最大量のシーケンスデータを作成する[ref.2]。この技術の1つのユニークな特質は、与えられたDNA分子の両端からシーケンスリードを生成するその能力である…

2018-12-20

seqkitに新しく追加されたコマンドを確認する

2016 PLoS ONE fasta/fastqの操作

2019 8/7 誤字修正 2023/01/20 translate help更新 seqkitを以前ブログで紹介した時は0..6.0でしたが、１年半近く経ち、2018年12月20日現在ではバージョンが0.9.4まで上がっています。ありがたいことに、bug fixだけでなく、新しいコマンドが複数追加されて…

2018-12-16

ロングリードの分析とフィルタリングを行う pauvre

結果の視覚化 (visualization) Nanopore long read Pacbio fasta/fastqの操作 evaluation tool trimming / preprocessing

2020 2/16 tweet追記、タイトル修正 pauvreはdarrin t schultzさんがGithubに公開されている第三世代ロングリード分析用のユーティリティツール。低クオリティなリードのフィルタリング機能も備えている。 I just updated the pauvre package to make some f…

2018-12-13

FASTQの圧縮/解凍を行う Spring

2018 Bioinformatics Compression / decompression fasta/fastqの操作

過去数年間に生産されたゲノムデータの量は、主に高スループットシーケンシング（HTS）技術の向上とゲノムのシーケンシングコストの削減によって大幅に増加した。ヒトに対する単一のゲノムシーケンシング実験は、典型的には数億のショートリード（長さ100〜1…

2018-12-03

RNA seqシーケンシングデータの包括的な前処理ツール FastqPuri

Preprint RNA seq quality check filtering fasta/fastqの操作高速なツール rRNA contamination 結果の視覚化 (visualization) flowcell

2018 12/3 図差し替え 2019 6/18 condaインストール追記 2019 6/21 コマンド追記 2019 10/23引用追記 2020 1/7 インストール追記 2020 12/9 my docker imageのラン手順修正 RNA-seq実験から正確な結果を得るには、前処理ステップでのクオリティチェック（QC…

2018-12-02

fastaのフォーマットを変換したり、指定サイズを取り出す seqmajic

fasta/fastqの操作 format conversion

Documentation https://seqmagick.readthedocs.io/en/latest/ 対応フォーマット拡張子によってフォーマットが自動認識される。インストール mac os10.14の miniconda3-5.0環境でテストした。依存 Python >= 3.4 biopython >= 1.70 本体 Github #Anaconda…

2018-12-01

ペアエンドfastqをマージする flash2

fasta/fastqの操作 2011 Bioinformatics amplicon sequence

DNAシーケンシング技術の急速な低下に伴い、デノボ全ゲノムシーケンシング（WGS）プロジェクトは新しいゲノムについて非常に深いカバレッジを生み出している。しかし、これらの技術による高いカバレッジとゲノムアセンブリアルゴリズム（Gnerre et al、2011;…

2018-11-29

アダプタートリミング、クオリティトリミング、ペアエンドのマージを一括して行う ClipAndMerge

trimming / preprocessing fasta/fastqの操作

ClipAndMergeはAlexander PeltzerさんがGithubで公開されている、アダプタートリミング、クオリティトリミング、ペアエンドのマージを一括して行ってくれるツール。ワンライナーでマージしたfastq出力を得ることができる。インストール mac os10.14のminico…

2018-10-10

アダプタートリミングツール illumiprocessor

trimming / preprocessing 高速なツール fasta/fastqの操作

2018 10/11 コードの誤り修正 Illumiprocessorは、illuminaのSEとPEのシーケンシングリードからアダプターのコンタミネーションをトリミングするツール。 double-indexのリードのトリミングができる。 scytheとsickle（v1.xで使用）よりtrimmomatiを使った方…

2018-10-05

複数ゲノムへマッピングして、コンタミの可能性を探ったりフィルタリングを行う FastQ Screen

filtering contamination quality check fasta/fastqの操作

DNAシーケンシング解析では、通常、リードはただ1つのリファレンスゲノムにマッピングされる。しかしながら、起源となるゲノムの確認を必要とする場合、複数のゲノムに対するマッピングが必要である。複数のゲノムに対するマッピングは、汚染を検出するた…

2018-09-25

インタラクティブなDNA配列の２次元プロットを作成する Squiggle

2018 Bioinformatics fasta/fastqの操作 library 2D graphical representation of DNA 結果の視覚化 (visualization) web tool

次世代シークエンシング技術の登場により、DNA配列解析は、バイオインフォマティクスと生物学の両方でますます一般的なツールとなっている。この理由から、注釈されていないDNA配列を迅速に検査する能力は極めて重要である。しかし、FASTAファイルに含まれる…

2018-09-15

fastqの配列をランダムに変化させる fastq-anonymous

fasta/fastqの操作

インストール mac os10.13のPython 3.6.2 :: Anaconda 3-5.0.0 でテストした。本体 GIthub pip install fastq-anonymous#Anaconda環境ならconda install -c bioconda fastq-anonymous > fastq-anonymous -h $ fastq-anonymous -h usage: fastq-anonymous [-…

2018-09-02

バクテリアのシーケンシングデータ分析ツール GenomePeek

2015 PeerJ metagenome bacteria fasta/fastqの操作 assembly contamination web tool GUIツール

シーケンシングコストが低下するにつれて、バクテリアゲノムの配列が増加している。現在、NCBI（Benson et al、2009; Sayers et al、2009）、SEEDデータベース（Overbeek、Disz＆Stevens、2004）には約15,000種類の原核生物ゲノムがあり、約75,000種類のアセ…

2018-08-28

アセンブリの簡単なstatisticsを出力する assembly-stats

assembly fasta/fastqの操作 evaluation tool

assembly-statsはsanger-pathogensのGithubレポジトリで公開されているアセンブリ配列の簡単な要約統計を出力するツール。インストール mac os10.13でテストした。本体 Github #condamamba install -c bioconda assembly-stats -y ラン fastaファイルを指…

2018-08-23

mauveを使いcontigをリファレンスfasta順に並べ替える

ゲノム比較 (comparative genomics) fasta/fastqの操作 GUIツール

2019 6/11追記 http://darlinglab.org/mauve/user-guide/reordering.html より。インストール mac os 10.13でテストした。 mauveのHPからインストーラーをダウンロードする。 http://darlinglab.org/mauve/download.html ラン 1、起動したらメニューのTools…

2018-08-22

review article要約　SNPs callingビギナーズガイド

2012 初心者向け review SNV mapping format fasta/fastqの操作 bam/sam VCF human exome

8/24 誤字修正 A beginners guide to SNP calling from high-throughput DNA-sequencing data （Andre ́ Altman et al., 2012）よりハイスループットDNAシークエンシング（HTS）は、ライフサイエンスにおいてますます重要になっている。その最も顕著な用途…

2018-06-29

bam, fastqのユーティリティツール EA-Utils

bam/sam fasta/fastqの操作 trimming / preprocessing demultiplexing

2019 9/8 インストール追記 2013年のペーパーよりハイスループットシーケンシング（HTS）は、シーケンシングデータの急速な成長率をもたらした。著者らのラボでは、毎日テラバイトのデータを生成している。これは通常、バリアントコーラー、定量およびア…

2018-06-24

fasta、fastqの簡単なstatisticsを出す Seqstats

fasta/fastqの操作

SeqstatsはHeng Li（wiki）の優れたklibライブラリを使い、Cで書かれたツール。シーケンスリード、リファレンスゲノムおよびアセンブリファイルの一般的な要約統計情報を提供する。 gzipまたはプレーンのfastqおよびfastaファイルを読み込むことができる。 …

2018-06-22

シンプルなfastq、sam、bamの分析ツール fastqp　

fasta/fastqの操作 bam/sam 結果の視覚化 (visualization)

fastqpはシンプルなNGSのシーケンスデータ（fastq、sam、bam）評価ツール。インストール mac os 10.13 python2.7.14環境に導入した。依存 Tested on Python 2.7, and 3.4 Tested on Mac OS 10.10 and Linux 2.6.18 Numpy, Scipy, and Matplotlib samtools …

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

fasta/fastqの操作

fasta/fastq/bamのユーティリティツール fxtools

fasta/fastqのlow complexity領域をマスクする komplexity

アンプリコンシーケンスのペアエンドリードマージツール MeFiT

illuminaと454の前処理ツール seqyclean

様々なフォーマットのシーケンスファイルを素早くFASTA形式に変換する any2fasta

アセンブリの前処理としてロングリードのキメラ領域（低オーバーラップ領域）を除く yacrd

illuminaのショートリードシミュレータ Sandy（RNA seqにも対応）

高速かつ高効率にシーケンスデータを圧縮 / 解凍する NAF

効率的にペアエンドfastqを同期する Fastq-pair

In vitro合成用にゲノムを分割する Genome Partitioner

16S/18S rRNAのV1~V9領域の配列を取り出す V-Xtractor

リアルデータから学習したエラープロファイルを割り当てるペアエンドマージツール NGmerge

seqkitに新しく追加されたコマンドを確認する

ロングリードの分析とフィルタリングを行う pauvre

FASTQの圧縮/解凍を行う Spring

RNA seqシーケンシングデータの包括的な前処理ツール FastqPuri

fastaのフォーマットを変換したり、指定サイズを取り出す seqmajic

ペアエンドfastqをマージする flash2

アダプタートリミング、クオリティトリミング、ペアエンドのマージを一括して行う ClipAndMerge

アダプタートリミングツール illumiprocessor

複数ゲノムへマッピングして、コンタミの可能性を探ったりフィルタリングを行う FastQ Screen

インタラクティブなDNA配列の２次元プロットを作成する Squiggle

fastqの配列をランダムに変化させる fastq-anonymous

バクテリアのシーケンシングデータ分析ツール GenomePeek

アセンブリの簡単なstatisticsを出力する assembly-stats

mauveを使いcontigをリファレンスfasta順に並べ替える

review article要約　SNPs callingビギナーズガイド

bam, fastqのユーティリティツール EA-Utils

fasta、fastqの簡単なstatisticsを出す Seqstats

シンプルなfastq、sam、bamの分析ツール fastqp