タンパク質の要約統計を出力するEMBOSSのpepstatsコマンド

EMBOSSのpepstatsは、1つ以上のタンパク質配列からタンパク質の特性に関する様々な統計情報を出力する。 emboss pepstats https://emboss.sourceforge.net/apps/cvs/emboss/apps/pepstats.html インストール conda|mambaやbrewで導入できる。 #biocondamamba…

2023-12-14

fastpの新機能

2023 iMeta fasta/fastqの操作

fastpは既に5000回以上引用されている（PubMedより）人気のシークエンシングデータの前処理ツールだが、最近のアップグレード（*1）でいくつか新機能が追加された。新機能を簡単に確認しておく。インストール iMetaの論文ではv0.23.2が最新のバージョンのfa…

2023-08-12

完全な環状ゲノムの開始位置（+1）を素早く変更する Dnaapler

oriC fasta/fastqの操作 circular

レポジトリより（一部改変） Dnaaplerはシンプルなpythonプログラムで、一塩基の入力配列（FASTA形式）を受け取り、アミノ酸配列データベースに対してblastxを用いて目的の開始遺伝子を見つけ、この遺伝子の開始コドンが見つかったかどうかをチェックし、見…

2023-08-08

FASTAおよびFASTQファイルを大規模処理する BigSeqKit

2023 GigaScience 高速なツールインフォマティクス解析をサポートするツール docker fasta/fastqの操作

ハイスループットシーケンス技術により、利用可能なシーケンスデータの量はかつてないほど爆発的に増加しており、それらは通常FASTAファイルやFASTQファイルとして保存されている。配列データを生物学的知識に変換する目的で、この種のファイルを処理・操作…

2023-07-04

ライフサイエンスのための包括的なフォーマットコンバーター BioConvert

2023/07/04 追記バイオインフォマティクスは、長年にわたって開発されてきた数多くの標準やフォーマットで知られる分野である。このフォーマットの多さは時に補完的であり、しばしば冗長であるため、バイオインフォマティクスのデータ解析者に多くの課題を…

2023-05-25

latf-loadコマンド

tips fasta/fastqの操作 DRA SRA

シークエンシングデータなどをDDBJのファイルサーバにアップしてDRAの登録申請を行う場合、D-wayのDRAで情報を記載後に実行する自動validationのステップがあります。このプロセスでは、ファイル受付サーバからのシークエンシングデータのロードにSRA Toolki…

2023-05-17

ロングリードシーケンスデータを評価する NanoPack2

2023 Bioinformatics Nanopore long read bam/sam fasta/fastqの操作 quality check

ロングリードシーケンスプロジェクトにおけるコホートサイズの増加により、Oxford Nanopore TechnologiesとPacific Biosciencesのシーケンスデータの品質評価と処理のためのより効率的なソフトウェアが必要とされている。ここでは、実験の要約、データセット…

2023-05-02

配列ファイルを堅牢かつ再現性よく操作するためのユーティリティ群 SeqFu

Bioengineering 2021 Nim fasta/fastqの操作 quality check

配列ファイル形式（FASTAおよびFASTQ）は、バイオインフォマティクス、分子生物学、生化学の分野でよく使用されている。次世代シーケンサー（NGS）の登場により、FASTQデータセットの作成・解析数は飛躍的に増加しており、これらのファイルを効率的に取り扱…

2023-04-18

オーバーラップしたペアエンドリードを使用して実際のエラー率を計算する fraguracy

fasta/fastqの操作 error profile

レポジトリより fraguracyは、フラグメント内のオーバーラップしたペアエンドリードを使用して、実際のエラーレートを計算する。エラーの位置と数、リード位置、リード方向（FまたはR）、塩基品質によるエラーの要約をファイルとして出力する。オーバーラッ…

2023-02-12

fastqのためのgrepコマンド fqgrep

高速なツール fasta/fastqの操作

fqgrep ユーティリティは、任意の入力 FASTQ ファイルを検索し、塩基が 1 つ以上のパターンに一致するレコードを検索する。 grep, but for FASTQS, but now more grep-likeWe've done a lot of work @fulcrumgenomics to try emulate grep, but for FASTQs. …

2023-02-11

全ゲノムシークエンスデータのデジタル正規化を行う ROCK

JOSS 2022 normalize fasta/fastqの操作 SARS-CoV-2

ROCK (Reducing Over-Covering K-mers) は、デジタル正規化法 (Brown et al. 2012, Wedemeyer et al. 2017, Durai and Schulz 2019 など) の代替実装を実行するC++で書かれたコマンドライン・プログラムである。ROCKの主な目的は、1つまたは複数のFASTQファ…

2022-10-26

複数の配列（multi-fastaファイルなど）を１つに配列に結合するEMBOSSのunionコマンド

fasta/fastqの操作

EMBOSSのunionコマンドを使うと、複数の配列を読み込み、それらを連結して1つの配列として書き出すことができます。 EMBOSS union https://emboss.sourceforge.net/apps/cvs/emboss/apps/union.html multi fastaファイルを指定する。 union -filter mulit-se…

2022-10-25

BAM/SAM/CRAM、VCF、FASTQ、GFF3の効率的な圧縮器 genozipのバージョン14アップデート

2022 Preprint Compression / decompression fasta/fastqの操作 bam/sam Dual coordinate VCF

2022/12/05, 06 HP更新 Genozip は、広く利用されている FASTQ、BAM、VCF ファイル形式を含む、幅広いゲノムデータの圧縮を行う。ここでは、BAMおよびCRAMファイルの圧縮に焦点を当てた、Genozip技術の最新の進歩を紹介する。様々な種類の研究（全ゲノムシー…

2022-09-19

Demultiplexingを行う fgbioのDemuxFastqsコマンド

demultiplexing fasta/fastqの操作 Genomics Inform 2018 barcode / index UMI

fgbioはディープシーケンシングデータを扱うためのコマンドラインツールキット。リードレベルのデータ（FASTQ、SAM、BAMなど）やバリアントレベルのデータ（VCF、BCFなど）を操作する。特に次のようなものを提供することに重点を置いている（Githubより）。 …

2022-03-14

seqkitに新しく追加されたコマンドを確認する其の２

tips primer 2016 PLoS ONE fasta/fastqの操作 bam/sam circular

2022/03/14追記これまで数回に分けてseqkitのコマンドを紹介して来ましたが（リンク）、バージョンアップが続いていて、ありがたいことに新しいコマンドも追加されています（谢谢您）。久しぶりに新機能を確認してみます。この記事を書いたすぐ後にv2.2が…

2021-08-08

HTSデータを扱う様々なツールをGUIインターフェースで統合した TBtools

DNA解析ソフト GUIツール reciprocal best hit BLAST dot plot sequence comparison RACE genome walking fasta/fastqの操作ゲノム比較 (comparative genomics) synteny_block GO term KEGG 2020 Molecular Plant 2018 Preprint

ハイスループットシーケンス（HTS）データからの情報マイニング用にさまざまなソフトウェアまたはパイプラインが開発されているが、それらのほとんどは、ほとんどの生物学者が馴染みのないプログラミングおよびコマンドライン環境に依存している。ユーザー…

2021-07-10

ショートリードまたはロングリードのシーケンスデータからウイルスや微生物を迅速に同定する fastv

2021 Briefings in Bioinformatics SARS-CoV-2 Viruses metagenome 高速なツール生物種の推定 (taxonomic profiling) filtering trimming / preprocessing fasta/fastqの操作

本論文では、ショートリードまたはロングリードのシーケンスデータからウイルスや微生物を迅速に同定するためのツールセットと関連リソースを紹介する。fastvは、シーケンシングデータ中に存在する微生物の配列を検出し、対象となる微生物を同定し、微生物ゲ…

2021-06-17

ターゲット配列に関係するシークエンシングリードを集めるMIRAのmirabaitコマンド

tips filtering fasta/fastqの操作

MIRAbait: 256bpまでのkmerのための「grep」のようなツール mirabaitは、リードコレクションの中から、ターゲットベイトとして定義された配列と部分的に類似した、あるいは等しいリードを選択する。類似性とは、ベイト配列と選択されるスクリーニング配列の…

2021-06-01

pyfastaを使ってコンティグを重複ありで分割する

fasta/fastqの操作 Overlap-layout-consensus (OLC) tips

メタゲノムのアセンブリでは、アセンブリの連続性を高めるために、最初のメタゲノムアセンブリ配列を重複付きで分割して、OLCアセンブラの入力として使用することがある（例えばOPERA-MSやminimus2）。この重複ありのcontigの分割には、pyfastaのsplitコマン…

2021-05-26

fastqをソートして扱いやすくする BBMapパッケージのClumpify

fasta/fastqの操作

HPより https://jgi.doe.gov/data-and-tools/bbtools/bb-tools-user-guide/clumpify-guide/ Clumpifyは、オーバーラップしているリードを迅速にグループ化して塊にするためのツールです。これにより、ファイルの圧縮率を高めたり、オーバーラップベースのア…

2020-11-01

データベースのFASTAファイルをBLASTでのアラインメントに適した小さな断片に分割する AlignBucket

2015 Bioinformatics fasta/fastqの操作 database BLAST

次世代シークエンシング時代では、増え続ける生物学的配列やそのバリエーションを正確にアノテーションするための信頼性の高い、高速かつ効率的なアプローチが求められている。類似性検索に基づくアノテーションのtransferは、標準的なアプローチである。全…

2020-10-04

核酸配列をアミノ酸配列に翻訳する gotranseq

fasta/fastqの操作

gotranseqは核酸配列を対応するペプチド配列に翻訳する。EMBOSS transeqと似ているが、goで書かれている。 EMBOSS transeq は素晴らしいツールだが、':' のような文字が含まれている場合はシーケンス ID を黙って切り捨てたり、'|' のような文字が含まれてい…

2020-09-25

Multi FASTAのGC含量や長さを表示する EMBOSSのinfoseqコマンド

fasta/fastqの操作 GC

EMBOSSパッケージのinfoseq は、1 つ以上の入力配列に関する基本情報を画面上に表示する。これには、Uniform Sequence Address (USA)、名前、アクセッション番号、タイプ（核酸またはタンパク質）、長さ、C+Gの割合、および説明が含まれる。オプションでHTML…

2020-09-15

fastqのクオリティ分析を行う Quack

Analytical Biochemistry 2018 fasta/fastqの操作結果の視覚化 (visualization)

ハイスループットDNAシーケンシングツールによって生成されたデータの品質は、そのデータが生物学的発見にどの程度役立つかを判断するために迅速に評価されなければならない。データセットのサイズがますます大きくなり、迅速な品質評価が重要になっているた…

2020-01-14

ゲノムの指定した領域をNでマスクする

mask fasta/fastqの操作 request

bedtoolsを使う。 Document bedtoolsのインストール本体 Github #bioconda(link)condaw install -c bioconda -y bedtools > bedtools maskfasta $ bedtools maskfasta Tool: bedtools maskfasta (aka maskFastaFromBed) Version: v2.29.0 Summary: Mask a f…

2019-09-13

リードやコンティグ配列のリード長ヒストグラム

tips fasta/fastqの操作

pyfaidxとRのhistを使えばワンライナーで出力できる。インストール #python (link)pip install pyfaidx 実行方法 FASTAファイルを指定する。 faidx --transform chromsizes input.fa | cut -f2 | Rscript -e 'data <- as.numeric (readLines ("stdin")); su…

2019-09-01

追加配列のアノテーションを含めるように既存のfastaとgff3を改変する reform

fasta/fastqの操作 GTF annotation tips

タイトルの通りのスクリプト。使い方は下のテストラン参照。インストール依存 reform requires Python3 and Biopython. 本体 Github pip install biopythongit clone https://github.com/gencorefacility/reform.git cd reform/ > python3 reform.py -h $ …

2019-08-23

複数のFASTAファイルをNNN...で連結する CombineFasta

fasta/fastqの操作 assembly 作成中

2021 7/12 リンク修正タイトルの通りのツール。インストール Technically, this program works on all operating systems; however, it has only been tested on Linux. 依存 Java jdk version 1.8 This git repository A decent (>16Gb) amount of RAM Gi…

2019-08-08

多機能な配列処理ツール VSEARCH（USEARCHの代替）

2016 PeerJ fasta/fastqの操作 mask amplicon sequence sequence clustering metagenome rRNA sequence comparison dereplication

2019 8/9 説明の誤り修正 2019 9/15 両鎖クラスタリングのコメント追加 Rockström et al. (2009) とSteffen et al. (2015) は、生物多様性の損失を人類の短期生存のための主要な脅威として提示した。シークエンシング技術における最近の進歩は、深海熱水孔か…

2019-08-07

FASTA配列のオンラインツールボックス FaBox

2007 Molecular Ecology Notes DNA解析ソフト web tool fasta/fastqの操作

FaBoxは、生物学者や医学研究者がシーケンスデータを使用して典型的なタスクを迅速に実行できるようにする、シンプルで直感的なWebサービスのコレクションである。このサービスを使用すると、シーケンスヘッダーを簡単に抽出、編集、置換し、ヘッダー情報に…

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

fasta/fastqの操作

タンパク質の要約統計を出力するEMBOSSのpepstatsコマンド

fastpの新機能

完全な環状ゲノムの開始位置（+1）を素早く変更する Dnaapler

FASTAおよびFASTQファイルを大規模処理する BigSeqKit

ライフサイエンスのための包括的なフォーマットコンバーター BioConvert

latf-loadコマンド

ロングリードシーケンスデータを評価する NanoPack2

配列ファイルを堅牢かつ再現性よく操作するためのユーティリティ群 SeqFu

オーバーラップしたペアエンドリードを使用して実際のエラー率を計算する fraguracy

fastqのためのgrepコマンド fqgrep

全ゲノムシークエンスデータのデジタル正規化を行う ROCK

複数の配列（multi-fastaファイルなど）を１つに配列に結合するEMBOSSのunionコマンド

BAM/SAM/CRAM、VCF、FASTQ、GFF3の効率的な圧縮器 genozipのバージョン14アップデート

Demultiplexingを行う fgbioのDemuxFastqsコマンド

seqkitに新しく追加されたコマンドを確認する其の２

HTSデータを扱う様々なツールをGUIインターフェースで統合した TBtools

ショートリードまたはロングリードのシーケンスデータからウイルスや微生物を迅速に同定する fastv

ターゲット配列に関係するシークエンシングリードを集めるMIRAのmirabaitコマンド

pyfastaを使ってコンティグを重複ありで分割する

fastqをソートして扱いやすくする BBMapパッケージのClumpify

データベースのFASTAファイルをBLASTでのアラインメントに適した小さな断片に分割する AlignBucket

核酸配列をアミノ酸配列に翻訳する gotranseq

Multi FASTAのGC含量や長さを表示する EMBOSSのinfoseqコマンド

fastqのクオリティ分析を行う Quack

ゲノムの指定した領域をNでマスクする

リードやコンティグ配列のリード長ヒストグラム

追加配列のアノテーションを含めるように既存のfastaとgff3を改変する reform

複数のFASTAファイルをNNN...で連結する CombineFasta

多機能な配列処理ツール VSEARCH（USEARCHの代替）

FASTA配列のオンラインツールボックス FaBox