fastqファイルを迅速かつ効率的に取得する ngsfetch

fasta/fastqの操作 download DRA SRA GEO ENA 高速なツール

ffqとaria2を使ってfastqファイルを取得するためのユーティリティ。大規模なデータセットを迅速かつ効率的にダウンロードできるよう設計されている。GEO、SRA、EMBL-EBIのENA、DDBJのDRAなどのデータのダウンロードに対応している。特徴（レポジトリより） …

2025-02-10

シーケンシングデータの汚染を除去するnextflowパイプライン CLEAN

2025 Preprint nextflow contamination fasta/fastqの操作 docker

2025/02/14 追記多くの生物学的および医学的な疑問は、配列データの解析に基づいて解答されている。しかし、様々なリードコレクションやアセンブリにおいて、コンタミネーション、人工的なスパイクイン、過剰発現したrRNA配列が見つかることがある。特に、…

2025-01-14

FASTQ headersのバーコード情報によってdemultiplexingする fastq_demux

demultiplexing fasta/fastqの操作 barcode / index

fastq_demuxはFASTQヘッダーのバーコードに基づいてillumina fastqをデマルチプレックスするシンプルなプログラム。インストール condaで環境を作って導入した。 Github mamba create -n fastq_demux python=3 -yconda activate fastq_demux#本体git clone …

2025-01-13

環状DNA配列の開始位置を指定位置に回転させる Rotate

rotate fasta/fastqの操作高速なツール organelle genome

環状DNA分子（すなわち、ほとんどの細菌、ウイルス、プラスチドゲノム）に由来する配列は、アラインメントを含むほとんどの下流解析において、線状化され、共通の開始位置に回転されることが期待される。これは一般的で簡単な作業であるにもかかわらず、利用…

2024-10-08

k-merの起源となる配列を見つける Back to sequences

k-mer 高速なツール fasta/fastqの操作 JOSS 2024

2024/10/09追記生のシーケンスデータの処理に特化したバイオインフォマティクスツールの大部分は、k-mersの概念を多用している。これにより、データの冗長性（ひいてはメモリの圧迫）を減らし、シーケンスエラーを破棄し、操作可能で容易に比較できる固定サ…

2024-05-29

リファレンスゲノムに対するリードアラインメントからempiricalなクオリティ値を算出する bamConcordance

tips fasta/fastqの操作 error correction

bamConcordanceは、PacificBiosciencesが管理しているレポジトリの１つで管理されている、リードのリファレンス配列とのマッピングの一致度からリードの経験的なクオリティ値を算出するpythonスクリプト。エラー修正ツールで修正された後のシークエンシング…

2024-05-23

大規模なデータセットにもスケールする多目的k-merカウンターおよび多様性推定器 MerCat2

Bioinformatics Advances 2024 高速なツール k-mer fasta/fastqの操作

MerCat2（"Mer-Catenate2"）は、オミックスデータ中のフィーチャーをロバストに解析するための、汎用性、並列性、拡張性、モジュール性を備えたソフトウェアパッケージである。MerCat2は、あらゆるプラットフォームからのHTSシークエンシングの生リード、ア…

2024-01-21

タンパク質の要約統計を出力するEMBOSSのpepstatsコマンド

fasta/fastqの操作 2000 Trends in Genetics

EMBOSSのpepstatsは、1つ以上のタンパク質配列からタンパク質の特性に関する様々な統計情報を出力する。 emboss pepstats https://emboss.sourceforge.net/apps/cvs/emboss/apps/pepstats.html インストール conda|mambaやbrewで導入できる。 #biocondamamba…

2023-12-14

fastpの新機能

2023 iMeta fasta/fastqの操作

fastpは既に5000回以上引用されている（PubMedより）人気のシークエンシングデータの前処理ツールだが、最近のアップグレード（*1）でいくつか新機能が追加された。新機能を簡単に確認しておく。インストール iMetaの論文ではv0.23.2が最新のバージョンのfa…

2023-08-12

完全な環状ゲノムの開始位置（+1）を素早く変更する Dnaapler

oriC fasta/fastqの操作 circular

レポジトリより（一部改変） Dnaaplerはシンプルなpythonプログラムで、一塩基の入力配列（FASTA形式）を受け取り、アミノ酸配列データベースに対してblastxを用いて目的の開始遺伝子を見つけ、この遺伝子の開始コドンが見つかったかどうかをチェックし、見…

2023-08-08

FASTAおよびFASTQファイルを大規模処理する BigSeqKit

2023 GigaScience 高速なツールインフォマティクス解析をサポートするツール docker fasta/fastqの操作

ハイスループットシーケンス技術により、利用可能なシーケンスデータの量はかつてないほど爆発的に増加しており、それらは通常FASTAファイルやFASTQファイルとして保存されている。配列データを生物学的知識に変換する目的で、この種のファイルを処理・操作…

2023-07-04

ライフサイエンスのための包括的なフォーマットコンバーター BioConvert

2023/07/04 追記バイオインフォマティクスは、長年にわたって開発されてきた数多くの標準やフォーマットで知られる分野である。このフォーマットの多さは時に補完的であり、しばしば冗長であるため、バイオインフォマティクスのデータ解析者に多くの課題を…

2023-05-25

latf-loadコマンド

tips fasta/fastqの操作 DRA SRA

シークエンシングデータなどをDDBJのファイルサーバにアップしてDRAの登録申請を行う場合、D-wayのDRAで情報を記載後に実行する自動validationのステップがあります。このプロセスでは、ファイル受付サーバからのシークエンシングデータのロードにSRA Toolki…

2023-05-17

ロングリードシーケンスデータを評価する NanoPack2

2023 Bioinformatics Nanopore long read bam/sam fasta/fastqの操作 quality check

ロングリードシーケンスプロジェクトにおけるコホートサイズの増加により、Oxford Nanopore TechnologiesとPacific Biosciencesのシーケンスデータの品質評価と処理のためのより効率的なソフトウェアが必要とされている。ここでは、実験の要約、データセット…

2023-05-02

配列ファイルを堅牢かつ再現性よく操作するためのユーティリティ群 SeqFu

Bioengineering 2021 Nim fasta/fastqの操作 quality check

配列ファイル形式（FASTAおよびFASTQ）は、バイオインフォマティクス、分子生物学、生化学の分野でよく使用されている。次世代シーケンサー（NGS）の登場により、FASTQデータセットの作成・解析数は飛躍的に増加しており、これらのファイルを効率的に取り扱…

2023-04-18

オーバーラップしたペアエンドリードを使用して実際のエラー率を計算する fraguracy

fasta/fastqの操作 error profile

レポジトリより fraguracyは、フラグメント内のオーバーラップしたペアエンドリードを使用して、実際のエラーレートを計算する。エラーの位置と数、リード位置、リード方向（FまたはR）、塩基品質によるエラーの要約をファイルとして出力する。オーバーラッ…

2023-02-12

fastqのためのgrepコマンド fqgrep

高速なツール fasta/fastqの操作

fqgrep ユーティリティは、任意の入力 FASTQ ファイルを検索し、塩基が 1 つ以上のパターンに一致するレコードを検索する。 grep, but for FASTQS, but now more grep-likeWe've done a lot of work @fulcrumgenomics to try emulate grep, but for FASTQs. …

2023-02-11

全ゲノムシークエンスデータのデジタル正規化を行う ROCK

JOSS 2022 normalize fasta/fastqの操作 SARS-CoV-2

ROCK (Reducing Over-Covering K-mers) は、デジタル正規化法 (Brown et al. 2012, Wedemeyer et al. 2017, Durai and Schulz 2019 など) の代替実装を実行するC++で書かれたコマンドライン・プログラムである。ROCKの主な目的は、1つまたは複数のFASTQファ…

2022-10-26

複数の配列（multi-fastaファイルなど）を１つに配列に結合するEMBOSSのunionコマンド

fasta/fastqの操作

EMBOSSのunionコマンドを使うと、複数の配列を読み込み、それらを連結して1つの配列として書き出すことができます。 EMBOSS union https://emboss.sourceforge.net/apps/cvs/emboss/apps/union.html multi fastaファイルを指定する。 union -filter mulit-se…

2022-10-25

BAM/SAM/CRAM、VCF、FASTQ、GFF3の効率的な圧縮器 genozipのバージョン14アップデート

2022 Preprint Compression / decompression fasta/fastqの操作 bam/sam Dual coordinate VCF

2022/12/05, 06 HP更新 Genozip は、広く利用されている FASTQ、BAM、VCF ファイル形式を含む、幅広いゲノムデータの圧縮を行う。ここでは、BAMおよびCRAMファイルの圧縮に焦点を当てた、Genozip技術の最新の進歩を紹介する。様々な種類の研究（全ゲノムシー…

2022-09-19

Demultiplexingを行う fgbioのDemuxFastqsコマンド

demultiplexing fasta/fastqの操作 Genomics Inform 2018 barcode / index UMI

fgbioはディープシーケンシングデータを扱うためのコマンドラインツールキット。リードレベルのデータ（FASTQ、SAM、BAMなど）やバリアントレベルのデータ（VCF、BCFなど）を操作する。特に次のようなものを提供することに重点を置いている（Githubより）。 …

2022-03-14

seqkitに新しく追加されたコマンドを確認する其の２

tips primer 2016 PLoS ONE fasta/fastqの操作 bam/sam circular

2022/03/14追記これまで数回に分けてseqkitのコマンドを紹介して来ましたが（リンク）、バージョンアップが続いていて、ありがたいことに新しいコマンドも追加されています（谢谢您）。久しぶりに新機能を確認してみます。この記事を書いたすぐ後にv2.2が…

2021-08-08

HTSデータを扱う様々なツールをGUIインターフェースで統合した TBtools

DNA解析ソフト GUIツール reciprocal best hit BLAST dot plot sequence comparison RACE genome walking fasta/fastqの操作ゲノム比較 (comparative genomics) synteny_block GO term KEGG 2020 Molecular Plant 2018 Preprint

ハイスループットシーケンス（HTS）データからの情報マイニング用にさまざまなソフトウェアまたはパイプラインが開発されているが、それらのほとんどは、ほとんどの生物学者が馴染みのないプログラミングおよびコマンドライン環境に依存している。ユーザー…

2021-07-10

ショートリードまたはロングリードのシーケンスデータからウイルスや微生物を迅速に同定する fastv

2021 Briefings in Bioinformatics SARS-CoV-2 Viruses metagenome 高速なツール生物種の推定 (taxonomic profiling) filtering trimming / preprocessing fasta/fastqの操作

本論文では、ショートリードまたはロングリードのシーケンスデータからウイルスや微生物を迅速に同定するためのツールセットと関連リソースを紹介する。fastvは、シーケンシングデータ中に存在する微生物の配列を検出し、対象となる微生物を同定し、微生物ゲ…

2021-06-17

ターゲット配列に関係するシークエンシングリードを集めるMIRAのmirabaitコマンド

tips filtering fasta/fastqの操作

MIRAbait: 256bpまでのkmerのための「grep」のようなツール mirabaitは、リードコレクションの中から、ターゲットベイトとして定義された配列と部分的に類似した、あるいは等しいリードを選択する。類似性とは、ベイト配列と選択されるスクリーニング配列の…

2021-06-01

pyfastaを使ってコンティグを重複ありで分割する

fasta/fastqの操作 Overlap-layout-consensus (OLC) tips

メタゲノムのアセンブリでは、アセンブリの連続性を高めるために、最初のメタゲノムアセンブリ配列を重複付きで分割して、OLCアセンブラの入力として使用することがある（例えばOPERA-MSやminimus2）。この重複ありのcontigの分割には、pyfastaのsplitコマン…

2021-05-26

fastqをソートして扱いやすくする BBMapパッケージのClumpify

fasta/fastqの操作

HPより https://jgi.doe.gov/data-and-tools/bbtools/bb-tools-user-guide/clumpify-guide/ Clumpifyは、オーバーラップしているリードを迅速にグループ化して塊にするためのツールです。これにより、ファイルの圧縮率を高めたり、オーバーラップベースのア…