macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

fasta/fastqの操作

k-merの起源となる配列を見つける Back to sequences

2024/10/09追記 生のシーケンスデータの処理に特化したバイオインフォマティクスツールの大部分は、k-mersの概念を多用している。これにより、データの冗長性(ひいてはメモリの圧迫)を減らし、シーケンスエラーを破棄し、操作可能で容易に比較できる固定サ…

リファレンスゲノムに対するリードアラインメントからempiricalなクオリティ値を算出する bamConcordance

bamConcordanceは、PacificBiosciencesが管理しているレポジトリの1つで管理されている、リードのリファレンス配列とのマッピングの一致度からリードの経験的なクオリティ値を算出するpythonスクリプト。エラー修正ツールで修正された後のシークエンシング…

大規模なデータセットにもスケールする多目的k-merカウンターおよび多様性推定器 MerCat2

MerCat2("Mer-Catenate2")は、オミックスデータ中のフィーチャーをロバストに解析するための、汎用性、並列性、拡張性、モジュール性を備えたソフトウェアパッケージである。MerCat2は、あらゆるプラットフォームからのHTSシークエンシングの生リード、ア…

タンパク質の要約統計を出力するEMBOSSのpepstatsコマンド

EMBOSSのpepstatsは、1つ以上のタンパク質配列からタンパク質の特性に関する様々な統計情報を出力する。 emboss pepstats https://emboss.sourceforge.net/apps/cvs/emboss/apps/pepstats.html インストール conda|mambaやbrewで導入できる。 #biocondamamba…

fastpの新機能

fastpは既に5000回以上引用されている(PubMedより)人気のシークエンシングデータの前処理ツールだが、最近のアップグレード(*1)でいくつか新機能が追加された。新機能を簡単に確認しておく。 インストール iMetaの論文ではv0.23.2が最新のバージョンのfa…

完全な環状ゲノムの開始位置(+1)を素早く変更する Dnaapler

レポジトリより(一部改変) Dnaaplerはシンプルなpythonプログラムで、一塩基の入力配列(FASTA形式)を受け取り、アミノ酸配列データベースに対してblastxを用いて目的の開始遺伝子を見つけ、この遺伝子の開始コドンが見つかったかどうかをチェックし、見…

FASTAおよびFASTQファイルを大規模処理する BigSeqKit

ハイスループットシーケンス技術により、利用可能なシーケンスデータの量はかつてないほど爆発的に増加しており、それらは通常FASTAファイルやFASTQファイルとして保存されている。配列データを生物学的知識に変換する目的で、この種のファイルを処理・操作…

ライフサイエンスのための包括的なフォーマットコンバーター BioConvert

2023/07/04 追記 バイオインフォマティクスは、長年にわたって開発されてきた数多くの標準やフォーマットで知られる分野である。このフォーマットの多さは時に補完的であり、しばしば冗長であるため、バイオインフォマティクスのデータ解析者に多くの課題を…

latf-loadコマンド

シークエンシングデータなどをDDBJのファイルサーバにアップしてDRAの登録申請を行う場合、D-wayのDRAで情報を記載後に実行する自動validationのステップがあります。このプロセスでは、ファイル受付サーバからのシークエンシングデータのロードにSRA Toolki…

ロングリードシーケンスデータを評価する NanoPack2

ロングリードシーケンスプロジェクトにおけるコホートサイズの増加により、Oxford Nanopore TechnologiesとPacific Biosciencesのシーケンスデータの品質評価と処理のためのより効率的なソフトウェアが必要とされている。ここでは、実験の要約、データセット…

配列ファイルを堅牢かつ再現性よく操作するためのユーティリティ群 SeqFu

配列ファイル形式(FASTAおよびFASTQ)は、バイオインフォマティクス、分子生物学、生化学の分野でよく使用されている。次世代シーケンサー(NGS)の登場により、FASTQデータセットの作成・解析数は飛躍的に増加しており、これらのファイルを効率的に取り扱…

オーバーラップしたペアエンドリードを使用して実際のエラー率を計算する fraguracy

レポジトリより fraguracyは、フラグメント内のオーバーラップしたペアエンドリードを使用して、実際のエラーレートを計算する。エラーの位置と数、リード位置、リード方向(FまたはR)、塩基品質によるエラーの要約をファイルとして出力する。オーバーラッ…

fastqのためのgrepコマンド fqgrep

fqgrep ユーティリティは、任意の入力 FASTQ ファイルを検索し、塩基が 1 つ以上のパターンに一致するレコードを検索する。 grep, but for FASTQS, but now more grep-likeWe've done a lot of work @fulcrumgenomics to try emulate grep, but for FASTQs. …

全ゲノムシークエンスデータのデジタル正規化を行う ROCK

ROCK (Reducing Over-Covering K-mers) は、デジタル正規化法 (Brown et al. 2012, Wedemeyer et al. 2017, Durai and Schulz 2019 など) の代替実装を実行するC++で書かれたコマンドライン・プログラムである。ROCKの主な目的は、1つまたは複数のFASTQファ…

複数の配列(multi-fastaファイルなど)を1つに配列に結合するEMBOSSのunionコマンド

EMBOSSのunionコマンドを使うと、複数の配列を読み込み、それらを連結して1つの配列として書き出すことができます。 EMBOSS union https://emboss.sourceforge.net/apps/cvs/emboss/apps/union.html multi fastaファイルを指定する。 union -filter mulit-se…

BAM/SAM/CRAM、VCF、FASTQ、GFF3の効率的な圧縮器 genozipのバージョン14アップデート

2022/12/05, 06 HP更新 Genozip は、広く利用されている FASTQ、BAM、VCF ファイル形式を含む、幅広いゲノムデータの圧縮を行う。ここでは、BAMおよびCRAMファイルの圧縮に焦点を当てた、Genozip技術の最新の進歩を紹介する。様々な種類の研究(全ゲノムシー…

Demultiplexingを行う fgbioのDemuxFastqsコマンド

fgbioはディープシーケンシングデータを扱うためのコマンドラインツールキット。リードレベルのデータ(FASTQ、SAM、BAMなど)やバリアントレベルのデータ(VCF、BCFなど)を操作する。特に次のようなものを提供することに重点を置いている(Githubより)。 …

seqkitに新しく追加されたコマンドを確認する 其の2

2022/03/14追記 これまで数回に分けてseqkitのコマンドを紹介して来ましたが(リンク)、バージョンアップが続いていて、ありがたいことに新しいコマンドも追加されています(谢谢您)。久しぶりに新機能を確認してみます。 この記事を書いたすぐ後にv2.2が…

HTSデータを扱う様々なツールをGUIインターフェースで統合した TBtools

ハイスループットシーケンス(HTS)データからの情報マイニング用にさまざまなソフトウェアまたはパイプラインが開発されているが、それらのほとんどは、ほとんどの生物学者が馴染みのないプログラミングおよびコマンドライン環境に依存している。 ユーザー…

ショートリードまたはロングリードのシーケンスデータからウイルスや微生物を迅速に同定する fastv

本論文では、ショートリードまたはロングリードのシーケンスデータからウイルスや微生物を迅速に同定するためのツールセットと関連リソースを紹介する。fastvは、シーケンシングデータ中に存在する微生物の配列を検出し、対象となる微生物を同定し、微生物ゲ…

ターゲット配列に関係するシークエンシングリードを集めるMIRAのmirabaitコマンド

MIRAbait: 256bpまでのkmerのための「grep」のようなツール mirabaitは、リードコレクションの中から、ターゲットベイトとして定義された配列と部分的に類似した、あるいは等しいリードを選択する。類似性とは、ベイト配列と選択されるスクリーニング配列の…

pyfastaを使ってコンティグを重複ありで分割する

メタゲノムのアセンブリでは、アセンブリの連続性を高めるために、最初のメタゲノムアセンブリ配列を重複付きで分割して、OLCアセンブラの入力として使用することがある(例えばOPERA-MSやminimus2)。この重複ありのcontigの分割には、pyfastaのsplitコマン…

fastqをソートして扱いやすくする BBMapパッケージのClumpify

HPより https://jgi.doe.gov/data-and-tools/bbtools/bb-tools-user-guide/clumpify-guide/ Clumpifyは、オーバーラップしているリードを迅速にグループ化して塊にするためのツールです。これにより、ファイルの圧縮率を高めたり、オーバーラップベースのア…

データベースのFASTAファイルをBLASTでのアラインメントに適した小さな断片に分割する AlignBucket

次世代シークエンシング時代では、増え続ける生物学的配列やそのバリエーションを正確にアノテーションするための信頼性の高い、高速かつ効率的なアプローチが求められている。類似性検索に基づくアノテーションのtransferは、標準的なアプローチである。全…

核酸配列をアミノ酸配列に翻訳する gotranseq

gotranseqは核酸配列を対応するペプチド配列に翻訳する。EMBOSS transeqと似ているが、goで書かれている。 EMBOSS transeq は素晴らしいツールだが、':' のような文字が含まれている場合はシーケンス ID を黙って切り捨てたり、'|' のような文字が含まれてい…

Multi FASTAのGC含量や長さを表示する EMBOSSのinfoseqコマンド

EMBOSSパッケージのinfoseq は、1 つ以上の入力配列に関する基本情報を画面上に表示する。これには、Uniform Sequence Address (USA)、名前、アクセッション番号、タイプ(核酸またはタンパク質)、長さ、C+Gの割合、および説明が含まれる。オプションでHTML…

fastqのクオリティ分析を行う Quack

ハイスループットDNAシーケンシングツールによって生成されたデータの品質は、そのデータが生物学的発見にどの程度役立つかを判断するために迅速に評価されなければならない。データセットのサイズがますます大きくなり、迅速な品質評価が重要になっているた…

ゲノムの指定した領域をNでマスクする

bedtoolsを使う。 Document bedtoolsのインストール 本体 Github #bioconda(link)condaw install -c bioconda -y bedtools > bedtools maskfasta $ bedtools maskfasta Tool: bedtools maskfasta (aka maskFastaFromBed) Version: v2.29.0 Summary: Mask a f…

リードやコンティグ配列のリード長ヒストグラム

pyfaidxとRのhistを使えばワンライナーで出力できる。 インストール #python (link)pip install pyfaidx 実行方法 FASTAファイルを指定する。 faidx --transform chromsizes input.fa | cut -f2 | Rscript -e 'data <- as.numeric (readLines ("stdin")); su…

追加配列のアノテーションを含めるように既存のfastaとgff3を改変する reform

タイトルの通りのスクリプト。使い方は下のテストラン参照。 インストール 依存 reform requires Python3 and Biopython. 本体 Github pip install biopythongit clone https://github.com/gencorefacility/reform.git cd reform/ > python3 reform.py -h $ …