fasta/fastqの操作
次世代シークエンシング時代では、増え続ける生物学的配列やそのバリエーションを正確にアノテーションするための信頼性の高い、高速かつ効率的なアプローチが求められている。類似性検索に基づくアノテーションのtransferは、標準的なアプローチである。全…
gotranseqは核酸配列を対応するペプチド配列に翻訳する。EMBOSS transeqと似ているが、goで書かれている。 EMBOSS transeq は素晴らしいツールだが、':' のような文字が含まれている場合はシーケンス ID を黙って切り捨てたり、'|' のような文字が含まれてい…
EMBOSSパッケージのinfoseq は、1 つ以上の入力配列に関する基本情報を画面上に表示する。これには、Uniform Sequence Address (USA)、名前、アクセッション番号、タイプ(核酸またはタンパク質)、長さ、C+Gの割合、および説明が含まれる。オプションでHTML…
ハイスループットDNAシーケンシングツールによって生成されたデータの品質は、そのデータが生物学的発見にどの程度役立つかを判断するために迅速に評価されなければならない。データセットのサイズがますます大きくなり、迅速な品質評価が重要になっているた…
bedtoolsを使う。 Document bedtoolsのインストール 本体 Github #bioconda(link)condaw install -c bioconda -y bedtools > bedtools maskfasta $ bedtools maskfasta Tool: bedtools maskfasta (aka maskFastaFromBed) Version: v2.29.0 Summary: Mask a f…
pyfaidxとRのhistを使えばワンライナーで出力できる。 インストール #python (link)pip install pyfaidx 実行方法 FASTAファイルを指定する。 faidx --transform chromsizes input.fa | cut -f2 | Rscript -e 'data <- as.numeric (readLines ("stdin")); su…
タイトルの通りのスクリプト。使い方は下のテストラン参照。 インストール 依存 reform requires Python3 and Biopython. 本体 Github pip install biopythongit clone https://github.com/gencorefacility/reform.git cd reform/ > python3 reform.py -h $ …
タイトルの通りのツール。 インストール Technically, this program works on all operating systems; however, it has only been tested on Linux. 依存 Java jdk version 1.8 This git repository A decent (>16Gb) amount of RAM Github git clone https:…
2019 8/9 説明の誤り修正 2019 9/15 両鎖クラスタリングのコメント追加 Rockström et al. (2009) とSteffen et al. (2015) は、生物多様性の損失を人類の短期生存のための主要な脅威として提示した。シークエンシング技術における最近の進歩は、深海熱水孔か…
FaBoxは、生物学者や医学研究者がシーケンスデータを使用して典型的なタスクを迅速に実行できるようにする、シンプルで直感的なWebサービスのコレクションである。 このサービスを使用すると、シーケンスヘッダーを簡単に抽出、編集、置換し、ヘッダー情報に…
インストール ubuntu16.0.4でテストした。 本体 Github git clone https://github.com/yangao07/fxtools.git --recursivecd fxtools; make > ./fxtools $ fxtools Program: fxtools (light-weight processing tool for FASTA, FASTQ and BAM format data) Us…
komplexityはFAST [A / Q]ファイルから複雑度の低いシーケンスをすばやく計算および/またはマスクするために開発された。複雑さを評価するために、長さで割ったシーケンス上の一意のk-mer値を使用する。例えばk = 4の場合、正規化複雑度スコアが<0.55である…
次世代シークエンシング技術は,その開始以来,研究者が複雑なシステムから多面的な生物学的情報を抽出する方法を変え、ヒト疾患,環境科学、進化科学などの分野における研究を促進してきた。16S rRNA小サブユニット遺伝子、またはより一般的にはその一部のシー…
最新のハイスループットシーケンス機器は大量のデータを生するが、これにはシーケンスエラー、シーケンスアダプタ、汚染されたリードなどのノイズが含まれていることがよくある。このノイズはゲノミクス研究を複雑にする。シーケンスノイズを減らすために多…
any2fastaは様々なフォーマットのシーケンスファイルをFASTAフォーマットに変換するperlスクリプトである。他の依存関係はなしにコアのPerlモジュールのみを使用する。非常に高速に実行する。(公開の動機はGithub参照) 以下のフォーマットをサポートしてい…
2019 コマンドの誤り修正 2020 3/30 バージョンによるコマンドの違いを記載 2020 3/31 version0.6.0のコマンドを一番下に追記 2020 4/23 論文追記 第三世代DNAシーケンシング法(PacBio、オックスフォードナノポア)は、リファレンスゲノムの構築(デノボア…
Sandyは、与えられたfastaファイルからシングルエンド/ペアエンドのリードを生成するシンプルなバイオインフォマティックツールである。多くの次世代シーケンシング分析は、実際には正確には満足されていない仮説モデルおよび原理に依存している。ポジティブ…
2019 3/9 twitterコメント追記 Preprintより DNA配列データベースは、シーケンシング技術の継続的な進歩により、指数関数的に成長している。通常、データ圧縮は保存スペースを節約するためにすべての保存DNAシーケンシングデータに使用される。1993年に最初…
2019 2/26 テストラン追加 2019 7/10 コメント追加 Fastqフォーマットのファイルは、シーケンスと品質の両方の情報を1つのファイルにまとめて含むため、DNAシーケンスを共有するための主要なファイルフォーマットとなっている(ref.1)。さらに、オーバーラ…
40年以上前に制限エンドヌクレアーゼが発見されて初めて使用されて以来、DNAを単一および複数のコンストラクトに組み立てる能力が分子生物学を推進してきた[論文より ref.1]。過去10年間で、合成生物学の分野を形作り、ゲノム規模の生物学的オペレーティング…
V-Xtractorは、隠れマルコフモデルを使用して、16S/18S rRNAの定義済みの超可変配列セグメント(V1〜V9)を検索、検証、および抽出する。99.6%の検出効率と低い偽陽性感受性により、このツールはデータの信頼性を向上させ、その後のコミュニティアッセイで…
ハイスループットDNAシーケンス技術の中で、Solexa / Illuminaプラットフォーム[ref.1]は、1回の実行で最大量のシーケンスデータを作成する[ref.2]。この技術の1つのユニークな特質は、与えられたDNA分子の両端からシーケンスリードを生成するその能力である…
2019 8/7 誤字修正 seqkitを以前ブログで紹介した時は0..6.0でしたが、1年半近く経ち、2018年12月20日現在ではバージョンが0.9.4まで上がっています。ありがたいことに、bug fixだけでなく、新しいコマンドが複数追加されています。v0.6.1以降に追加された…
2020 2/16 tweet追記、タイトル修正 pauvreはdarrin t schultzさんがGithubに公開されている第三世代ロングリード分析用のユーティリティツール。低クオリティなリードのフィルタリング機能も備えている。 I just updated the pauvre package to make some f…
過去数年間に生産されたゲノムデータの量は、主に高スループットシーケンシング(HTS)技術の向上とゲノムのシーケンシングコストの削減によって大幅に増加した。ヒトに対する単一のゲノムシーケンシング実験は、典型的には数億のショートリード(長さ100〜1…
2018 12/3 図差し替え 2019 6/18 condaインストール追記 2019 6/21 コマンド追記 2019 10/23引用追記 2020 1/7 インストール追記 2020 12/9 my docker imageのラン手順修正 RNA-seq実験から正確な結果を得るには、前処理ステップでのクオリティチェック(QC…
Documentation https://seqmagick.readthedocs.io/en/latest/ 対応フォーマット 拡張子によってフォーマットが自動認識される。 インストール mac os10.14の miniconda3-5.0環境でテストした。 依存 Python >= 3.4 biopython >= 1.70 本体 Github #Anaconda…
DNAシーケンシング技術の急速な低下に伴い、デノボ全ゲノムシーケンシング(WGS)プロジェクトは新しいゲノムについて非常に深いカバレッジを生み出している。しかし、これらの技術による高いカバレッジとゲノムアセンブリアルゴリズム(Gnerre et al、2011;…
ClipAndMergeはAlexander PeltzerさんがGithubで公開されている、アダプタートリミング、クオリティトリミング、ペアエンドのマージを一括して行ってくれるツール。ワンライナーでマージしたfastq出力を得ることができる。 インストール mac os10.14のminico…
2018 10/11 コードの誤り修正 Illumiprocessorは、illuminaのSEとPEのシーケンシングリードからアダプターのコンタミネーションをトリミングするツール。 double-indexのリードのトリミングができる。 scytheとsickle(v1.xで使用)よりtrimmomatiを使った方…