macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

trimming / preprocessing

アダプタートリミングと低品質塩基のトリミングを行う並列化実装 Atria

2022/03/13 文章修正 2022/03/15 誤字修正 次世代シーケンサーの進歩により、リードに付着したアダプターや低品質の塩基が 直接的に、あるいは暗黙のうちに、ダウンストリーム解析の妨げとなる。たとえば、偽陽性 一塩基多型(SNP)、断片化したアセンブリが…

PacBioのbamをfastqに変換し、残存しているPacBioアダプター配列を取り除く HiFiAdapterFilt

第3世代のシーケンサー技術により、ゲノムシークエンシングとアセンブルに革命が起こり、その速度はますます速くなっている。現在のシーケンシング戦略の1つは、PacBio Sequel II装置での高コンセンサス精度サーキュラーコンセンサスシーケンス(CCS)に由来…

オックスフォードナノポアシークエンシングリードのトリミングツール ProwlerTrimmer

トリミングおよびフィルタリングツールは、配列アラインメントの精度を高め、結果の信頼性を向上させるため、DNAシーケンス解析において有用である。オックスフォード・ナノポア・テクノロジー(ONT)のトリミングおよびフィルタリングツールは、現在のとこ…

NGSデータのクオリティフィルタリングパイプライン ngsComposer

2021 9/30 追記 次世代シーケンサー(NGS)は、大規模なオミックスデータの大量並列収集を可能にするが、客観的なデータ品質のフィルタリングパラメータは不足している。プラットフォームが生成するPhred値は有用な指標ではあるが、塩基ごとのクオリティスコ…

samファイルのクリッピングされたアラインメントを除く samclip

Githubより ほとんどのショートリードアライナーは、参照ゲノムに対するリードのローカルアライメントを行う。例として、bwa mem、minimap2、bowtie2などがある(--end-to-endモードの場合を除く)。つまり、リードの両端がベストアライメントに含まれていな…

ショートリードまたはロングリードのシーケンスデータからウイルスや微生物を迅速に同定する fastv

本論文では、ショートリードまたはロングリードのシーケンスデータからウイルスや微生物を迅速に同定するためのツールセットと関連リソースを紹介する。fastvは、シーケンシングデータ中に存在する微生物の配列を検出し、対象となる微生物を同定し、微生物ゲ…

高速なONTロングリードの前処理ツール nanoq

2022 1/11 論文引用 基本的なシーケンス品質管理とサマリー統計の計算は、リードをパースするのがボトルネックになることにより少し時間がかかる場合がある。Nanoq は、needletail および rust-bio ライブラリを使用した fastx ファイルに対して、欠陥のある…

アダプター配列情報なしでアダプタートリミングを行う EARRINGS

次世代シークエンシング(NGS)に基づくクロスサンプル比較や大規模メタアナリシスでは、リード中の汚染アダプターフラグメントの除去(すなわちアダプタートリミング)を含む、複製可能で普遍的なデータの前処理が必要となる。最新のアダプタートリマーは、…

マルチプルシーケンスアラインメント(MSA)のクリーニングツール CIAlign

2022/03/15 論文引用 生物学の分野では、生物学的な特徴や関係性を調べるための多くの調査の基礎となっているのが、複数の配列のアラインメント(MSA)である。これらのアラインメントは、多くのバイオインフォマティクス解析の中心となっている。しかし、MS…

ショートリードとロングリード両方に対応した高速なクオリティフィルタリングツール RabbitQC

2020 8/19 追記 現代のシーケンシング技術は、生物学や医学の多くの分野で革命を起こし続けている。生成されたデータセットはエラーが発生しやすいため、下流のアプリケーションでは通常、FASTQファイルを前処理するための品質管理手法が必要となる。しかし…

インタラクティブなレポートを出力するONTのクオリティコントロールツール pycoQC

2020 7/21 コマンドでダブルスペースになっていた部分を修正 核酸のナノポアシーケンシングは、開発に30年近くを要し、現在では合成法によるシーケンシングの代替手段として確固たる地位を確立している(Deamer, Akeson, & Branton, 2016)。オックスフォード…

TGSデータのためのQCツール LongQC

2020 7/27 追記 ショートリードシーケンス技術は、過去 10 年間の生物学のパラダイムを変えてきた。最近では、TGSが登場し、1分子からの非常に長いが比較的エラーが発生しやすいリードを提供している。FastQC (https://www.bioinformatics.babraham.ac.uk/p…

正確な系統推定のためのアラインメントトリミングツール ClipKIT

2020 12/7 論文引用 複数シーケンスのアラインメントにおける発散性の高い部位は、相同性の誤った推論や置換の飽和に起因しており、系統推論に悪影響を及ぼすと考えられている。トリミング手法は、系統推論の前にこれらのサイトを除去することを目的としてい…

illumina、BGIのシーケンシングリードの前処理を行う Ktrim

次世代シーケンシング(NGS)データは、品質の悪いサイクルやアダプター汚染に悩まされることが多いため、下流での解析の前に前処理を行う必要がある。最新のシーケンサーのスループットとリードの長さはますます増大しており、前処理のステップは、現在のツ…

シーケンシングリードの前処理を行う AUSPP

ショートリードをリファレンスゲノム/配列にマッピングできるショートリードアライナーは多数あり、それらのほとんどはFASTQファイルを入力クエリファイルとして直接受け入れることができる。ただし、通常、生データは前処理する必要がある。さまざまな次世…

単離バクテリアゲノムのアセンブリ、アノテーション、比較ゲノム解析を行う高度に自動化されたパイプライン ASA3P

2020 3/22 ツイート、関連ツールリンク追記 2020 3/25 コメント追記 2020 3/26 誤字修正 2020 5/12 インストール追記 1977年に、DNAシーケンスがフレデリックサンガーによってサイエンスコミュニティに導入された[ref.1]。それ以来、DNAシーケンスは、ジデオ…

fasta/fastq/bamのユーティリティツール fxtools

インストール ubuntu16.0.4でテストした。 本体 Github git clone https://github.com/yangao07/fxtools.git --recursivecd fxtools; make > ./fxtools $ fxtools Program: fxtools (light-weight processing tool for FASTA, FASTQ and BAM format data) Us…

ニューラルネットワークを使ってONTのロングリードの低クオリティ領域を除く MiniScrub

Pacific Biosciences [ref.1]やOxford Nanopore [ref.2]のような企業のシーケンシング技術がゲノムアセンブリ[ref.1]、[ref.10]、抗菌剤耐性遺伝子[ref.18]、個人用トランスクリプトームシーケンシング[ref.19]、およびドラフトゲノム[ref.20]の改善に寄与し…

アセンブリの前処理としてロングリードのキメラ領域(低オーバーラップ領域)を除く yacrd

2019 コマンドの誤り修正 2020 3/30 バージョンによるコマンドの違いを記載 2020 3/31 version0.6.0のコマンドを一番下に追記 2020 4/23 論文追記 第三世代DNAシーケンシング法(PacBio、オックスフォードナノポア)は、リファレンスゲノムの構築(デノボア…

ターゲットアンプリコンシーケンシングのプライマーを除く pTrimmer

ゲノムの変異検出は、臨床がん研究においてますます一般的になっている[ref.1]。多重アンプリコンに基づくディープシーケンシングは、特定の疾患関連遺伝子の突然変異検出のための主要なアプローチの1つである[ref.1、2、3]。がん関連遺伝子の変異を同定する…

ターゲットアンプリコンシーケンシングのプライマーを除く cutPrimers

リードからのプライマーの切断は、ターゲットアンプリコンのNGSデータを処理する上で重要なステップである。既存のツールは、リードから1つまたはいくつかのプライマー/アダプター配列を切断し、そして出現するそれらすべてを除去するように適合されている…

病原性細菌の同定とタイピングを行うwebツール PathoBacTyper

生物のゲノムDNAは生物学的にfunctionalな遺伝情報を持っている。生物の全ゲノム配列を解読することは、複雑な生物学研究における基本的なタスクである。以前は、完全なバクテリアゲノム配列を解読するために従来のサンガーシーケンシングが使用されていた。…

ナノポアのロングリードのQCツール ToulligQC

2020 7/19 追記 ToulligQCはPythonで書かれたEcole Normale Superieure の生物学研究所(IBENS)のゲノム施設によって開発されたプログラムである。このプログラムは、オックスフォードナノポアのQC分析を専門としている。 さらに、DNA-SeqとともにRNA-Seqに…

アンプリコンシーケンシングのアセンブルとクオリティフィルタリングツール moira

16SリボソームRNAなどのマーカー遺伝子のハイスループットシークエンシングは、複雑な微生物群集の分析においてこれまで到達できなかった詳細なレベルの分析を可能にするため、微生物生態の研究者にとって非常に貴重なツールとなっている。 Roche 454、Illum…

PCR duplicationにタグをつけたりエラーを取り除く gencore

2018/12/22 タイトル修正 HIgh depthの次世代シークエンス(NGS)は、癌の精密な診断と治療に広く使用されている。このようなディープシーケンシングデータから、体細胞突然変異を検出して、パーソラナイズされた標的療法または免疫療法のガイドにすることが…

ロングリードの分析とフィルタリングを行う pauvre

2020 2/16 tweet追記、タイトル修正 pauvreはdarrin t schultzさんがGithubに公開されている第三世代ロングリード分析用のユーティリティツール。低クオリティなリードのフィルタリング機能も備えている。 I just updated the pauvre package to make some f…

アダプタートリミング、クオリティトリミング、ペアエンドのマージを一括して行う ClipAndMerge

ClipAndMergeはAlexander PeltzerさんがGithubで公開されている、アダプタートリミング、クオリティトリミング、ペアエンドのマージを一括して行ってくれるツール。ワンライナーでマージしたfastq出力を得ることができる。 インストール mac os10.14のminico…

アダプタートリミングツール illumiprocessor

2018 10/11 コードの誤り修正 Illumiprocessorは、illuminaのSEとPEのシーケンシングリードからアダプターのコンタミネーションをトリミングするツール。 double-indexのリードのトリミングができる。 scytheとsickle(v1.xで使用)よりtrimmomatiを使った方…

bam, fastqのユーティリティツール EA-Utils

2019 9/8 インストール追記 2013年のペーパーより ハイスループットシーケンシング(HTS)は、シーケンシングデータの急速な成長率をもたらした。 著者らのラボでは、毎日テラバイトのデータを生成している。 これは通常、バリアントコーラー、定量およびア…

高速なfastqの前処理パイプライン fastp

2018 10/26 追記, 説明追加 2019 パラメータ追記, パラメータ修正, パラメータ追記, condaインストール追記, 0.14.1のhelpに更新, コメント追記, コマンド追記 2020 1/17 追記, help更新, multiqcと連携する例を追記 ダウンストリームデータ解析において高品…