macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

trimming / preprocessing

fasta/fastq/bamのユーティリティツール fxtools

インストール ubuntu16.0.4でテストした。 本体 Github git clone https://github.com/yangao07/fxtools.git --recursivecd fxtools; make > ./fxtools $ fxtools Program: fxtools (light-weight processing tool for FASTA, FASTQ and BAM format data) Us…

ニューラルネットワークを使ってONTのロングリードの低クオリティ領域を除く MiniScrub

Pacific Biosciences [ref.1]やOxford Nanopore [ref.2]のような企業のシーケンシング技術がゲノムアセンブリ[ref.1]、[ref.10]、抗菌剤耐性遺伝子[ref.18]、個人用トランスクリプトームシーケンシング[ref.19]、およびドラフトゲノム[ref.20]の改善に寄与し…

アセンブリの前処理としてロングリードのキメラ領域(低オーバーラップ領域)を除く yacrd

2019 コマンドの誤り修正 第三世代DNAシーケンシング法(PacBio、オックスフォードナノポア)は、リファレンスゲノムの構築(デノボアセンブリ)のための重要な技術となりつつある。この種のデータに対する新しいバイオインフォマティクス手法が急速に登場し…

ターゲットアンプリコンシーケンシングのプライマーを除く pTrimmer

ゲノムの変異検出は、臨床がん研究においてますます一般的になっている[ref.1]。多重アンプリコンに基づくディープシーケンシングは、特定の疾患関連遺伝子の突然変異検出のための主要なアプローチの1つである[ref.1、2、3]。がん関連遺伝子の変異を同定する…

ターゲットアンプリコンシーケンシングのプライマーを除く cutPrimers

リードからのプライマーの切断は、ターゲットアンプリコンのNGSデータを処理する上で重要なステップである。既存のツールは、リードから1つまたはいくつかのプライマー/アダプター配列を切断し、そして出現するそれらすべてを除去するように適合されている…

病原性細菌の同定とタイピングを行うwebツール PathoBacTyper

生物のゲノムDNAは生物学的にfunctionalな遺伝情報を持っている。生物の全ゲノム配列を解読することは、複雑な生物学研究における基本的なタスクである。以前は、完全なバクテリアゲノム配列を解読するために従来のサンガーシーケンシングが使用されていた。…

アンプリコンシーケンシングのアセンブルとクオリティフィルタリングツール moira

16SリボソームRNAなどのマーカー遺伝子のハイスループットシークエンシングは、複雑な微生物群集の分析においてこれまで到達できなかった詳細なレベルの分析を可能にするため、微生物生態の研究者にとって非常に貴重なツールとなっている。 Roche 454、Illum…

PCR duplicationにタグをつけたりエラーを取り除く gencore

2018/12/22 タイトル修正 HIgh depthの次世代シークエンス(NGS)は、癌の精密な診断と治療に広く使用されている。このようなディープシーケンシングデータから、体細胞突然変異を検出して、パーソラナイズされた標的療法または免疫療法のガイドにすることが…

アダプタートリミング、クオリティトリミング、ペアエンドのマージを一括して行う ClipAndMerge

ClipAndMergeはAlexander PeltzerさんがGithubで公開されている、アダプタートリミング、クオリティトリミング、ペアエンドのマージを一括して行ってくれるツール。ワンライナーでマージしたfastq出力を得ることができる。 インストール mac os10.14のminico…

アダプタートリミングツール illumiprocessor

2018 10/11 コードの誤り修正 Illumiprocessorは、illuminaのSEとPEのシーケンシングリードからアダプターのコンタミネーションをトリミングするツール。 double-indexのリードのトリミングができる。 scytheとsickle(v1.xで使用)よりtrimmomatiを使った方…

bam, fastqのユーティリティツール EA-Utils

2019 9/8 インストール追記 2013年のペーパーより ハイスループットシーケンシング(HTS)は、シーケンシングデータの急速な成長率をもたらした。 著者らのラボでは、毎日テラバイトのデータを生成している。 これは通常、バリアントコーラー、定量およびア…

高速なfastqの前処理パイプライン fastp

2018 10/26 追記 2018 12/06 説明追加 2019 1/11 パラメータ追記 2019 2/25 パラメータ修正 2019 5/6 パラメータ追記 2019 5/23 condaインストール追記 2019 6/10 0.14.1のhelpに更新 2019 6/21 コメント追記 2019 7/14 コマンド追記 ダウンストリームデータ…

並列化に対応した高感度なアダプタートリミングツール PEAT

次世代シークエンシング(NGS)プラットフォームでよく知られているシングルエンドシーケンシング技術からmodifyされたペアエンドシーケンシング技術は、ゲノミクスにおいてますます重要な役割を果たしている。 DNA(またはcDNA)断片の2つの鎖の5 '末端を配…

並列化に対応したアダプタートリミングツール AdapterRemoval 2

Fossil material 由来などのごく短いDNA断片のハイスループットシーケンスでは、ライブラリーの調製中にインサートにライゲーションされたアダプター配列をシークエンシングする可能性がある[論文より ref.1]。このような汚染はよく知られた問題であり、下流…

k-merを使ったリードフィルタリングを行う Cookiecutter

次世代シークエンシング技術は、より安価になり、ルーティンの分析に役立っている。アセンブリの前に未処理のリードから特定のシーケンスを抽出または削除することを必要とする多くのタスクがある。抽出された領域特異的なリード(例えば、mtDNAまたはrRNAか…

ロングリードのクオリティ分析とトリミングを行う Filtlong

FiltlongはONTのロングリードのクオリティ分析やクオリティ、リード長のトリミングが行えるツール。ウルトラロングリードを低クオリティ領域でカットして、分割出力する機能も備える。2018年4月現在Githubで公開されている。 インストール mac os10.13に導入…

トリミングツール fqtrim

fqtrimは、アダプター、polyA tail、未知塩基(Ns)および低クオリティな3 '領域をトリミングできる多目的トリミングツール。アダプターとポリA配列の不正確なマッチングにも対応している。 このユーティリティは、複雑さの低い配列(ダスト)のフィルターを…

教師なしトリミングツール UrQt

信頼性の低いヌクレオチドがあると、後の分析において偽陰性および偽陽性の数を増加させるか、またはデノボアセンブリにおいて誤ったk-merを生成し、アセンブリを複雑にして誤ったアセンブルを引き起こす可能性がある[論文より ref.4]。信頼性の低いヌクレオ…

demulitiplexしてサンプルを分割する sabre

sabreはバーコードをdemulitiplexするツール。バーコードを除いたあと、バーコードに従って分割する。バーコードがないリードは別ファイルにまとめて出力される。gzip入力もサポートしている。 インストール Github https://github.com/najoshi/sabre git cl…

古いサンプルのデータ (fastqやbam) から効率的にアダプターを除く leeHom

古いDNAが断片化したサンプルからのシーケンスが増えている。しばしば数万年前のサンプルからも抽出される古代のサンプルのDNAは断片化が起きており、うまくDNAを抽出してもサイズが100-bpを超えることは滅多にない。短いDNAをペアードエンドでシーケンスす…

バーコードやアダプターをトリミングする AdapterRemoval v2

化石のようなサンプル(リンク)や昔の人の骨、歯から断片化したDNAを抽出してシーケンスシーケンスすることが増えており、それに伴ってアダプターに5'と3'両側が汚染されたシーケンスデータが増えてきている。AdapterRemoval は柔軟なパラメータセットを持…

並列化に対応し、高速にバーコードやアダプターをトリミングする FLEXBAR

FLEXBARはMultiplexで読んだシーケンスのdemultiplexやアダプタートリミングに使われるツール。柔軟な条件でランできる。よく使われているらしく、現在Flexbar3まで発表されている。解析時間は短く、100Mのリードなら数秒〜10秒程度の時間でアダプターをトリ…

様々なバイオインフォマティクスツールの分析結果を1つに集約して分析できる MultiQC

2019 1/16 誤字修正および対応ツール情報更新 今まで様々なNGSの評価ツールが発表されてきたが、それらは特定のデータを評価するものであり、プロジェクト全体で品質評価(クオリティチェック)するためのツールがなかった。プロジェクト全体で一貫した品質…

固有のindex(バーコード)を設計するTagGD

index (バーコード配列) を設計する際は、判別可能かつ無駄のない適切な長さ、増幅バイアスが起きないようなGC含量、実験データとの干渉がないなどを考える必要がある。それに加えて、index配列に塩基置換、indelなどのシーケンスエラーが起きる可能性がある…

Roche 454のクオリティトリミングツール QTrim

QTrimは454のトリミングツール。PRINSEQと同等のパフォーマンスを持つとされる。 公式HP http://hiv.sanbi.ac.za/software/qtrim#Installation webサーバー http://hiv.sanbi.ac.za/tools/#/qtrim インストール 公式HPから実行可能なバイナリと454のテストデ…

アダプターやプライマーのコンタミを除く AlienTrimmer

シーケンスされる長さより短いライブラリサイズのシーケンスを行うと、3'側にアダプタやバーコードが出現する。このような汚染配列があると、後の解析に悪影響を与える可能性があるため、クオリティチェックの時に除くのが望ましい。AlienTrimmerはユーザが…

アダプタートリミングツール Skewer

Skewerは並列化に対応したアダプタートリミングツール。ミスマッチの閾値を設定し、それ以上の配列を全てトリミングするように設計されている。シングルエンド、ペアードエンド、ロングインサートのメイトペアのシーケンスリードを扱うことができる。Demulti…

アダプター配列を自動検出し、トリミングするPEAT

PEATはアダプターの自動トリミングツール。アダプター配列を入力しなくても、頻出する配列を自動で探し出してトリミングを実行する。並列化にも対応しており、高速なトリミングが可能である。論文中ではChIP-seq、MNase-seq、およびRNA-seqなどのデータを使…

並列化に対応したアダプタートリミングツール Atropos

AtroposはCutadaptのフォークとして開発されたNGSのアダプタートリミングツール。並列化に対応しており、高速に動作する。Cutadaptよりセンシティブで(ミスマッチを考慮する)、miRNAやbisulfite-seq用のトリミングモードも備える。エラー率やアダプター配…

メタゲノムデータからホストゲノムなどのコンタミを除く作業を自動化するラッパーツール KneadData

バクテリアのメタゲノム解析では、度々ホストゲノムのコンタミリードがシーケンスされてしまうことがある。KneadDataはそのようなホスト由来のリードや低クオリティのリードをフィルタリングするために設計されたツールである。 Trimmomaticでのクオリティト…