macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

trimming / preprocessing

正確な系統推定のためのアラインメントトリミングツール ClipKIT

複数シーケンスのアラインメントにおける発散性の高い部位は、相同性の誤った推論や置換の飽和に起因しており、系統推論に悪影響を及ぼすと考えられている。トリミング手法は、系統推論の前にこれらのサイトを除去することを目的としているが、最近の解析で…

illumina、BGIのシーケンシングリードの前処理を行う Ktrim

次世代シーケンシング(NGS)データは、品質の悪いサイクルやアダプター汚染に悩まされることが多いため、下流での解析の前に前処理を行う必要がある。最新のシーケンサーのスループットとリードの長さはますます増大しており、前処理のステップは、現在のツ…

シーケンシングリードの前処理を行う AUSPP

ショートリードをリファレンスゲノム/配列にマッピングできるショートリードアライナーは多数あり、それらのほとんどはFASTQファイルを入力クエリファイルとして直接受け入れることができる。ただし、通常、生データは前処理する必要がある。さまざまな次世…

単離バクテリアゲノムのアセンブリ、アノテーション、比較ゲノム解析を行う高度に自動化されたパイプライン ASA3P

2020 3/22 ツイート、関連ツールリンク追記 2020 3/25 コメント追記 2020 3/26 誤字修正 2020 5/12 インストール追記 1977年に、DNAシーケンスがフレデリックサンガーによってサイエンスコミュニティに導入された[ref.1]。それ以来、DNAシーケンスは、ジデオ…

fasta/fastq/bamのユーティリティツール fxtools

インストール ubuntu16.0.4でテストした。 本体 Github git clone https://github.com/yangao07/fxtools.git --recursivecd fxtools; make > ./fxtools $ fxtools Program: fxtools (light-weight processing tool for FASTA, FASTQ and BAM format data) Us…

ニューラルネットワークを使ってONTのロングリードの低クオリティ領域を除く MiniScrub

Pacific Biosciences [ref.1]やOxford Nanopore [ref.2]のような企業のシーケンシング技術がゲノムアセンブリ[ref.1]、[ref.10]、抗菌剤耐性遺伝子[ref.18]、個人用トランスクリプトームシーケンシング[ref.19]、およびドラフトゲノム[ref.20]の改善に寄与し…

アセンブリの前処理としてロングリードのキメラ領域(低オーバーラップ領域)を除く yacrd

2019 コマンドの誤り修正 2020 3/30 バージョンによるコマンドの違いを記載 2020 3/31 version0.6.0のコマンドを一番下に追記 2020 4/23 論文追記 第三世代DNAシーケンシング法(PacBio、オックスフォードナノポア)は、リファレンスゲノムの構築(デノボア…

ターゲットアンプリコンシーケンシングのプライマーを除く pTrimmer

ゲノムの変異検出は、臨床がん研究においてますます一般的になっている[ref.1]。多重アンプリコンに基づくディープシーケンシングは、特定の疾患関連遺伝子の突然変異検出のための主要なアプローチの1つである[ref.1、2、3]。がん関連遺伝子の変異を同定する…

ターゲットアンプリコンシーケンシングのプライマーを除く cutPrimers

リードからのプライマーの切断は、ターゲットアンプリコンのNGSデータを処理する上で重要なステップである。既存のツールは、リードから1つまたはいくつかのプライマー/アダプター配列を切断し、そして出現するそれらすべてを除去するように適合されている…

病原性細菌の同定とタイピングを行うwebツール PathoBacTyper

生物のゲノムDNAは生物学的にfunctionalな遺伝情報を持っている。生物の全ゲノム配列を解読することは、複雑な生物学研究における基本的なタスクである。以前は、完全なバクテリアゲノム配列を解読するために従来のサンガーシーケンシングが使用されていた。…

アンプリコンシーケンシングのアセンブルとクオリティフィルタリングツール moira

16SリボソームRNAなどのマーカー遺伝子のハイスループットシークエンシングは、複雑な微生物群集の分析においてこれまで到達できなかった詳細なレベルの分析を可能にするため、微生物生態の研究者にとって非常に貴重なツールとなっている。 Roche 454、Illum…

PCR duplicationにタグをつけたりエラーを取り除く gencore

2018/12/22 タイトル修正 HIgh depthの次世代シークエンス(NGS)は、癌の精密な診断と治療に広く使用されている。このようなディープシーケンシングデータから、体細胞突然変異を検出して、パーソラナイズされた標的療法または免疫療法のガイドにすることが…

ロングリードの分析とフィルタリングを行う pauvre

2020 2/16 tweet追記、タイトル修正 pauvreはdarrin t schultzさんがGithubに公開されている第三世代ロングリード分析用のユーティリティツール。低クオリティなリードのフィルタリング機能も備えている。 I just updated the pauvre package to make some f…

アダプタートリミング、クオリティトリミング、ペアエンドのマージを一括して行う ClipAndMerge

ClipAndMergeはAlexander PeltzerさんがGithubで公開されている、アダプタートリミング、クオリティトリミング、ペアエンドのマージを一括して行ってくれるツール。ワンライナーでマージしたfastq出力を得ることができる。 インストール mac os10.14のminico…

アダプタートリミングツール illumiprocessor

2018 10/11 コードの誤り修正 Illumiprocessorは、illuminaのSEとPEのシーケンシングリードからアダプターのコンタミネーションをトリミングするツール。 double-indexのリードのトリミングができる。 scytheとsickle(v1.xで使用)よりtrimmomatiを使った方…

bam, fastqのユーティリティツール EA-Utils

2019 9/8 インストール追記 2013年のペーパーより ハイスループットシーケンシング(HTS)は、シーケンシングデータの急速な成長率をもたらした。 著者らのラボでは、毎日テラバイトのデータを生成している。 これは通常、バリアントコーラー、定量およびア…

高速なfastqの前処理パイプライン fastp

2018 10/26 追記 2018 12/06 説明追加 2019 1/11 パラメータ追記 2019 2/25 パラメータ修正 2019 5/6 パラメータ追記 2019 5/23 condaインストール追記 2019 6/10 0.14.1のhelpに更新 2019 6/21 コメント追記 2019 7/14 コマンド追記 2020 1/17 追記 2020 3/…

並列化に対応した高感度なアダプタートリミングツール PEAT

次世代シークエンシング(NGS)プラットフォームでよく知られているシングルエンドシーケンシング技術からmodifyされたペアエンドシーケンシング技術は、ゲノミクスにおいてますます重要な役割を果たしている。 DNA(またはcDNA)断片の2つの鎖の5 '末端を配…

並列化に対応したアダプタートリミングツール AdapterRemoval 2

Fossil material 由来などのごく短いDNA断片のハイスループットシーケンスでは、ライブラリーの調製中にインサートにライゲーションされたアダプター配列をシークエンシングする可能性がある[論文より ref.1]。このような汚染はよく知られた問題であり、下流…

k-merを使ったリードフィルタリングを行う Cookiecutter

次世代シークエンシング技術は、より安価になり、ルーティンの分析に役立っている。アセンブリの前に未処理のリードから特定のシーケンスを抽出または削除することを必要とする多くのタスクがある。抽出された領域特異的なリード(例えば、mtDNAまたはrRNAか…

ロングリードのクオリティ分析とトリミングを行う Filtlong

FiltlongはONTのロングリードのクオリティ分析やクオリティ、リード長のトリミングが行えるツール。ウルトラロングリードを低クオリティ領域でカットして、分割出力する機能も備える。2018年4月現在Githubで公開されている。 インストール mac os10.13に導入…

トリミングツール fqtrim

fqtrimは、アダプター、polyA tail、未知塩基(Ns)および低クオリティな3 '領域をトリミングできる多目的トリミングツール。アダプターとポリA配列の不正確なマッチングにも対応している。 このユーティリティは、複雑さの低い配列(ダスト)のフィルターを…

教師なしトリミングツール UrQt

信頼性の低いヌクレオチドがあると、後の分析において偽陰性および偽陽性の数を増加させるか、またはデノボアセンブリにおいて誤ったk-merを生成し、アセンブリを複雑にして誤ったアセンブルを引き起こす可能性がある[論文より ref.4]。信頼性の低いヌクレオ…

demulitiplexしてサンプルを分割する sabre

sabreはバーコードをdemulitiplexするツール。バーコードを除いたあと、バーコードに従って分割する。バーコードがないリードは別ファイルにまとめて出力される。gzip入力もサポートしている。 インストール Github https://github.com/najoshi/sabre git cl…

古いサンプルのデータ (fastqやbam) から効率的にアダプターを除く leeHom

古いDNAが断片化したサンプルからのシーケンスが増えている。しばしば数万年前のサンプルからも抽出される古代のサンプルのDNAは断片化が起きており、うまくDNAを抽出してもサイズが100-bpを超えることは滅多にない。短いDNAをペアードエンドでシーケンスす…

バーコードやアダプターをトリミングする AdapterRemoval v2

化石のようなサンプル(リンク)や昔の人の骨、歯から断片化したDNAを抽出してシーケンスシーケンスすることが増えており、それに伴ってアダプターに5'と3'両側が汚染されたシーケンスデータが増えてきている。AdapterRemoval は柔軟なパラメータセットを持…

並列化に対応し、高速にバーコードやアダプターをトリミングする FLEXBAR

FLEXBARはMultiplexで読んだシーケンスのdemultiplexやアダプタートリミングに使われるツール。柔軟な条件でランできる。よく使われているらしく、現在Flexbar3まで発表されている。解析時間は短く、100Mのリードなら数秒〜10秒程度の時間でアダプターをトリ…

様々なバイオインフォマティクスツールの分析結果を1つに集約して分析できる MultiQC

2019 1/16 誤字修正および対応ツール情報更新 2019 12/29 ツイート追加 2020 1/17 condaインストール追記 2020 4/19 説明追記 2020 5/25 ツイート追記 今まで様々なNGSの評価ツールが発表されてきたが、それらは特定のデータを評価するものであり、プロジェ…

固有のindex(バーコード)を設計するTagGD

index (バーコード配列) を設計する際は、判別可能かつ無駄のない適切な長さ、増幅バイアスが起きないようなGC含量、実験データとの干渉がないなどを考える必要がある。それに加えて、index配列に塩基置換、indelなどのシーケンスエラーが起きる可能性がある…

Roche 454のクオリティトリミングツール QTrim

QTrimは454のトリミングツール。PRINSEQと同等のパフォーマンスを持つとされる。 公式HP http://hiv.sanbi.ac.za/software/qtrim#Installation webサーバー http://hiv.sanbi.ac.za/tools/#/qtrim インストール 公式HPから実行可能なバイナリと454のテストデ…