macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

2017-01-01から1年間の記事一覧

複数ファイルのk-merをカウントし、共通/固有のk-merを抽出する Genome Tester4

2020 12/29 タイトル修正 複数ファイルのk-merをカウントし、共通/固有のk-merを抽出できる Genome Tester4 =>複数ファイルのk-merをカウントし、共通/固有のk-merを抽出する Genome Tester4 GenomeTester4はk-merをカウントしたり、操作するためのパッケ…

TopHatのunmapped.bamを修復する TopHat-Recondition

tophatはスプライシングされた領域を跨ぐアライメントが可能なRNAのマッピングツールだが、他のアライメントユーツとは異なり、tophatのすべてのバージョンはアライメントされなかったリードを独自形式で別のbamに書き込む。このフォーマットが理由で、unmap…

TE及び単純反復をDe novoで検出する Red

2020 10/5 インストール追記 技術の急速な進歩により、何千もの種のゲノムの配列が利用できるようになってきている。これらの配列の中には、ゲノムの大部分を構成するリピートが含まれている。そのため、アノテーションを成功させるためには、リピートを正確…

TEなどのリピート配列をDe novoで検出し、マスクするphRAIDER

RepeatMaskerはTEなどの検索によく使われているが、プリコンパイルされたライブラリを必要とする。ゲノム解析された哺乳類では、このプリコンパイルされたライブラリを用いてTE検索が可能になるが、植物で近縁種のゲノムを使った場合、うまくいかないことが…

Mulit-FASTAの分割 (split)

2018 10/26追記 2019 10/28インストール追記 2020 4/29 追記 BBtoolsを使うと簡単にマルチFASTAを分割できる(BBtools)。 インストール conda install -c bioconda -y bbmap > partition.sh -h $ partition.sh -h Written by Brian Bushnell Last modified …

特異的なプライマーを自動設計する Primer BLAST

2018 11/07追記 2018 11/16 誤字修正 2020 9/26 NCBI Staffのツイート追記 プライマーデザイン時には、GC率が適度か、ヘアピンループを取らないか、ダイマーを作らないかなどはチェックされるが、ゲノム全体で特異的な増幅が可能な組み合わせになっているか…

リファレンスゲノム情報を使ってcontigをソートし、ギャップクローズのPCRプライマーを自動設計するProjector 2

Projector 2はリファンレンスのゲノムを使い、de novo assemblyで作ったcontigをconcatenateして、さらに隣接したcontigを跨ぐ特異的なプライマーを自動設計して、Finishingを助けるツール。contigの接続の指標となる参照するゲノムはドラフトでも使える。リ…

String graphとde Bruin graphを使ったアセンブルを行う StriDe

De Brujinのgraphを使うde novo assemblyの手法は、OLCのgraphを使った手法が苦手とするエラーが多い領域のアセンブルに強く、大量のリードの処理効率も優れている。しかしながら、リードをk-merサイズに分解するため、k-mer以上の繰り返し配列がある領域の…

エラーコレクションツール FMOC

FMOCは(bwaやbowtieも使っている)FMインデックスを使ったエラー補正の方法論。ハイクオリティなデータセットであるなら、エラー補正能の感度は高いとされる。計算にかかる時間はKarectと同等(karectリンク)。 インストール cent OSに導入した。 本体 Git…

RNAseqのロングリードのアライメントの評価ツール RNAseqEval

ロングリードを使ったRNA seqはまだ情報が少ない。Evaluation of tools for long read RNA-seq splice-aware alignment.というタイトルのこの論文では、PacBioとONT Minionを使い、エラーの多いロングリードがアライナーの種類によってどう扱われれるのか、…

ABySS 2.0アセンブラ

2022/12/27更新 ABySS1.0はヒトゲノムのアセンブルも可能であったが、SOAPdenovoなどと同様600GB以上のメモリを必要とするなどコンピュータ負荷が高い問題があった。AByss2.0は一桁以上メモリ要求量を減らし、より効率的にアセンブルが行えるように工夫され…

Roche 454のクオリティトリミングツール QTrim

QTrimは454のトリミングツール。PRINSEQと同等のパフォーマンスを持つとされる。 公式HP http://hiv.sanbi.ac.za/software/qtrim#Installation webサーバー http://hiv.sanbi.ac.za/tools/#/qtrim インストール 公式HPから実行可能なバイナリと454のテストデ…

アダプターやプライマーのコンタミを除く AlienTrimmer

シーケンスされる長さより短いライブラリサイズのシーケンスを行うと、3'側にアダプタやバーコードが出現する。このような汚染配列があると、後の解析に悪影響を与える可能性があるため、クオリティチェックの時に除くのが望ましい。AlienTrimmerはユーザが…

ファミリー遺伝子などから特異的なプライマーを自動設計するwebツール Primique

Primiqueは特異的なプライマーを自動設計してくれるツール。高い相同性を持つ遺伝子ファミリーからなるような配列から特異的、または縮退した配列を設計するのに重宝する。 webサーバー http://cgi-www.cs.au.dk/cgi-chili/primique/front.py how to use htt…

プライマーがどれだけユニークか調べるwebツール GenomeTester 1.3

GenomeTester 1.3はプライマーペアの結合サイトをゲノム全体から調べて、どれだけの断片が増幅されるのか予測するツール。データベース化されたヒトゲノムといくつかのモデル真核生物ゲノムで使用できる。 webサーバー http://bioinfo.ebc.ee/genometester/ …

エラーコレクションツール BLESS2

BLESS、BLESS2はショートリードのエラー補正ツール。BLESSはやや遅いという問題点があった。BLESS2は並列化に対応することで高速化された。またメモリ効率、および精度の要素でもBLESSより改善しているとされる。特に複数のノードが使える条件でランタイムは…

ロングリードのハイブリッドエラーコレクションツール CoLoRMap

CoLoRMapはショートリードを使ったロングリードのエラー補正ツール。エラー補正によってPacbioのノイジーなロングリードのマッチ率が5~10%上昇する(blasrでアライメントして、マッチした領域内でリファレンスと一致した塩基の割合)。精度は他のツールと同…

fastq のシミュレーター XS (リファンレスなし)

XSはIon Torrent、Roche-454、Illumina、SOLiDに対応したショートリードのシミュレータ。軽量で依存がないように設計されている。クラウドに向けて時間とメモリに応じていくつかの実行モードを備えている。リファンレスは使わない。塩基はランダム発生され、…

アライメントフリーでk-merデータベースから高速にバリアントを検出する FastGT

ゲノム変異の研究には、次世代シーケンシング(NGS)技術が広く使用されている。ヒトゲノムの変異は、通常、配列決定されたリードをマッピングし、次いでgenotypeのコールを行うことによって検出される(論文より ref.1-4)。標準的なパイプラインでは、rawシ…

検索可能な圧縮を行う BEETL

多くのインフォマティクスツールはzlibのAPIを介してgzip圧縮ファイルを直接読み込むことができるが、オーサーらはgzipより圧縮率が高く、ファイル内のk-merを紹介できるツールBEETLを開発した。BEETL (Burrows-Wheeler Extended Tool Library) はfastq、fas…

イルミナのエラーコレクションツール QuorUM

QuorUMはMaSuRCAなどにも組み込まれているエラーコレクションパイプライン。 インストール Github https://github.com/gmarcais/Quorum brewで導入できる( macではエラーになったのでubuntu14.4にlinuxbrewで入れた)。 > quorum --help user$ quorum --help …

ロングリードのセルフエラーコレクションツール LoRMA

LoRMAはPacbioなどのロングリードのエラーコレクションツール。ロングリードのエラーコレクションは、ショートリードを使ったハイブリッドなエラーコレクション法とロングリード自身を使ったエラーコレクション法が報告されている。LoRMAは後者に属する方法…

複数ゲノムを比較してリファレンスがないデータから変異を検出する NIKS

NIKSはリファンレンスが利用できないようなサンプルについて、NGSデータを直接比較して変異を検出する方法論。k-merの分析から、サンプル特異的な配列を検出している。 本手法によって、リファレンスゲノムがない非モデル植物のホモの変異も検出することが可…

高速なk-merカウントツール KMC3

2019 9/11 インストール追記 KMCは高速なk-merカウントの方法論。初代KMC、KMC2、KMC3が発表されている。ここではversion3のKMC3について記載する。ヒトゲノムの619GBのgz圧縮fastqを89分で分析できたと書かれている(2.3GHzの12コア、HDD2台のストライピン…

ハイブリッドエラーコレクションツール LoRDEC

2019 7/26 help追記 2019 12/30 タイトルのpacbio削除、コマンド修正 LoRDECはショートリードを使ってロングリードのエラー修正を行う方法論。ロングリードによるセルエラー修正は深いカバレッジを必要とし、コストが高くなるデメリットを持つ。 LoRDECは低…

RNA seqのエラーコレクションツール Rcorrector

2020 8/7 インストール追記 Rcorrectorはシーケンスカバレッジが異なるデータに適応可能なエラー補正の方法論。RNAのNGSデータだけでなく、カバレッジが不均一なシングルセルに対しても適応可能となっている(ウィルスも可能?)。もう一つのRNA用エラーコレ…

エラーコレクションツール ACE

インストール cent OSに導入した。 Github https://github.com/sheikhizadeh/ACE/ brewで導入できる。 パスが通ったディレクトリに移動しておく。 user$ delly ********************************************************************** Program: Delly This…

エラーコレクションツール lighter

インストール cent OSに導入した。 Github https://github.com/mourisl/Lighter git clone https://github.com/mourisl/Lighter.gitcd Lighter/make./lighter #動作確認 ghter]$ lighter Usage: ./lighter [OPTIONS] OPTIONS: Required parameters: -r seq_f…

illuminaのエラーコレクションツール Musket

2018 12/07 コマンド修正 2021 1/21 help更新 Musketはk-merスペクトルに基づいたエラー補正ツール。他のエラー補正ツールよりメモリ要求量が少ないとされている(ref.1)。 Musket HP http://musket.sourceforge.net/homepage.htm インストール cent OSとub…

BWAに近い精度でかつ数倍高速なマッピングツール FSVA

HiseqX10などの登場でシーケンススループットはますます高まっているが、ソフトの方が追いついていない。200GBのデータを処理するのに、BWA MEMだと1CPU使用で80時間程度かかる(20コアでようやく10-20時間)。解決には分散コンピューティング(e.g., pBWA、Sp…