2017-12-01から1ヶ月間の記事一覧
2020 12/29 タイトル修正 複数ファイルのk-merをカウントし、共通/固有のk-merを抽出できる Genome Tester4 =>複数ファイルのk-merをカウントし、共通/固有のk-merを抽出する Genome Tester4 GenomeTester4はk-merをカウントしたり、操作するためのパッケ…
tophatはスプライシングされた領域を跨ぐアライメントが可能なRNAのマッピングツールだが、他のアライメントユーツとは異なり、tophatのすべてのバージョンはアライメントされなかったリードを独自形式で別のbamに書き込む。このフォーマットが理由で、unmap…
2020 10/5 インストール追記 技術の急速な進歩により、何千もの種のゲノムの配列が利用できるようになってきている。これらの配列の中には、ゲノムの大部分を構成するリピートが含まれている。そのため、アノテーションを成功させるためには、リピートを正確…
RepeatMaskerはTEなどの検索によく使われているが、プリコンパイルされたライブラリを必要とする。ゲノム解析された哺乳類では、このプリコンパイルされたライブラリを用いてTE検索が可能になるが、植物で近縁種のゲノムを使った場合、うまくいかないことが…
2018 10/26追記 2019 10/28インストール追記 2020 4/29 追記 BBtoolsを使うと簡単にマルチFASTAを分割できる(BBtools)。 インストール conda install -c bioconda -y bbmap > partition.sh -h $ partition.sh -h Written by Brian Bushnell Last modified …
2018 11/07追記 2018 11/16 誤字修正 2020 9/26 NCBI Staffのツイート追記 プライマーデザイン時には、GC率が適度か、ヘアピンループを取らないか、ダイマーを作らないかなどはチェックされるが、ゲノム全体で特異的な増幅が可能な組み合わせになっているか…
Projector 2はリファンレンスのゲノムを使い、de novo assemblyで作ったcontigをconcatenateして、さらに隣接したcontigを跨ぐ特異的なプライマーを自動設計して、Finishingを助けるツール。contigの接続の指標となる参照するゲノムはドラフトでも使える。リ…
De Brujinのgraphを使うde novo assemblyの手法は、OLCのgraphを使った手法が苦手とするエラーが多い領域のアセンブルに強く、大量のリードの処理効率も優れている。しかしながら、リードをk-merサイズに分解するため、k-mer以上の繰り返し配列がある領域の…
FMOCは(bwaやbowtieも使っている)FMインデックスを使ったエラー補正の方法論。ハイクオリティなデータセットであるなら、エラー補正能の感度は高いとされる。計算にかかる時間はKarectと同等(karectリンク)。 インストール cent OSに導入した。 本体 Git…
ロングリードを使ったRNA seqはまだ情報が少ない。Evaluation of tools for long read RNA-seq splice-aware alignment.というタイトルのこの論文では、PacBioとONT Minionを使い、エラーの多いロングリードがアライナーの種類によってどう扱われれるのか、…
2022/12/27更新 ABySS1.0はヒトゲノムのアセンブルも可能であったが、SOAPdenovoなどと同様600GB以上のメモリを必要とするなどコンピュータ負荷が高い問題があった。AByss2.0は一桁以上メモリ要求量を減らし、より効率的にアセンブルが行えるように工夫され…
QTrimは454のトリミングツール。PRINSEQと同等のパフォーマンスを持つとされる。 公式HP http://hiv.sanbi.ac.za/software/qtrim#Installation webサーバー http://hiv.sanbi.ac.za/tools/#/qtrim インストール 公式HPから実行可能なバイナリと454のテストデ…
シーケンスされる長さより短いライブラリサイズのシーケンスを行うと、3'側にアダプタやバーコードが出現する。このような汚染配列があると、後の解析に悪影響を与える可能性があるため、クオリティチェックの時に除くのが望ましい。AlienTrimmerはユーザが…
Primiqueは特異的なプライマーを自動設計してくれるツール。高い相同性を持つ遺伝子ファミリーからなるような配列から特異的、または縮退した配列を設計するのに重宝する。 webサーバー http://cgi-www.cs.au.dk/cgi-chili/primique/front.py how to use htt…
GenomeTester 1.3はプライマーペアの結合サイトをゲノム全体から調べて、どれだけの断片が増幅されるのか予測するツール。データベース化されたヒトゲノムといくつかのモデル真核生物ゲノムで使用できる。 webサーバー http://bioinfo.ebc.ee/genometester/ …
BLESS、BLESS2はショートリードのエラー補正ツール。BLESSはやや遅いという問題点があった。BLESS2は並列化に対応することで高速化された。またメモリ効率、および精度の要素でもBLESSより改善しているとされる。特に複数のノードが使える条件でランタイムは…
CoLoRMapはショートリードを使ったロングリードのエラー補正ツール。エラー補正によってPacbioのノイジーなロングリードのマッチ率が5~10%上昇する(blasrでアライメントして、マッチした領域内でリファレンスと一致した塩基の割合)。精度は他のツールと同…
XSはIon Torrent、Roche-454、Illumina、SOLiDに対応したショートリードのシミュレータ。軽量で依存がないように設計されている。クラウドに向けて時間とメモリに応じていくつかの実行モードを備えている。リファンレスは使わない。塩基はランダム発生され、…
ゲノム変異の研究には、次世代シーケンシング(NGS)技術が広く使用されている。ヒトゲノムの変異は、通常、配列決定されたリードをマッピングし、次いでgenotypeのコールを行うことによって検出される(論文より ref.1-4)。標準的なパイプラインでは、rawシ…
多くのインフォマティクスツールはzlibのAPIを介してgzip圧縮ファイルを直接読み込むことができるが、オーサーらはgzipより圧縮率が高く、ファイル内のk-merを紹介できるツールBEETLを開発した。BEETL (Burrows-Wheeler Extended Tool Library) はfastq、fas…
QuorUMはMaSuRCAなどにも組み込まれているエラーコレクションパイプライン。 インストール Github https://github.com/gmarcais/Quorum brewで導入できる( macではエラーになったのでubuntu14.4にlinuxbrewで入れた)。 > quorum --help user$ quorum --help …
LoRMAはPacbioなどのロングリードのエラーコレクションツール。ロングリードのエラーコレクションは、ショートリードを使ったハイブリッドなエラーコレクション法とロングリード自身を使ったエラーコレクション法が報告されている。LoRMAは後者に属する方法…
NIKSはリファンレンスが利用できないようなサンプルについて、NGSデータを直接比較して変異を検出する方法論。k-merの分析から、サンプル特異的な配列を検出している。 本手法によって、リファレンスゲノムがない非モデル植物のホモの変異も検出することが可…
2019 9/11 インストール追記 KMCは高速なk-merカウントの方法論。初代KMC、KMC2、KMC3が発表されている。ここではversion3のKMC3について記載する。ヒトゲノムの619GBのgz圧縮fastqを89分で分析できたと書かれている(2.3GHzの12コア、HDD2台のストライピン…
2019 7/26 help追記 2019 12/30 タイトルのpacbio削除、コマンド修正 LoRDECはショートリードを使ってロングリードのエラー修正を行う方法論。ロングリードによるセルエラー修正は深いカバレッジを必要とし、コストが高くなるデメリットを持つ。 LoRDECは低…
2020 8/7 インストール追記 Rcorrectorはシーケンスカバレッジが異なるデータに適応可能なエラー補正の方法論。RNAのNGSデータだけでなく、カバレッジが不均一なシングルセルに対しても適応可能となっている(ウィルスも可能?)。もう一つのRNA用エラーコレ…
インストール cent OSに導入した。 Github https://github.com/sheikhizadeh/ACE/ brewで導入できる。 パスが通ったディレクトリに移動しておく。 user$ delly ********************************************************************** Program: Delly This…
インストール cent OSに導入した。 Github https://github.com/mourisl/Lighter git clone https://github.com/mourisl/Lighter.gitcd Lighter/make./lighter #動作確認 ghter]$ lighter Usage: ./lighter [OPTIONS] OPTIONS: Required parameters: -r seq_f…
2018 12/07 コマンド修正 2021 1/21 help更新 Musketはk-merスペクトルに基づいたエラー補正ツール。他のエラー補正ツールよりメモリ要求量が少ないとされている(ref.1)。 Musket HP http://musket.sourceforge.net/homepage.htm インストール cent OSとub…
HiseqX10などの登場でシーケンススループットはますます高まっているが、ソフトの方が追いついていない。200GBのデータを処理するのに、BWA MEMだと1CPU使用で80時間程度かかる(20コアでようやく10-20時間)。解決には分散コンピューティング(e.g., pBWA、Sp…