macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

mask

多機能な配列処理ツール VSEARCH(USEARCHの代替)

2019 8/9 説明の誤り修正 2019 9/15 両鎖クラスタリングのコメント追加 Rockström et al. (2009) とSteffen et al. (2015) は、生物多様性の損失を人類の短期生存のための主要な脅威として提示した。シークエンシング技術における最近の進歩は、深海熱水孔か…

fasta/fastqのlow complexity領域をマスクする komplexity

komplexityはFAST [A / Q]ファイルから複雑度の低いシーケンスをすばやく計算および/またはマスクするために開発された。複雑さを評価するために、長さで割ったシーケンス上の一意のk-mer値を使用する。例えばk = 4の場合、正規化複雑度スコアが<0.55である…

非相同な領域をマスクしてアライメントの誤りを防ぐ PREQUAL

2018 12/02 mafftコマンドの誤り修正 系統的なデータセットには、品質の低い配列または誤った遺伝子モデルのために、常に、相同性のないストレッチが含まれる。大規模なデータセットでは、これらの手動によるキュレーションはできないが、この作業を自動化で…

BAMを感心対象のみにフィルタリングする VariantBam

ゲノムシーケンスのコストが減少するにつれて、大規模なシーケンスデータセットを取り扱う際のストレージおよび計算上の負担が増大する懸念がある。ヒトゲノムの全ゲノムシーケンシングを30倍のカバレッジにすると、およそ10億リードのシーケンスが可能にな…

リピート領域をマスクしてプライマー設計を支援するPrimer3_maskerと、プライマーを作成するprimer3

#2018 9/20 brew によるインストールとprimer3のコマンド追加 2018 10/22 わかりにくい部分を修正 Primer3_maskerは、ゲノムに対してk-mer頻度のデータベースを構築し、プライマーが高頻度に結合する配列をマスクすることで、特異的なプライマー設計が行える…

TEなどのリピート配列をDe novoで検出し、マスクするphRAIDER

RepeatMaskerはTEなどの検索によく使われているが、プリコンパイルされたライブラリを必要とする。ゲノム解析された哺乳類では、このプリコンパイルされたライブラリを用いてTE検索が可能になるが、植物で近縁種のゲノムを使った場合、うまくいかないことが…

トランスポゾンなどのリピートをde novoで探す RepeatScout

RepeatScoutはゲノム中のトランスポゾンなどのリピートを探すツール。リピートを見つけると、そのシードを保存性がなくなるまで伸長する戦略をとることで、見つかりにくい長くてやや配列に違いがあるリピートまで探索することが可能とされる(タンデムリピー…

多機能なNGS分析ツール BBtools 其の2

20196/13 タイトル修正 の続き。BBtoolsの残りのコマンドを紹介する。紹介するのは以下のコマンド。 Reformat - フォーマット変換やクオリティトリミング。 Repair - ペアリードの順番が壊れたファイルを修復する。 Stats - アセンブリの基本情報をレポート…