macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

mask

GTF/GFFファイルのツールキット AGAT

2023/02/27 intron addに追記 HPより AGATは、あらゆる種類のGTFやGFFの欠落情報(特徴や属性)をチェック、修正、追加し、完全でソートされた標準的なgff3形式を作成する能力を備えている。長年にわたり、GTF/GFFフォーマットファイルに関連するあらゆるタ…

Redを使ったゲノムアセンブリのソフトマスクを行う redmask

タイトルの通りのツール。ランするにはRed (Repeat Detector) とbiopythonが必要。 インストール Github mamba create -n red python=2.7 -yconda activate red#red,biopython,natsortmamba install -c bioconda -y red biopython natsortgit clone https://…

リピートをマスクする RepeatMasker

2021 3/26 コマンド追加 2022/12更新 2023/01/08, 01/9 追記 RepeatMasker は、DNA 配列をスクリーニングして、散在したリピート配列や、複雑性の低い DNA 配列を検出するプログラムである。プログラムの出力は、クエリ配列に存在するリピートの詳細なアノテ…

ゲノムの指定した領域をNでマスクする

bedtoolsを使う。 Document bedtoolsのインストール 本体 Github #bioconda(link)condaw install -c bioconda -y bedtools > bedtools maskfasta $ bedtools maskfasta Tool: bedtools maskfasta (aka maskFastaFromBed) Version: v2.29.0 Summary: Mask a f…

多機能な配列処理ツール VSEARCH(USEARCHの代替)

2019 8/9 説明の誤り修正 2019 9/15 両鎖クラスタリングのコメント追加 Rockström et al. (2009) とSteffen et al. (2015) は、生物多様性の損失を人類の短期生存のための主要な脅威として提示した。シークエンシング技術における最近の進歩は、深海熱水孔か…

fasta/fastqのlow complexity領域をマスクする komplexity

komplexityはFAST [A / Q]ファイルから複雑度の低いシーケンスをすばやく計算および/またはマスクするために開発された。複雑さを評価するために、長さで割ったシーケンス上の一意のk-mer値を使用する。例えばk = 4の場合、正規化複雑度スコアが<0.55である…

非相同な領域をマスクしてアライメントの誤りを防ぐ PREQUAL

2018 12/02 mafftコマンドの誤り修正 系統的なデータセットには、品質の低い配列または誤った遺伝子モデルのために、常に、相同性のないストレッチが含まれる。大規模なデータセットでは、これらの手動によるキュレーションはできないが、この作業を自動化で…

BAMを感心対象のみにフィルタリングする VariantBam

2020 4/17 インストール追記、help更新 ゲノムシーケンスのコストが減少するにつれて、大規模なシーケンスデータセットを取り扱う際のストレージおよび計算上の負担が増大する懸念がある。ヒトゲノムの全ゲノムシーケンシングを30倍のカバレッジにすると、お…

リピート領域をマスクしてプライマー設計を支援するPrimer3_maskerと、プライマーを作成するprimer3

#2018 9/20 brew によるインストールとprimer3のコマンド追加 2018 10/22 わかりにくい部分を修正 2020 3/9 インストール手順修正 2020 3/18 誤字修正 2021 4/18 インストール手順修正 Primer3_maskerは、ゲノムに対してk-mer頻度のデータベースを構築し、プ…

TEなどのリピート配列をDe novoで検出し、マスクするphRAIDER

RepeatMaskerはTEなどの検索によく使われているが、プリコンパイルされたライブラリを必要とする。ゲノム解析された哺乳類では、このプリコンパイルされたライブラリを用いてTE検索が可能になるが、植物で近縁種のゲノムを使った場合、うまくいかないことが…

トランスポゾンなどのリピートをde novoで探す RepeatScout

RepeatScoutはゲノム中のトランスポゾンなどのリピートを探すツール。リピートを見つけると、そのシードを保存性がなくなるまで伸長する戦略をとることで、見つかりにくい長くてやや配列に違いがあるリピートまで探索することが可能とされる(タンデムリピー…

多機能なNGS分析ツール BBtools 其の2

20196/13 タイトル修正 2020 7/24 bbdukコマンド追記 の続き。BBtoolsの残りのコマンドを紹介する。紹介するのは以下のコマンド。 Reformat - フォーマット変換やクオリティトリミング。 Repair - ペアリードの順番が壊れたファイルを修復する。 Stats - ア…

bedtools

追記 bedgraph出力 2019 9/4 インストール、twitterリンク追加 BEDファイルのオーバーラップ領域を抽出したり、マージしたりできるツール。BED以外にGFF、VCFも扱うことができる。bedtools <command> -a .bed -b .bedという使い方が基本。-aで指定したbedを-bで指定し</command>…