tips
DEX-SeqをSupertranscriptsに適用することで、ある条件や処理に反応してリードカバレッジが統計的に有意な差を示す異なる転写産物セグメントを介して、 differential transcript usage(DTU)を探索することが可能。 TrinityツールキットのDTU解析のためのミ…
TrinotateとGOseq、Trinityのスクリプトを組み合わせることで、遺伝子セット間の機能的エンリッチメント解析を行うことができる。Trinityのマニュアルに習い、使い方を確認しておく。 インストール ubuntu18.04でtrinityの仮想環境を作ってテストした。Rのバ…
Trinityに付属するスクリプトrun_DE_analysis.plを使うと、BioconductorのRパッケージを使って発現変動遺伝子群を同定して分析することができる。Trinityのabundance_estimates_to_matrix.plなどを使って得た発現行列ファイルを使う。 手順はTrinityのマニュ…
Trinityに付属するスクリプトPtRは、生物学的複製が十分に相関していることを確認し、またサンプル間の関係を調査するためのユーティリティツールである。Trinityのabundance_estimates_to_matrix.plなどを使って得た発現量の行列ファイルを使う。Trinityの…
Trinityに付属するスクリプトabundance_estimates_to_matrix.plは、align_and_estimate_abundance.plの出力を入力として、複数サンプルを(正規化しつつ)統合した発現行列ファイルを生成するスクリプト。Trinityのマニュアルに習い、使い方を確認しておく。…
bowtie2はマッピング結果の要約統計を標準エラー出力として報告する。Trinityのwikiでは、これを利用してde novo transcriptome assemblyを評価する流れがまとめられている。 RNA Seq Read Representation by Trinity Assembly · trinityrnaseq/trinityrnase…
2021 11/27 追記 まだ初期のアルファリリースということですが、DRAGMAPを試してみました。詳しくはGATKのブログを読んで下さい。BWA-MEMとの性能比較では、興味深い結果が提示されています。 GATK blog Introducing DRAGMAP, the new genome mapper in DRAG…
パスウェイ解析(PA)は、機能的エンリッチメント解析としても知られている(引用)。パスウェイ解析ツールの目的は、ハイスループットテクノロジーから得られたデータを解析し、コントロールと比較してケースサンプルで変化している関連した遺伝子群(特定…
2021 9/23,9/24 誤字修正 2022 1/10 追記 複数の方からsamtoolsやbowtie2が動作しないという連絡をいただいたので、今日はその対処方法を検討します。通常、このような問題をいただいた場合、調べる側としては、その方が該当するツールをどのような環境にど…
GATK Best Practices for variant callingに完全対応したelPrep5 (紹介) には、大きく分けて2つのモードが用意されています。1つ目は完全にRAM内で動作する(フィルタ)モードで、これは中間ファイルを全く書き出さず完全にRAM内で計算を進めるため、非常…
2021 8/24 誤字修正 SAMファイルのFLAGフィールドは、10進数で0から65535 (2^16-1) の間の値を取る。bitwise FLAG になっていて、2の累乗(2^n)でアラインメントの状態(プロパティ、属性)が定義できる。複数の属性を定義できるようになっている。各桁の…
2022/03/06 duplicated IDの配列の修正にseqkit renameを使うように修正 2023/08/10追記 mm2-fastについて紹介しましたが、上手く導入できなかったたため一旦非公開にしました。失礼しました。代わりに簡単な記事を書きます。 メタゲノムのビニングが終わっ…
Bandageのreduceコマンドを使うと、アセンブリググラフの中のターゲット配列を、隣接するノードと一緒に取り出すことができます。また、特定のカバレッジ範囲内にあるアセンブリグラフだけ取り出したりもできるため、メタゲノムアセンブリから一定の存在量の…
MIRAbait: 256bpまでのkmerのための「grep」のようなツール mirabaitは、リードコレクションの中から、ターゲットベイトとして定義された配列と部分的に類似した、あるいは等しいリードを選択する。類似性とは、ベイト配列と選択されるスクリーニング配列の…
マークダウンのビューアを持っていない人に向け、マークダウン記法で書かれた文書(例えばREADME.md)をPDFなどに変換してから送ることがあります。Pandocを使うとこの変換が簡単にできます。 User Guide https://pandoc.org/MANUAL.html Pandoc User’s Guid…
メタゲノムのアセンブリでは、アセンブリの連続性を高めるために、最初のメタゲノムアセンブリ配列を重複付きで分割して、OLCアセンブラの入力として使用することがある(例えばOPERA-MSやminimus2)。この重複ありのcontigの分割には、pyfastaのsplitコマン…
計算生物学では、生物学的データファイルの読み取りと理解が必要になる。SAM、VCF、GTF、PDB、FASTAなどの平文フォーマットには、データ構造の複雑さによって難読化された重要な情報が含まれていることが多い。bioSyntax (https://biosyntax.org/) は、vim、…
2021 5/8 タイトル修正 Conda-forgeのMiniforgeレポジトリには、conda-forge に特化した Conda の最小インストーラーが用意されています。Miniforgeレポジトリは Miniconda と同等ですが、Conda-forge がデフォルトのチャンネルとして設定されています。また…
2021 5/5 コードのsamtoolsへパイプする部分でWSLのランがエラーになったため、改行を除去 2021 5/9 画像追加 Nextflowなどのworkflow managerを使って解析パイプラインを記述しておくことで、再現性のある解析が可能になります。午後の空き時間を使って簡単…
Dockerイメージ作成時のベースイメージを作って、それをpullするようにすると捗ります。試してみます。 ここではcondaコマンドを使えるようにminiocndaを導入するイメージを作成します。それからこのイメージをベースに新しいイメージを作成します。 1:ベ…
2021 4/16 タイトル変更、文章修正, 画像差し替え 2022/07/01、09/07 追記 2023/10/17 追記 Bowtie 2の--un-concオプションを使うと、リファレンスに適切にマッピングされなかったペアエンドリード(discordant read pairs)を別出力できる。このオプション…
Introducing repo2dockerより repo2dockerは、Pythonで書かれた軽量のコマンドラインツールで、gitリポジトリへのパスやURLを受け取り、それに適したdockerイメージを作成します。これを実現するために、人間が行うであろうステップを踏んでいます。すなわち…
2021 2/17 tips追記 IGVをより便利に使う方法はないでしょうかという質問があったので、今日は自分が知っているIGVのtipsをいくつか紹介します。 IGVの公式動画チャンネルがあります。 統合TVでもIGVの基本的な使い方について分かりやすく説明されています …
2021 2/11 誤りを修正 2021 4/26 Rについて追記 2021 4/30 tips追記 2022 2/7 再インストール追記 Githubより Mamba は C++ での conda パッケージマネージャの再実装です。マルチスレッドを使ったリポジトリデータとパッケージファイルの並列ダウンロード、…
2021 1/21, 1/30 文章修正 HTSのシークエンシングリードのデータ解析では、巨大なテキストファイルを読み込み、何らかの計算を行なって結果をファイル保存します。これを繰り返して最終的に生物学的な洞察に繋げるわけですが、この繰り返しで、大きなファイ…
2020/11/19 誤字修正 NCBIの識別子がGCA_で始まるゲノムアセンブリはGenBankアセンブリと呼ばれる。GenBankアセンブリは、ユーザーがサブミットしたゲノムアセンブリを意味する。また、識別子がGCF_で始まるゲノムアセンブリは、RefSeqのアセンブリである。…
2020 11/2 誤字修正 先日紹介したneedleallやvsearchによるall versus allの配列比較のテキスト出力をもとに、ヒートマップで視覚化する。ここではggplot2パッケージを使う。 EMBOSS needleallによるall versus allの配列比較 1、配列の準備 all versus all…
2020 10/25 追記 ハイスループットシークエンシング技術の普及により、NCBIなどの塩基配列データベースに登録されるゲノム数は爆発的に増大している。BLAST検索をやり直したら少し前は無かったゲノム情報が出てきた、という話も度々耳にする。特にバクテリア…
2020 9/17、9/20 文章修正 3990x(64コア)のような多くのCPUコアが利用できるプロセッサを積んだ計算機を使いこなすには、高度に並列化された計算が欠かせない。しかし並列化は技術的に可能なケースと不可能なケースが存在する。並列化が捗りそうなHigh-Thr…
2020 9/9,9/10 コード修正 タイトルの通り。 インストール condaでpython3.7の仮想環境を作ってテストした(macos10.14)。 依存 ncbitax2lin requires python-3.7 Github conda create -n ncbitax2lin -y python=3.7conda activate ncbitax2linpip install …