macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

tips

Trinityのインストール

Trinityはバグ修正と性能改善のバージョンアップが続けられていて、2022年5月現在ではv2.14が利用できます。v2.14はまだcondaでは導入できないので、ソースからビルドします。 Installing Trinity https://github.com/trinityrnaseq/trinityrnaseq/wiki/Inst…

Bandageを使ってスモールゲノムアセンブリの難易度を推定する

2022/04/18 誤字修正 ロングリードシークエンシングを行う事で、小さなゲノムであれば、chromosomeの完全長アセンブリ、もしくはそれに近い連続性の高いアセンブリが達成出来きるようになりました。この点で最も恩恵を受けているのは細菌や古細菌などのゲノ…

ゲノムやタンパク質配列セットをMinHash Sketchで比較するsourmash 其の2

2022/04/17 コマンド修正 MinHash Sketch(BBSketchの解説)を構築し、Jaccard指数で比較・検索するsourmashは、発表後もバージョンアップが続けられていて、現在では様々なコマンドが利用できるようになっています。そこで今日は、sourmashのグネチャファイ…

M1 macにバイオインフォマティクスのツールをインストールする

2022/03/20 文章修正 2022/03/24アンケート結果追記 ご存じの通り、新しいmacはCPUがARMアーキテクチャに移行し、x86-64 darwin向けにコンパイルされたプログラムが実行できなくなりました(まだ販売されているintel macもありますが、選択肢は少なくなって…

seqkitに新しく追加されたコマンドを確認する 其の2

2022/03/14追記 これまで数回に分けてseqkitのコマンドを紹介して来ましたが(リンク)、バージョンアップが続いていて、ありがたいことに新しいコマンドも追加されています(谢谢您)。久しぶりに新機能を確認してみます。 この記事を書いたすぐ後にv2.2が…

リソースモニター bashtop

計算リソース使用量が激しいツールを使用していると、環境によっては計算途中にマシンが落ちる可能性があります。例えば自分が良く使っているTR3990xの自作計算機では、最新のv202データベースを使ってGTDB-tkのランした時(ピークメモリが240GB近い)、ゲノ…

GSEApy

Enrichrは哺乳類の遺伝子セットエンリッチメント解析ツールで、転写制御、パスウェイ、GOやヒトの表現型のオントロジー、薬剤で処理した細胞からのシグネチャーなどが収録されている(wiki)。GSEApyはEnrichrのPythonラッパーで、コマンドラインやPython上…

カスタムアノテーションを使った GO enrichment解析の例

2022/01/08追記, 1/13インストール追記 タイトルの通りの内容です。 質問があったのでそれに対応した記事になります。 1、アノテーションファイルの準備 TrinotateかeggNOG mapperを使ってGO termをアサインしていることを想定している。 A - Trinotateのア…

Uniprotのパンプロテオーム

明けましておめでとうございます。 今年もよろしくお願い致します。 パンプロテオームとは、closely related (高度に関連した)生物群(例えば、同じ細菌種の複数の株)によって発現されると考えられるタンパク質の完全な集合のこと(panはギリシャ語で"whole…

DEXseqを使ってSuperTranscriptsの発現解析を行うTrinityのdexseq_wrapper.plスクリプト

DEX-SeqをSupertranscriptsに適用することで、ある条件や処理に反応してリードカバレッジが統計的に有意な差を示す異なる転写産物セグメントを介して、 differential transcript usage(DTU)を探索することが可能。 TrinityツールキットのDTU解析のためのミ…

TrinityアセンブリとTrinotateのアノテーション情報からGOseqによるGO enrichment解析を行うrun_GOseq.plスクリプト

TrinotateとGOseq、Trinityのスクリプトを組み合わせることで、遺伝子セット間の機能的エンリッチメント解析を行うことができる。Trinityのマニュアルに習い、使い方を確認しておく。 インストール ubuntu18.04でtrinityの仮想環境を作ってテストした。Rのバ…

発現変動遺伝子を同定するTrinityのrun_DE_analysis.plスクリプト

Trinityに付属するスクリプトrun_DE_analysis.plを使うと、BioconductorのRパッケージを使って発現変動遺伝子群を同定して分析することができる。Trinityのabundance_estimates_to_matrix.plなどを使って得た発現行列ファイルを使う。 手順はTrinityのマニュ…

Biological replicatesの品質を調べるためのTrinityのPtRスクリプト

Trinityに付属するスクリプトPtRは、生物学的複製が十分に相関していることを確認し、またサンプル間の関係を調査するためのユーティリティツールである。Trinityのabundance_estimates_to_matrix.plなどを使って得た発現量の行列ファイルを使う。Trinityの…

Trinityのabundance_estimates_to_matrix.plスクリプトで発現行列を出力、filter_low_expr_transcripts.plスクリプトで低発現転写産物をフィルタリングする

Trinityに付属するスクリプトabundance_estimates_to_matrix.plは、align_and_estimate_abundance.plの出力を入力として、複数サンプルを(正規化しつつ)統合した発現行列ファイルを生成するスクリプト。Trinityのマニュアルに習い、使い方を確認しておく。…

bowtie2を使ってアセンブルした配列を評価する

bowtie2はマッピング結果の要約統計を標準エラー出力として報告する。Trinityのwikiでは、これを利用してde novo transcriptome assemblyを評価する流れがまとめられている。 RNA Seq Read Representation by Trinity Assembly · trinityrnaseq/trinityrnase…

DRAGENのCPUのみ使う実装 DRAGMAP

2021 11/27 追記 まだ初期のアルファリリースということですが、DRAGMAPを試してみました。詳しくはGATKのブログを読んで下さい。BWA-MEMとの性能比較では、興味深い結果が提示されています。 GATK blog Introducing DRAGMAP, the new genome mapper in DRAG…

STRINGデータベースのランクベース機能的エンリッチメント解析

パスウェイ解析(PA)は、機能的エンリッチメント解析としても知られている(引用)。パスウェイ解析ツールの目的は、ハイスループットテクノロジーから得られたデータを解析し、コントロールと比較してケースサンプルで変化している関連した遺伝子群(特定…

バイオインフォのツールが動かない問題を試行錯誤しながら直す

2021 9/23,9/24 誤字修正 2022 1/10 追記 複数の方からsamtoolsやbowtie2が動作しないという連絡をいただいたので、今日はその対処方法を検討します。通常、このような問題をいただいた場合、調べる側としては、その方が該当するツールをどのような環境にど…

elPrep 5を使ったバリアントコール

GATK Best Practices for variant callingに完全対応したelPrep5 (紹介) には、大きく分けて2つのモードが用意されています。1つ目は完全にRAM内で動作する(フィルタ)モードで、これは中間ファイルを全く書き出さず完全にRAM内で計算を進めるため、非常…

SAMファイルのFLAG値と属性の関係を確認するHP

2021 8/24 誤字修正 SAMファイルのFLAGフィールドは、10進数で0から65535 (2^16-1) の間の値を取る。bitwise FLAG になっていて、2の累乗(2^n)でアラインメントの状態(プロパティ、属性)が定義できる。複数の属性を定義できるようになっている。各桁の…

ビニングして得たfastaのファイル名とヘッダ名を一括リネームする

2022/03/06 duplicated IDの配列の修正にseqkit renameを使うように修正 mm2-fastについて紹介しましたが、上手く導入できなかったたため一旦非公開にしました。失礼しました。代わりに簡単な記事を書きます。 メタゲノムのビニングが終わってbin配列を手に…

Bandageのreduceコマンドを使ってアセンブリグラフから特定のノードを取り出す

Bandageのreduceコマンドを使うと、アセンブリググラフの中のターゲット配列を、隣接するノードと一緒に取り出すことができます。また、特定のカバレッジ範囲内にあるアセンブリグラフだけ取り出したりもできるため、メタゲノムアセンブリから一定の存在量の…

ターゲット配列に関係するシークエンシングリードを集めるMIRAのmirabaitコマンド

MIRAbait: 256bpまでのkmerのための「grep」のようなツール mirabaitは、リードコレクションの中から、ターゲットベイトとして定義された配列と部分的に類似した、あるいは等しいリードを選択する。類似性とは、ベイト配列と選択されるスクリーニング配列の…

Pandocを使ってMarkdownをHTMLやword形式に変換する

マークダウンのビューアを持っていない人に向け、マークダウン記法で書かれた文書(例えばREADME.md)をPDFなどに変換してから送ることがあります。Pandocを使うとこの変換が簡単にできます。 User Guide https://pandoc.org/MANUAL.html Pandoc User’s Guid…

pyfastaを使ってコンティグを重複ありで分割する

メタゲノムのアセンブリでは、アセンブリの連続性を高めるために、最初のメタゲノムアセンブリ配列を重複付きで分割して、OLCアセンブラの入力として使用することがある(例えばOPERA-MSやminimus2)。この重複ありのcontigの分割には、pyfastaのsplitコマン…

計算生物学のシンタックスハイライトパッケージ bioSyntax

計算生物学では、生物学的データファイルの読み取りと理解が必要になる。SAM、VCF、GTF、PDB、FASTAなどの平文フォーマットには、データ構造の複雑さによって難読化された重要な情報が含まれていることが多い。bioSyntax (https://biosyntax.org/) は、vim、…

Minicondaの代わりにMiniforgeインストーラーを使ってcondaの環境を作る

2021 5/8 タイトル修正 Conda-forgeのMiniforgeレポジトリには、conda-forge に特化した Conda の最小インストーラーが用意されています。Miniforgeレポジトリは Miniconda と同等ですが、Conda-forge がデフォルトのチャンネルとして設定されています。また…

Nextflowを使ってバイオインフォマティクスのツールを動かす

2021 5/5 コードのsamtoolsへパイプする部分でWSLのランがエラーになったため、改行を除去 2021 5/9 画像追加 Nextflowなどのworkflow managerを使って解析パイプラインを記述しておくことで、再現性のある解析が可能になります。午後の空き時間を使って簡単…

docker環境にツールを導入していくためのベースイメージを作る。

Dockerイメージ作成時のベースイメージを作って、それをpullするようにすると捗ります。試してみます。 ここではcondaコマンドを使えるようにminiocndaを導入するイメージを作成します。それからこのイメージをベースに新しいイメージを作成します。 1:ベ…

Bowtie 2を使って素早くホスト由来のリードを除く

2021 4/16 タイトル変更、文章修正, 画像差し替え Bowtie 2の--un-concオプションを使うと、リファレンスに適切にマッピングされなかったペアエンドリード(discordant read pairs)を別出力できる。このオプションを利用することで、ホストゲノムのリードを…