macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

tips

NCBI SRA Run Selectorを使う

SRA Run Selectorは、SRAに保存されている大規模なランのセットを取り出し、どのランを解析に使用するかを絞り込み、結果をメタデータとしてダウンロードすることができる。 NCBI-Hackathons/SRA Run Selector Tutorial https://github.com/NCBI-Hackathons/…

BUSCOを使った系統解析

2022/09/13 追記、誤字修正 Current Protocols in BioinformaticsにBUSCOの使い方に関する論文が出ています。(引用1)。その論文のパートの1つ;”Support Protocol 3: BUILDING PHYLOGENOMIC TREES”では、BUSCOがシングルコピーの系統マーカー遺伝子を取り…

UCSF ChimeraX内でColabFoldを使う

2021年の論文より UCSF ChimeraX は、UCSF Chimera に続く、Resource for Biocomputing, Visualization, and Informatics (RBVI) による次世代対話型可視化プログラムである。ChimeraXは、(a) パフォーマンスとグラフィックスの大幅な向上、(b) Chimeraで最…

入力された DNA 配列からオープンリーディングフレームを検索する ORF finder

原核生物のオープンリディングフレーム(ORF)予測ツールは繊細で、頻度は少ないものの、配列のわずかな違いで遺伝子予測されなことが起きることがある。遺伝子予測精度がゲノム配列によって異なると、比較ゲノム解析で遺伝子の有無を調べる際に問題となる。…

NCBIからmitochondria DNAをダウンロードする。

NCBIのOrganelle Genome Resourcesでは、オルガネラゲノム配列をダウンロードできます。ミトコンドリアDNAのfastaファイルをダウンロードしてみます。 NCBIのOrganelle Genome Resourcesにアクセスする。https://www.ncbi.nlm.nih.gov/genome/organelle/ 左…

UniProtKBデータベースをダウンロードしてBLAST検索する。

#2022/07/10誤字修正、07/12誤字修正 #2022/07/28 ツイート追記 Universal Protein Resource (UniProt)は、European Bioinformatics Institute (EBI) (*2)とSIB Swiss Institute Bioinformaticsが共同研究して構築している知識ベースである(*1)。タンパク質…

Trinityのインストール

Trinityはバグ修正と性能改善のバージョンアップが続けられていて、2022年5月現在ではv2.14が利用できます。v2.14はまだcondaでは導入できないので、ソースからビルドします。 Installing Trinity https://github.com/trinityrnaseq/trinityrnaseq/wiki/Inst…

Bandageを使ってスモールゲノムアセンブリの難易度を推定する

2022/04/18 誤字修正 ロングリードシークエンシングを行う事で、小さなゲノムであれば、chromosomeの完全長アセンブリ、もしくはそれに近い連続性の高いアセンブリが達成出来きるようになりました。この点で最も恩恵を受けているのは細菌や古細菌などのゲノ…

ゲノムやタンパク質配列セットをMinHash Sketchで比較するsourmash 其の2

2022/04/17 コマンド修正 MinHash Sketch(BBSketchの解説)を構築し、Jaccard指数で比較・検索するsourmashは、発表後もバージョンアップが続けられていて、現在では様々なコマンドが利用できるようになっています。そこで今日は、sourmashのグネチャファイ…

M1 macにバイオインフォマティクスのツールをインストールする

2022/03/20 文章修正 2022/03/24アンケート結果追記 ご存じの通り、新しいmacはCPUがARMアーキテクチャに移行し、x86-64 darwin向けにコンパイルされたプログラムが実行できなくなりました(まだ販売されているintel macもありますが、選択肢は少なくなって…

seqkitに新しく追加されたコマンドを確認する 其の2

2022/03/14追記 これまで数回に分けてseqkitのコマンドを紹介して来ましたが(リンク)、バージョンアップが続いていて、ありがたいことに新しいコマンドも追加されています(谢谢您)。久しぶりに新機能を確認してみます。 この記事を書いたすぐ後にv2.2が…

リソースモニター bashtop

計算リソース使用量が激しいツールを使用していると、環境によっては計算途中にマシンが落ちる可能性があります。例えば自分が良く使っているTR3990xの自作計算機では、最新のv202データベースを使ってGTDB-tkのランした時(ピークメモリが240GB近い)、ゲノ…

GSEApy

Enrichrは哺乳類の遺伝子セットエンリッチメント解析ツールで、転写制御、パスウェイ、GOやヒトの表現型のオントロジー、薬剤で処理した細胞からのシグネチャーなどが収録されている(wiki)。GSEApyはEnrichrのPythonラッパーで、コマンドラインやPython上…

カスタムアノテーションを使った GO enrichment解析の例

2022/01/08追記, 1/13インストール追記 タイトルの通りの内容です。 質問があったのでそれに対応した記事になります。 1、アノテーションファイルの準備 TrinotateかeggNOG mapperを使ってGO termをアサインしていることを想定している。 A - Trinotateのア…

Uniprotのパンプロテオーム

明けましておめでとうございます。 今年もよろしくお願い致します。 パンプロテオームとは、closely related (高度に関連した)生物群(例えば、同じ細菌種の複数の株)によって発現されると考えられるタンパク質の完全な集合のこと(panはギリシャ語で"whole…

DEXseqを使ってSuperTranscriptsの発現解析を行うTrinityのdexseq_wrapper.plスクリプト

DEX-SeqをSupertranscriptsに適用することで、ある条件や処理に反応してリードカバレッジが統計的に有意な差を示す異なる転写産物セグメントを介して、 differential transcript usage(DTU)を探索することが可能。 TrinityツールキットのDTU解析のためのミ…

TrinityアセンブリとTrinotateのアノテーション情報からGOseqによるGO enrichment解析を行うrun_GOseq.plスクリプト

TrinotateとGOseq、Trinityのスクリプトを組み合わせることで、遺伝子セット間の機能的エンリッチメント解析を行うことができる。Trinityのマニュアルに習い、使い方を確認しておく。 インストール ubuntu18.04でtrinityの仮想環境を作ってテストした。Rのバ…

発現変動遺伝子を同定するTrinityのrun_DE_analysis.plスクリプト

Trinityに付属するスクリプトrun_DE_analysis.plを使うと、BioconductorのRパッケージを使って発現変動遺伝子群を同定して分析することができる。Trinityのabundance_estimates_to_matrix.plなどを使って得た発現行列ファイルを使う。 手順はTrinityのマニュ…

Biological replicatesの品質を調べるためのTrinityのPtRスクリプト

Trinityに付属するスクリプトPtRは、生物学的複製が十分に相関していることを確認し、またサンプル間の関係を調査するためのユーティリティツールである。Trinityのabundance_estimates_to_matrix.plなどを使って得た発現量の行列ファイルを使う。Trinityの…

Trinityのabundance_estimates_to_matrix.plスクリプトで発現行列を出力、filter_low_expr_transcripts.plスクリプトで低発現転写産物をフィルタリングする

Trinityに付属するスクリプトabundance_estimates_to_matrix.plは、align_and_estimate_abundance.plの出力を入力として、複数サンプルを(正規化しつつ)統合した発現行列ファイルを生成するスクリプト。Trinityのマニュアルに習い、使い方を確認しておく。…

bowtie2を使ってアセンブルした配列を評価する

bowtie2はマッピング結果の要約統計を標準エラー出力として報告する。Trinityのwikiでは、これを利用してde novo transcriptome assemblyを評価する流れがまとめられている。 RNA Seq Read Representation by Trinity Assembly · trinityrnaseq/trinityrnase…

DRAGENのCPUのみ使う実装 DRAGMAP

2021 11/27 追記 まだ初期のアルファリリースということですが、DRAGMAPを試してみました。詳しくはGATKのブログを読んで下さい。BWA-MEMとの性能比較では、興味深い結果が提示されています。 GATK blog Introducing DRAGMAP, the new genome mapper in DRAG…

STRINGデータベースのランクベース機能的エンリッチメント解析

パスウェイ解析(PA)は、機能的エンリッチメント解析としても知られている(引用)。パスウェイ解析ツールの目的は、ハイスループットテクノロジーから得られたデータを解析し、コントロールと比較してケースサンプルで変化している関連した遺伝子群(特定…

バイオインフォのツールが動かない問題を試行錯誤しながら直す

2021 9/23,9/24 誤字修正 2022 1/10 追記 複数の方からsamtoolsやbowtie2が動作しないという連絡をいただいたので、今日はその対処方法を検討します。通常、このような問題をいただいた場合、調べる側としては、その方が該当するツールをどのような環境にど…

elPrep 5を使ったバリアントコール

GATK Best Practices for variant callingに完全対応したelPrep5 (紹介) には、大きく分けて2つのモードが用意されています。1つ目は完全にRAM内で動作する(フィルタ)モードで、これは中間ファイルを全く書き出さず完全にRAM内で計算を進めるため、非常…

SAMファイルのFLAG値と属性の関係を確認するHP

2021 8/24 誤字修正 SAMファイルのFLAGフィールドは、10進数で0から65535 (2^16-1) の間の値を取る。bitwise FLAG になっていて、2の累乗(2^n)でアラインメントの状態(プロパティ、属性)が定義できる。複数の属性を定義できるようになっている。各桁の…

ビニングして得たfastaのファイル名とヘッダ名を一括リネームする

2022/03/06 duplicated IDの配列の修正にseqkit renameを使うように修正 mm2-fastについて紹介しましたが、上手く導入できなかったたため一旦非公開にしました。失礼しました。代わりに簡単な記事を書きます。 メタゲノムのビニングが終わってbin配列を手に…

Bandageのreduceコマンドを使ってアセンブリグラフから特定のノードを取り出す

Bandageのreduceコマンドを使うと、アセンブリググラフの中のターゲット配列を、隣接するノードと一緒に取り出すことができます。また、特定のカバレッジ範囲内にあるアセンブリグラフだけ取り出したりもできるため、メタゲノムアセンブリから一定の存在量の…

ターゲット配列に関係するシークエンシングリードを集めるMIRAのmirabaitコマンド

MIRAbait: 256bpまでのkmerのための「grep」のようなツール mirabaitは、リードコレクションの中から、ターゲットベイトとして定義された配列と部分的に類似した、あるいは等しいリードを選択する。類似性とは、ベイト配列と選択されるスクリーニング配列の…

Pandocを使ってMarkdownをHTMLやword形式に変換する

マークダウンのビューアを持っていない人に向け、マークダウン記法で書かれた文書(例えばREADME.md)をPDFなどに変換してから送ることがあります。Pandocを使うとこの変換が簡単にできます。 User Guide https://pandoc.org/MANUAL.html Pandoc User’s Guid…