KEGG KOデータベースでKO IDの機能的情報を取得する

タイトルの通りです。KO (KEGG Orthology) のリストから情報を取得するには、KO (KEGG ORTHOLOGY) Databaseのトップページにアクセスするのが手っ取り早いです。 https://www.genome.jp/kegg/ko.htmlにアクセスする。 KO IDを入力する。手持ちのKO IDのタイ…

2024-04-19

NCBI SRAで検索する時のtips

NCBI tips SRA

NCBI SRAでは公開されているシークエンシングデータを検索し、必要であればダウンロードできる。 metagenomeと検索してみると4,566,384件ヒットした（2024年4月実行）。 metagenomeと検索したが、16Sがタイトルに含まれるシークエンシングデータがトップヒッ…

2024-03-04

ANIについて

tips ANI

2024/03/04 誤字修正、03/05 引用追加、文章校正このブログでこうゆう話を書くのは珍しいのですが、今日は自分も良く使っているANIについてなるべく分かりやすく説明します。２つの菌のゲノムDNA間を比較するAverage Nucleotide Identity (ANI) 比較は、we…

2024-02-14

kraken2のレポートをkrona plotで視覚化する

tips metagenome 補足資料

2024/02/14 誤字修正メタゲノムデータ解析レシピ（ISBN 978-4-7581-2255-9）3章のWEB年度更新で、kraken2のunclassifiledの割合には注意しましょうという説明をしました。その中で、unclassifiledがkrona plotには反映されないと書いたのですが、これはKrak…

2023-12-16

IGVのtips 4

tips IGV Pacbio Nanopore long read

またIGVの簡単なTipsを紹介します。１，ロングリードシークエンスのindelエラーの表示/非表示ロングリードシークエンスの普及により、IGVにTGS向けのオプションが追加されています。 View => Preference => Third Genタブ TGS向けの長めのVisibility range…

2023-12-14

マイクロバイオーム関連に特化したsamtoolsの拡張 msamtools

tips metagenome filtering abundance estimation in metagenomics data

msamtoolsは、マイクロバイオームデータ解析、特にショットガンメタゲノミクスやメタトランスクリプトミクスデータを解析する際によく使われる便利な機能を提供している。既にいくつかの論文で使用されている。インストール M1 macstudioでテストした（rose…

2023-08-09

GTDBのtaxonomyとゲノムからKrakenデータベースを作成する GTDB_Kraken

tips metatranscriptome 生物種の推定 (taxonomic profiling) GTDB

2023/08/11 説明を修正 GTDBでもサードパーティとして紹介されているが、レポジトリGTDB_KrakenでGTDBのリリースR86のkrakenデータベースが公開されている（属レベルでアサインされていない分類 (g__) は排除されている）。ビルド済みなので、ダウンロードし…

2023-07-01

genozipのバージョン15アップデートで追加されたdeepモード

Compression / decompression tips bam/sam 2023 Preprint

2023/07/01追記 2023/07/09 論文引用 BAM/SAM/CRAM、VCF、FASTQ、GFF3を効率的に圧縮するgenozipのバージョン15アップデートが公開されています。バージョン15ではdeepモードが追加されました（Genozip Deepと呼ばれる）。このBAMとFASTQの間に内在する情報…

2023-05-25

latf-loadコマンド

tips fasta/fastqの操作 DRA SRA

シークエンシングデータなどをDDBJのファイルサーバにアップしてDRAの登録申請を行う場合、D-wayのDRAで情報を記載後に実行する自動validationのステップがあります。このプロセスでは、ファイル受付サーバからのシークエンシングデータのロードにSRA Toolki…

2023-05-10

diamondでBLASTのデータベースを使えるようにするdiamond prepdbコマンド

BLAST tips

DIAMOND v2.0.10 https://github.com/bbuchfink/diamond/discussions/478 DIAMONDは一般的なC++コードとしてコンパイルされ、ハードウェアアーキテクチャに対する特別な要件はないが、Intel/AMD x86-64プラットフォームのSSEおよびAVX命令セットが利用可能で…

2023-04-26

mOTUs3を使ってロングリードの分類学的プロファイリングを行う

tips Nanopore long read taxonomic assignment Pacbio

krakenに代表されるメタゲノムの分類学的プロファイリングツールは、fastqのそれぞれのReadに対してダイレクトに分類学的分類を行う。そのために、kraken1ではJellyfishを使ってリファレンスゲノムからk-merが取り出され、ゲノムの分類学的情報と共にデータ…

2023-04-20

krakenの出力をMultiQCで分析する

tips 結果の視覚化 (visualization) metagenome

MultiQCはkraken1と2のレポート出力の分析にも対応している。使用するには--reportをつけてkrakenを実行し、レポートファイルを作成しておく。対応しているツール一覧 https://multiqc.info/modules/ kraken1とkraken2への対応 https://multiqc.info/module…

2023-03-31

IGVのtips その３

IGV tips

以前書いたIGVのtipsという記事に時々アクセスがあるようなので、今日は再びゲノムブラウザIGVのtipsの紹介をします。１、JSONファイルでの読み書き IGVはゲノムファイルやアノテーションをGenomeメニューから読み込むことよりもJSON形式でゲノムを指定する…

2023-03-11

宿主ゲノムにマッピングして宿主と汚染菌のロングリードを分けることができるか試す

IGV tips bam/sam contamination filtering clipping

2023/03/12 誤字修正ロングリードを使ったゲノムプロジェクトが爆発的に増えており、現在ではほとんどのゲノム解読プロジェクトでロングリードのシークエンスが主要に使用されています。ロングリードのゲノムプロジェクト増加に伴って、想定しない汚染生物…

2023-02-22

保存されているタンパク質ドメインを検索するNCBIの CD-Search

protein domain NCBI PFAM COG BLAST tips

2023/02/22 タイトル修正 2004年に最初の論文（ref.1）が出たNCBIのCD-Searchサービスは、RPS-BLASTを用いてクエリタンパク質配列を多くのソースデータベースから収集された保存ドメインモデルと比較し、保存されているタンパク質ドメインヒットを提示する。…

2023-02-12

１個のメタゲノムbin配列へマッピングされたロングリードの抽出

metagenome filtering bam/sam tips

2023/02/13 誤字修正ロングリードを使ったメタゲノムシークエンシングが徐々に増えてきています。一般に、ロングリードシークエンシングでは、メタゲノムアセンブリによってショートリードよりも連続性の高いMAGを得ることができます。連続性の高いMAGが得…

2022-12-02

マルチサンプルに対応したkraken2のフォーク

metagenome 高速なツール tips

2023/12/20 追記、12/21 インストール手順修正 Kraken 2は、k-merの完全一致を利用したシークエンシングリードの分類学的プロファイリングツールで、メタゲノムやメタアンプリコンの分類や汚染のチエックなどに幅広く使用されている。データベースは自分で作…

2022-09-20

NCBI SRA Run Selectorを使う

tips download NCBI SRA

2022/11/26 追記 SRA Run Selectorは、SRAに保存されている大規模なランのセットを取り出し、どのランを解析に使用するかを絞り込み、結果をメタデータとしてダウンロードすることができる。 NCBI-Hackathons/SRA Run Selector Tutorial https://github.com/…

2022-09-12

BUSCO遺伝子を使った系統解析のsnakemakeワークフロー

2021 Current Protocols in Bioinformatics tips phylogenetic marker genes essential Genes

2022/09/13 追記、誤字修正 2024/01/16 タイトル修正、わかりにくい説明を修正 Current Protocols in BioinformaticsにBUSCOの使い方に関する論文が出ています。（引用1）。その論文のパートの１つ；”Support Protocol 3: BUILDING PHYLOGENOMIC TREES”では…

2022-07-23

UCSF ChimeraX内でColabFoldを使う

Protein Science 2021 2018 2007 GUIツールタンパク質解析ソフト AlphaFold tips folding structure viewer

2021年の論文より UCSF ChimeraX は、UCSF Chimera に続く、Resource for Biocomputing, Visualization, and Informatics (RBVI) による次世代対話型可視化プログラムである。ChimeraXは、(a) パフォーマンスとグラフィックスの大幅な向上、(b) Chimeraで最…

2022-07-21

入力された DNA 配列からオープンリーディングフレームを検索する ORF finder

tips gene prediction NCBI BLAST

原核生物のオープンリディングフレーム（ORF）予測ツールは繊細で、頻度は少ないものの、配列のわずかな違いで遺伝子予測されなことが起きることがある。遺伝子予測精度がゲノム配列によって異なると、比較ゲノム解析で遺伝子の有無を調べる際に問題となる。…

2022-07-18

NCBIからmitochondria DNAをダウンロードする。

organelle genome mitochondria Chloroplast DNA (plastome) download plasmid tips

NCBIのOrganelle Genome Resourcesでは、オルガネラゲノム配列をダウンロードできます。ミトコンドリアDNAのfastaファイルをダウンロードしてみます。 NCBIのOrganelle Genome Resourcesにアクセスする。https://www.ncbi.nlm.nih.gov/genome/organelle/ 左…

2022-07-10

UniProtKBデータベースをダウンロードしてBLAST検索する。

UniProt tips download NCBI ID mapping

#2022/07/10誤字修正、07/12誤字修正 #2022/07/28 ツイート追記 Universal Protein Resource (UniProt)は、European Bioinformatics Institute (EBI) (*2)とSIB Swiss Institute Bioinformaticsが共同研究して構築している知識ベースである(*1)。タンパク質…

2022-05-13

Trinityのインストール

tips de novo transcriptome

Trinityはバグ修正と性能改善のバージョンアップが続けられていて、2022年5月現在ではv2.14が利用できます。v2.14はまだcondaでは導入できないので、ソースからビルドします。 Installing Trinity https://github.com/trinityrnaseq/trinityrnaseq/wiki/Inst…