macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

tips

NCBI BLASTのClusteredNR database

近年、配列決定技術の高度化によってNCBIのタンパク質NRデータベースは急速に成長しており、特定の種の生物のタンパク質は過剰に公開されている。このため、特に過剰に読まれた生物の配列かそれに進化的に近縁な生物の配列を使ってBLASTサーチを実行すると、…

リファレンスゲノムに対するリードアラインメントからempiricalなクオリティ値を算出する bamConcordance

bamConcordanceは、PacificBiosciencesが管理しているレポジトリの1つで管理されている、リードのリファレンス配列とのマッピングの一致度からリードの経験的なクオリティ値を算出するpythonスクリプト。エラー修正ツールで修正された後のシークエンシング…

HTS(NGS)の基本ツールのインストール手順

2024/05/10 BamTools追加 UbuntuにHTSの基本的なツールをインストールする手順をまとめました。pythonでラップされているようなツールはanacondaに頼るのが早いので除外し、純粋にコンパイル言語で書かれたよく使われているツールを対象としました。 docker…

KEGG KOデータベースでKO IDの機能的情報を取得する

タイトルの通りです。KO (KEGG Orthology) のリストから情報を取得するには、KO (KEGG ORTHOLOGY) Databaseのトップページにアクセスするのが手っ取り早いです。 https://www.genome.jp/kegg/ko.htmlにアクセスする。 KO IDを入力する。手持ちのKO IDのタイ…

NCBI SRAで検索する時のtips

NCBI SRAでは公開されているシークエンシングデータを検索し、必要であればダウンロードできる。 metagenomeと検索してみると4,566,384件ヒットした(2024年4月実行)。 metagenomeと検索したが、16Sがタイトルに含まれるシークエンシングデータがトップヒッ…

ANIについて

2024/03/04 誤字修正、03/05 引用追加、文章校正 このブログでこうゆう話を書くのは珍しいのですが、今日は自分も良く使っているANIについてなるべく分かりやすく説明します。 2つの菌のゲノムDNA間を比較するAverage Nucleotide Identity (ANI) 比較は、we…

kraken2のレポートをkrona plotで視覚化する

2024/02/14 誤字修正 メタゲノムデータ解析レシピ(ISBN 978-4-7581-2255-9)3章のWEB年度更新で、kraken2のunclassifiledの割合には注意しましょうという説明をしました。その中で、unclassifiledがkrona plotには反映されないと書いたのですが、これはKrak…

IGVのtips 4

またIGVの簡単なTipsを紹介します。 1,ロングリードシークエンスのindelエラーの表示/非表示 ロングリードシークエンスの普及により、IGVにTGS向けのオプションが追加されています。 View => Preference => Third Genタブ TGS向けの長めのVisibility range…

マイクロバイオーム関連に特化したsamtoolsの拡張 msamtools

msamtoolsは、マイクロバイオームデータ解析、特にショットガンメタゲノミクスやメタトランスクリプトミクスデータを解析する際によく使われる便利な機能を提供している。既にいくつかの論文で使用されている。 インストール M1 macstudioでテストした(rose…

GTDBのtaxonomyとゲノムからKrakenデータベースを作成する GTDB_Kraken

2023/08/11 説明を修正 GTDBでもサードパーティとして紹介されているが、レポジトリGTDB_KrakenでGTDBのリリースR86のkrakenデータベースが公開されている(属レベルでアサインされていない分類 (g__) は排除されている)。ビルド済みなので、ダウンロードし…

genozipのバージョン15アップデートで追加されたdeepモード

2023/07/01追記 2023/07/09 論文引用 BAM/SAM/CRAM、VCF、FASTQ、GFF3を効率的に圧縮するgenozipのバージョン15アップデートが公開されています。バージョン15ではdeepモードが追加されました(Genozip Deepと呼ばれる)。このBAMとFASTQの間に内在する情報…

latf-loadコマンド

シークエンシングデータなどをDDBJのファイルサーバにアップしてDRAの登録申請を行う場合、D-wayのDRAで情報を記載後に実行する自動validationのステップがあります。このプロセスでは、ファイル受付サーバからのシークエンシングデータのロードにSRA Toolki…

diamondでBLASTのデータベースを使えるようにするdiamond prepdbコマンド

DIAMOND v2.0.10 https://github.com/bbuchfink/diamond/discussions/478 DIAMONDは一般的なC++コードとしてコンパイルされ、ハードウェアアーキテクチャに対する特別な要件はないが、Intel/AMD x86-64プラットフォームのSSEおよびAVX命令セットが利用可能で…

mOTUs3を使ってロングリードの分類学的プロファイリングを行う

krakenに代表されるメタゲノムの分類学的プロファイリングツールは、fastqのそれぞれのReadに対してダイレクトに分類学的分類を行う。そのために、kraken1ではJellyfishを使ってリファレンスゲノムからk-merが取り出され、ゲノムの分類学的情報と共にデータ…

krakenの出力をMultiQCで分析する

MultiQCはkraken1と2のレポート出力の分析にも対応している。使用するには--reportをつけてkrakenを実行し、レポートファイルを作成しておく。 対応しているツール一覧 https://multiqc.info/modules/ kraken1とkraken2への対応 https://multiqc.info/module…

IGVのtips その3

以前書いたIGVのtipsという記事に時々アクセスがあるようなので、今日は再びゲノムブラウザIGVのtipsの紹介をします。 1、JSONファイルでの読み書き IGVはゲノムファイルやアノテーションをGenomeメニューから読み込むことよりもJSON形式でゲノムを指定する…

宿主ゲノムにマッピングして宿主と汚染菌のロングリードを分けることができるか試す

2023/03/12 誤字修正 ロングリードを使ったゲノムプロジェクトが爆発的に増えており、現在ではほとんどのゲノム解読プロジェクトでロングリードのシークエンスが主要に使用されています。ロングリードのゲノムプロジェクト増加に伴って、想定しない汚染生物…

保存されているタンパク質ドメインを検索するNCBIの CD-Search

2023/02/22 タイトル修正 2004年に最初の論文(ref.1)が出たNCBIのCD-Searchサービスは、RPS-BLASTを用いてクエリタンパク質配列を多くのソースデータベースから収集された保存ドメインモデルと比較し、保存されているタンパク質ドメインヒットを提示する。…

1個のメタゲノムbin配列へマッピングされたロングリードの抽出

2023/02/13 誤字修正 ロングリードを使ったメタゲノムシークエンシングが徐々に増えてきています。一般に、ロングリードシークエンシングでは、メタゲノムアセンブリによってショートリードよりも連続性の高いMAGを得ることができます。連続性の高いMAGが得…

マルチサンプルに対応したkraken2のフォーク

2023/12/20 追記、12/21 インストール手順修正 Kraken 2は、k-merの完全一致を利用したシークエンシングリードの分類学的プロファイリングツールで、メタゲノムやメタアンプリコンの分類や汚染のチエックなどに幅広く使用されている。データベースは自分で作…

NCBI SRA Run Selectorを使う

2022/11/26 追記 SRA Run Selectorは、SRAに保存されている大規模なランのセットを取り出し、どのランを解析に使用するかを絞り込み、結果をメタデータとしてダウンロードすることができる。 NCBI-Hackathons/SRA Run Selector Tutorial https://github.com/…

BUSCO遺伝子を使った系統解析のsnakemakeワークフロー

2022/09/13 追記、誤字修正 2024/01/16 タイトル修正、わかりにくい説明を修正 Current Protocols in BioinformaticsにBUSCOの使い方に関する論文が出ています。(引用1)。その論文のパートの1つ;”Support Protocol 3: BUILDING PHYLOGENOMIC TREES”では…

UCSF ChimeraX内でColabFoldを使う

2021年の論文より UCSF ChimeraX は、UCSF Chimera に続く、Resource for Biocomputing, Visualization, and Informatics (RBVI) による次世代対話型可視化プログラムである。ChimeraXは、(a) パフォーマンスとグラフィックスの大幅な向上、(b) Chimeraで最…

入力された DNA 配列からオープンリーディングフレームを検索する ORF finder

原核生物のオープンリディングフレーム(ORF)予測ツールは繊細で、頻度は少ないものの、配列のわずかな違いで遺伝子予測されなことが起きることがある。遺伝子予測精度がゲノム配列によって異なると、比較ゲノム解析で遺伝子の有無を調べる際に問題となる。…

NCBIからmitochondria DNAをダウンロードする。

NCBIのOrganelle Genome Resourcesでは、オルガネラゲノム配列をダウンロードできます。ミトコンドリアDNAのfastaファイルをダウンロードしてみます。 NCBIのOrganelle Genome Resourcesにアクセスする。https://www.ncbi.nlm.nih.gov/genome/organelle/ 左…

UniProtKBデータベースをダウンロードしてBLAST検索する。

#2022/07/10誤字修正、07/12誤字修正 #2022/07/28 ツイート追記 Universal Protein Resource (UniProt)は、European Bioinformatics Institute (EBI) (*2)とSIB Swiss Institute Bioinformaticsが共同研究して構築している知識ベースである(*1)。タンパク質…

Trinityのインストール

Trinityはバグ修正と性能改善のバージョンアップが続けられていて、2022年5月現在ではv2.14が利用できます。v2.14はまだcondaでは導入できないので、ソースからビルドします。 Installing Trinity https://github.com/trinityrnaseq/trinityrnaseq/wiki/Inst…

Bandageを使ってスモールゲノムアセンブリの難易度を推定する

2022/04/18 誤字修正, 2024/02/11 分かりにくい説明を修正 ロングリードシークエンシングを行う事で、小さなゲノムであれば、chromosomeの完全長アセンブリ、もしくはそれに近い連続性の高いアセンブリが達成出来きるようになりました。この点で最も恩恵を受…

ゲノムやタンパク質配列セットをMinHash Sketchで比較するsourmash 其の2

2022/04/17 コマンド修正 MinHash Sketch(BBSketchの解説)を構築し、Jaccard指数で比較・検索するsourmashは、発表後もバージョンアップが続けられていて、現在では様々なコマンドが利用できるようになっています。そこで今日は、sourmashのグネチャファイ…

M1 macにバイオインフォマティクスのツールをインストールする

2022/03/20 文章修正 2022/03/24アンケート結果追記 ご存じの通り、新しいmacはCPUがARMアーキテクチャに移行し、x86-64 darwin向けにコンパイルされたプログラムが実行できなくなりました(まだ販売されているintel macもありますが、選択肢は少なくなって…