tips
2025/09/19 追記 fastpのversion 1.0がリリースされ、フォルダ内のfastqをバッチ処理する便利なスクリプトも提供されました。このスクリプトの使い方を確認しておきます。 インストール 最新のfastpにパスが通っている必要がある。fastpのバージョンが1未満…
China National GeneBank DataBase (CNGBdb) はマルチオミクスデータの体系的なアーカイブと共有を目的としたデータプラットフォーム。CNGBdbは、CNGBの内部データソースとNCBI、EBI、DDBJなどの外部データソースに基づき、INSDC、DataCite、GA4GH、GGBN、AC…
タイトルの通りです。計算機サーバーにアクセスできないことが増えてきたので、ローカルで実行する手順を確認します。計算機は用意する必要があるものの、ローカルで実行すれば、パラメータの細かい調整ができるほか、10万配列とかの制限がないのでより自…
zenodo_getは、その名の通り、Zetoroのfrozen dataをダウンロードするコマンド。 インストール #conda (link)mamba install conda-forge::zenodo_get -y#pippip3 install zenodo_get#from githubpip3 install git+https://github.com/dvolgyes/zenodo_get > …
2024/10/27 文章修正 NCBI BLASTのヌクレオチドデータベースはこれまでデフォルトがntでしたが、2024年の夏からはコアヌクレオチドデータベース(core_nt)に切り替わっています。 詳しくはNCBI insightsで説明されています。 NCBI insights: Get Faster, More…
新機能で、STRINGに任意の生物のプロテオームをアップして注釈を付け、解析時のリファレンスとして使用できるようになっています。試してみます。 https://string-db.org/cgi/input?sessionId=be8s1QO4CYoL&input_page_show_search=offにアクセス。 My Data…
前回紹介しましたPPanGGOLiNのグラフですが、PPanGGOLiNはHDF-5というファイルフォーマットでパンゲノムを作成し、管理しています。出力ディレクトリにある.h5ファイルがこれに相当します。このファイルは、パンゲノム解析の結果を関連するパラメータや完全…
2024/09/26 推敲、9/27 追記 前回のパンゲノム解析の説明の続きとなります。 前回: https://kazumaxneo.hatenablog.com/entry/2024/08/28/163036 1、パンゲノムプロット パンゲノム解析結果を視覚化する最も一般的な方法は、x軸にゲノム数を、縦軸にコア遺伝…
2024/08/29 推敲, 8/30追記, 9/3 誤字修正、補足*7追加, 9/10 画像追加, 9/20追記 今日はパンゲノム(pan-genome)解析について簡単に紹介します。パンゲノム解析とは、解析対象の種内の全ての株に存在する遺伝子や、一部の株にしか存在しない遺伝子のレパー…
2024/08/28 誤字修正、タイトル修正 2024年8月現在、細菌のゲノム配列は新種記載のためのタイプ標本(型)として認められていません。細菌の新種を報告するには、従来通り、純粋培養した菌を特徴づけ、株を異なる国の2つ以上の公的なCulture Collectionに寄…
2024/08/26 誤字修正 Kraken2はシークエンシングリードから菌叢解析を行うプログラムです。事前に作成されたRefSeq完全長ゲノムのDBなどを使って、シークエンシングリードの超高速な分類学的分類を実行できます。 kraken2はkraken1と比べてメモリ使用率が大…
近年、配列決定技術の高度化によってNCBIのタンパク質NRデータベースは急速に成長しており、特定の種の生物のタンパク質は過剰に公開されている。このため、特に過剰に読まれた生物の配列かそれに進化的に近縁な生物の配列を使ってBLASTサーチを実行すると、…
bamConcordanceは、PacificBiosciencesが管理しているレポジトリの1つで管理されている、リードのリファレンス配列とのマッピングの一致度からリードの経験的なクオリティ値を算出するpythonスクリプト。エラー修正ツールで修正された後のシークエンシング…
2024/05/10 BamTools追加 UbuntuにHTSの基本的なツールをインストールする手順をまとめました。pythonでラップされているようなツールはanacondaに頼るのが早いので除外し、純粋にコンパイル言語で書かれたよく使われているツールを対象としました。 docker…
タイトルの通りです。KO (KEGG Orthology) のリストから情報を取得するには、KO (KEGG ORTHOLOGY) Databaseのトップページにアクセスするのが手っ取り早いです。 https://www.genome.jp/kegg/ko.htmlにアクセスする。 KO IDを入力する。手持ちのKO IDのタイ…
NCBI SRAでは公開されているシークエンシングデータを検索し、必要であればダウンロードできる。 metagenomeと検索してみると4,566,384件ヒットした(2024年4月実行)。 metagenomeと検索したが、16Sがタイトルに含まれるシークエンシングデータがトップヒッ…
2024/03/04 誤字修正、03/05 引用追加、文章校正 2025/04/11 追記 このブログでこうゆう話を書くのは珍しいのですが、今日は自分も良く使っているANIについてなるべく分かりやすく説明します。 2つの菌のゲノムDNA間を比較するAverage Nucleotide Identity …
2024/02/14 誤字修正 メタゲノムデータ解析レシピ(ISBN 978-4-7581-2255-9)3章のWEB年度更新で、kraken2のunclassifiledの割合には注意しましょうという説明をしました。その中で、unclassifiledがkrona plotには反映されないと書いたのですが、これはKrak…
またIGVの簡単なTipsを紹介します。 1,ロングリードシークエンスのindelエラーの表示/非表示 ロングリードシークエンスの普及により、IGVにTGS向けのオプションが追加されています。 View => Preference => Third Genタブ TGS向けの長めのVisibility range…
msamtoolsは、マイクロバイオームデータ解析、特にショットガンメタゲノミクスやメタトランスクリプトミクスデータを解析する際によく使われる便利な機能を提供している。既にいくつかの論文で使用されている。 インストール M1 macstudioでテストした(rose…
2023/08/11 説明を修正 2024/08/20 追記, kraken1 からkraken2に変更 GTDBでもサードパーティとして紹介されているが、レポジトリGTDB_KrakenでGTDBのリリースR86のkrakenデータベースが公開されている(属レベルでアサインされていない分類 (g__) は排除さ…
2023/07/01追記 2023/07/09 論文引用 BAM/SAM/CRAM、VCF、FASTQ、GFF3を効率的に圧縮するgenozipのバージョン15アップデートが公開されています。バージョン15ではdeepモードが追加されました(Genozip Deepと呼ばれる)。このBAMとFASTQの間に内在する情報…
シークエンシングデータなどをDDBJのファイルサーバにアップしてDRAの登録申請を行う場合、D-wayのDRAで情報を記載後に実行する自動validationのステップがあります。このプロセスでは、ファイル受付サーバからのシークエンシングデータのロードにSRA Toolki…
DIAMOND v2.0.10 https://github.com/bbuchfink/diamond/discussions/478 DIAMONDは一般的なC++コードとしてコンパイルされ、ハードウェアアーキテクチャに対する特別な要件はないが、Intel/AMD x86-64プラットフォームのSSEおよびAVX命令セットが利用可能で…
krakenに代表されるメタゲノムの分類学的プロファイリングツールは、fastqのそれぞれのReadに対してダイレクトに分類学的分類を行う。そのために、kraken1ではJellyfishを使ってリファレンスゲノムからk-merが取り出され、ゲノムの分類学的情報と共にデータ…
MultiQCはkraken1と2のレポート出力の分析にも対応している。使用するには--reportをつけてkrakenを実行し、レポートファイルを作成しておく。 対応しているツール一覧 https://multiqc.info/modules/ kraken1とkraken2への対応 https://multiqc.info/module…
以前書いたIGVのtipsという記事に時々アクセスがあるようなので、今日は再びゲノムブラウザIGVのtipsの紹介をします。 (自分のNGS講習資料(2023・フィリピン大のラボ)より) 1、JSONファイルでの読み書き IGVはゲノムファイルやアノテーションをGenomeメ…
2023/03/12 誤字修正 ロングリードを使ったゲノムプロジェクトが爆発的に増えており、現在ではほとんどのゲノム解読プロジェクトでロングリードのシークエンスが主要に使用されています。ロングリードのゲノムプロジェクト増加に伴って、想定しない汚染生物…
2023/02/22 タイトル修正 2004年に最初の論文(ref.1)が出たNCBIのCD-Searchサービスは、RPS-BLASTを用いてクエリタンパク質配列を多くのソースデータベースから収集された保存ドメインモデルと比較し、保存されているタンパク質ドメインヒットを提示する。…
2023/02/13 誤字修正 ロングリードを使ったメタゲノムシークエンシングが徐々に増えてきています。一般に、ロングリードシークエンシングでは、メタゲノムアセンブリによってショートリードよりも連続性の高いMAGを得ることができます。連続性の高いMAGが得…