tips
.MD this pageは、今見ているサイトをmarkdown記法に変換するツールで、chromeやfirefoxの拡張機能として使用できます。試してみます。 インストール Chromeを選択、 拡張機能に追加する。 サイトの上で右クリックして.MD this pageを選択する。もしくはopti…
以前、登場したばかりのarm版 Macにバイオインフォマティクスツールを簡単に導入するために、ターミナルをRosetta 2モードで起動してIntel Mac向けパッケージマネージャーを使う方法を紹介しました。 あれから5年が経ち、状況は大きく変化しています。まずRo…
2026/04/10 追記 2026/04/15 claude codeの部分を修正 久しぶりのブログ更新です。全然更新できず申し訳ありません。 2026年に入ってから、エージェントタスクに関する話題が一気に加速しています。やや誇張かもしれませんが、コミュニティでは毎日どころか…
2026/02/02 追記 タイトルの通り。インストールと使う流れだけ簡単に見ていきます。 HP https://www.cgl.ucsf.edu/chimerax/docs/user/tools/boltz.html Making Boltz Structure Predictions in ChimeraX https://www.rbvi.ucsf.edu/chimerax/data/boltz-apr20…
2026/01/28 追記、誤字修正 今回はmetagenomic binningについてです。Albertsenらは、2013年の論文(Albertsen et al., 2013)で、DNA抽出方法だけ変えて同じサンプルを繰り返しショットガンシークエンスし、DNA抽出効率の違いによる菌体のカバレッジ共存在量情…
2026/01/24 文字修正 しばらく前から、NCBI BLASTサービスのデフォルトDBがCore nucleotide DBとCLusteredNRになりました。データベースは年々加速度的に肥大化しており、検索速度を維持するための変更だと思われます。Core nucleotide DBとCLusteredNRでは、よく…
2025/09/19 追記 fastpのversion 1.0がリリースされ、フォルダ内のfastqをバッチ処理する便利なスクリプトも提供されました。このスクリプトの使い方を確認しておきます。 インストール 最新のfastpにパスが通っている必要がある。fastpのバージョンが1未満…
China National GeneBank DataBase (CNGBdb) はマルチオミクスデータの体系的なアーカイブと共有を目的としたデータプラットフォーム。CNGBdbは、CNGBの内部データソースとNCBI、EBI、DDBJなどの外部データソースに基づき、INSDC、DataCite、GA4GH、GGBN、AC…
2026/02/19 追記, 2/26追記 タイトルの通りです。計算機サーバーにアクセスできないことが増えてきたので、ローカルで実行する手順を確認します。計算機は用意する必要があるものの、ローカルで実行すれば、パラメータの細かい調整ができるほか、10万配列…
zenodo_getは、その名の通り、Zetoroのfrozen dataをダウンロードするコマンド。 インストール #conda (link)mamba install conda-forge::zenodo_get -y#pippip3 install zenodo_get#from githubpip3 install git+https://github.com/dvolgyes/zenodo_get > …
2024/10/27 文章修正 NCBI BLASTのヌクレオチドデータベースはこれまでデフォルトがntでしたが、2024年の夏からはコアヌクレオチドデータベース(core_nt)に切り替わっています。 詳しくはNCBI insightsで説明されています。 NCBI insights: Get Faster, More…
新機能で、STRINGに任意の生物のプロテオームをアップして注釈を付け、解析時のリファレンスとして使用できるようになっています。試してみます。 https://string-db.org/cgi/input?sessionId=be8s1QO4CYoL&input_page_show_search=offにアクセス。 My Data…
前回紹介しましたPPanGGOLiNのグラフですが、PPanGGOLiNはHDF-5というファイルフォーマットでパンゲノムを作成し、管理しています。出力ディレクトリにある.h5ファイルがこれに相当します。このファイルは、パンゲノム解析の結果を関連するパラメータや完全…
2024/09/26 推敲、9/27 追記 前回のパンゲノム解析の説明の続きとなります。 前回: https://kazumaxneo.hatenablog.com/entry/2024/08/28/163036 1、パンゲノムプロット パンゲノム解析結果を視覚化する最も一般的な方法は、x軸にゲノム数を、縦軸にコア遺伝…
2024/08/29 推敲, 8/30追記, 9/3 誤字修正、補足*7追加, 9/10 画像追加, 9/20追記 今日はパンゲノム(pan-genome)解析について簡単に紹介します。パンゲノム解析とは、解析対象の種内の全ての株に存在する遺伝子や、一部の株にしか存在しない遺伝子のレパー…
2024/08/28 誤字修正、タイトル修正 2024年8月現在、細菌のゲノム配列は新種記載のためのタイプ標本(型)として認められていません。細菌の新種を報告するには、従来通り、純粋培養した菌を特徴づけ、株を異なる国の2つ以上の公的なCulture Collectionに寄…
2024/08/26 誤字修正 Kraken2はシークエンシングリードから菌叢解析を行うプログラムです。事前に作成されたRefSeq完全長ゲノムのDBなどを使って、シークエンシングリードの超高速な分類学的分類を実行できます。 kraken2はkraken1と比べてメモリ使用率が大…
近年、配列決定技術の高度化によってNCBIのタンパク質NRデータベースは急速に成長しており、特定の種の生物のタンパク質は過剰に公開されている。このため、特に過剰に読まれた生物の配列かそれに進化的に近縁な生物の配列を使ってBLASTサーチを実行すると、…
bamConcordanceは、PacificBiosciencesが管理しているレポジトリの1つで管理されている、リードのリファレンス配列とのマッピングの一致度からリードの経験的なクオリティ値を算出するpythonスクリプト。エラー修正ツールで修正された後のシークエンシング…
2024/05/10 BamTools追加 UbuntuにHTSの基本的なツールをインストールする手順をまとめました。pythonでラップされているようなツールはanacondaに頼るのが早いので除外し、純粋にコンパイル言語で書かれたよく使われているツールを対象としました。 docker…
タイトルの通りです。KO (KEGG Orthology) のリストから情報を取得するには、KO (KEGG ORTHOLOGY) Databaseのトップページにアクセスするのが手っ取り早いです。 https://www.genome.jp/kegg/ko.htmlにアクセスする。 KO IDを入力する。手持ちのKO IDのタイ…
NCBI SRAでは公開されているシークエンシングデータを検索し、必要であればダウンロードできる。 metagenomeと検索してみると4,566,384件ヒットした(2024年4月実行)。 metagenomeと検索したが、16Sがタイトルに含まれるシークエンシングデータがトップヒッ…
2024/03/04 誤字修正、03/05 引用追加、文章校正 2025/04/11 追記 このブログでこうゆう話を書くのは珍しいのですが、今日は自分も良く使っているANIについてなるべく分かりやすく説明します。 2つの菌のゲノムDNA間を比較するAverage Nucleotide Identity …
2024/02/14 誤字修正 メタゲノムデータ解析レシピ(ISBN 978-4-7581-2255-9)3章のWEB年度更新で、kraken2のunclassifiledの割合には注意しましょうという説明をしました。その中で、unclassifiledがkrona plotには反映されないと書いたのですが、これはKrak…
またIGVの簡単なTipsを紹介します。 1,ロングリードシークエンスのindelエラーの表示/非表示 ロングリードシークエンスの普及により、IGVにTGS向けのオプションが追加されています。 View => Preference => Third Genタブ TGS向けの長めのVisibility range…
msamtoolsは、マイクロバイオームデータ解析、特にショットガンメタゲノミクスやメタトランスクリプトミクスデータを解析する際によく使われる便利な機能を提供している。既にいくつかの論文で使用されている。 インストール M1 macstudioでテストした(rose…
2023/08/11 説明を修正 2024/08/20 追記, kraken1 からkraken2に変更 GTDBでもサードパーティとして紹介されているが、レポジトリGTDB_KrakenでGTDBのリリースR86のkrakenデータベースが公開されている(属レベルでアサインされていない分類 (g__) は排除さ…
2023/07/01追記 2023/07/09 論文引用 BAM/SAM/CRAM、VCF、FASTQ、GFF3を効率的に圧縮するgenozipのバージョン15アップデートが公開されています。バージョン15ではdeepモードが追加されました(Genozip Deepと呼ばれる)。このBAMとFASTQの間に内在する情報…
シークエンシングデータなどをDDBJのファイルサーバにアップしてDRAの登録申請を行う場合、D-wayのDRAで情報を記載後に実行する自動validationのステップがあります。このプロセスでは、ファイル受付サーバからのシークエンシングデータのロードにSRA Toolki…
DIAMOND v2.0.10 https://github.com/bbuchfink/diamond/discussions/478 DIAMONDは一般的なC++コードとしてコンパイルされ、ハードウェアアーキテクチャに対する特別な要件はないが、Intel/AMD x86-64プラットフォームのSSEおよびAVX命令セットが利用可能で…