macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

Preprint

ScrapPaper

本論文では、PubMedやGoogle Scholarの検索結果から雑誌情報を抽出するPythonスクリプト、ScrapPaperを紹介する。現在、このプログラムを開発した動機は、科学文献のタイトルやリンクなどの情報を取得し、リストとして保存してメタ分析や文献の比較研究など…

線形時間のロングリードゲノムアセンブラ GoldRush

2023/02/112 誤字修正 最新のロングリードDNOVOゲノムアセンブラは、OLC(Overlap Layout Consensus)パラダイムに従っており、そのネイティブ実装ではO(n2)アルゴリズムであった。OLCの最も時間とメモリを消費するステップであるall-vs-allシーケンシングリ…

プロトコルを共有する Bio-protocol Exchange

Bio-protocol Exchangeは、Bio-protocolジャーナルの姉妹プラットフォームサイト。研究者がプロトコルを議論したり、実験手順を共有する場として公開されている。実験プロトコルだけのプレプリントサーバーとしても機能している。 from bioprotocolbyte :A n…

3'UTRのアノテーションを行う peaks2utr

非モデル生物のアノテーションは未解決の問題であり、特に非翻訳領域(UTR)の検出が重要である。UTRの正確なアノテーションはトランスクリプトーム解析において各遺伝子の発現を正確に把握するために非常に重要であるが、アノテーションパイプラインではほ…

リファレンスアセンブリにアライメントした後のリードの品質を評価する best

高精度なシーケンシング技術を開発するためには、プラットフォーム依存のシーケンシングエラーを理解する必要がある。bestは、高品質のリファレンスアセンブリにアライメントされたリードを取り込み、リードごとのメトリクス、サマリー統計、ゲノム区間ごと…

MinHashスケッチで数百万個のバクテリアゲノムの高速クラスタリング解析を可能にする RabbitTClust

スケッチベースの距離推定に基づく、高速でメモリ効率の良いゲノムクラスターツールRabbitTClustを紹介する。本手法は、次元削減技術とストリーミング、最新のマルチコアプラットフォーム上での並列化を組み合わせることで、大規模データセットの効率的な処…

BAM/SAM/CRAM、VCF、FASTQ、GFF3の効率的な圧縮器 genozipのバージョン14アップデート

2022/12/05, 06 HP更新 Genozip は、広く利用されている FASTQ、BAM、VCF ファイル形式を含む、幅広いゲノムデータの圧縮を行う。ここでは、BAMおよびCRAMファイルの圧縮に焦点を当てた、Genozip技術の最新の進歩を紹介する。様々な種類の研究(全ゲノムシー…

真菌のITSやコアタンパク質コード遺伝子を使った系統解析を自動で実行する UFCG pipeline

UFCG pipelineを使うと、真菌のITSやコアタンパク質を使った系統解析を自動で実行できます。簡単にですが、使い方を確認しておきます。 UFCG is a database&pipeline for fungi phylogenomics. Our db contains 61 marker genes, 20 widely used & 41 novel …

全自動のトランスポーザブル・エレメントのアノテーションと解析のパイプライン Earl Grey

2024/04/06 論文追記 トランスポーザブル・エレメント(TE)は、ほぼ全ての真核生物ゲノムに存在し、様々な進化過程に関与している。TEに関する研究は非常に盛んだが、そのアノテーションと特性解析は、特に非専門家にとって依然として困難である。(i)断片的…

(ヒト)バリアントの機能的アノテーションリソース FAVOR

大規模な全ゲノムシークエンシング(WGS)研究とバイオバンクにより、多数のコーディングおよびノンコーディングバリアントが急速に生成されている。これらは、ヒト疾患の遺伝的基盤を明らかにするための前例のないリソースを提供する。バリアント機能アノテ…

未知微生物種も含めてメタゲノムプロファイリングする MetaPhlAn 4

2022/8/26 追記 2022/09/07 インストール修正 2023/02/26 論文引用 DB追記2023/12/02追記 メタゲノム解析は、微生物群集から新規生物を発見することを可能にするが、多くのメタゲノムからは、少数の豊富な生物しか捕らえることができない。そこで、メタゲノ…

メタゲノムの分類学的プロファイリングを行う mOTUs3

2022/09/07 誤字修正、オプション追記, 10/17 インストール手順修正 2022/12/18 論文引用 2024/02/05 追記 分類学的プロファイリングは、生物試料中の微生物の相対的な存在量を検出・定量することを目的としたマイクロバイオーム研究の基本的なタスクである…

真菌のコア遺伝子データベースとゲノムワイド系統解析のためのパイプライン UFCG

系統発生学では、生物の進化的関係をゲノム情報によって研究する。各生物から関連する遺伝子を抽出し、多重配列アラインメントを構築し、系統樹によって進化関係を再構築するのが一般的なアプローチである。この解析には、分類群内での効率的な自動化を可能…

分類学的情報の注釈付き系統樹を生成する TaxOnTree

系統解析は、遺伝子/タンパク質/種の進化を解析し、説明するために広く用いられている手法であり、DNA/ゲノムの配列が決定されている種の増加に伴い、その恩恵を受けている。数百の生物種の塩基配列から系統樹を作成することは、日常的な作業と考えること…

gtdbtkのde_novo_wfコマンド

マニュアルより gtdbtkのde novo ワークフローは、ユーザー提供のゲノムと GTDB-Tk リファレンスゲノムを含むバクテリアと古細菌のツリーを推論する。分類学的な分類を得るにはclassify_wfワークフローを推奨し、de novoでdomain固有のツリーが必要な場合の…

Foldseekを使ってAlphaFold UniProt DBから類似構造タンパク質を探す Foldseek server

2022/08/03 誤字修正 2023/07/10 追記 高精度な構造予測手法により、一般に公開されているタンパク質の構造が雪崩のように増えている。これらの構造を検索することが、構造解析の主なボトルネックになりつつある。Foldseekは、大規模な構造セットを高速かつ…

メタゲノムにおける遺伝子予測精度を向上させた MetaGeneMark-2

メタゲノムに含まれるタンパク質遺伝子を正確に予測することは、よく知られた課題である。特に、短い遺伝子や不完全な遺伝子、翻訳開始部位の位置を特定することは困難である。原核生物の翻訳開始は、5'UTRに存在するShine-Dalgarno(SD)コンセンサス配列で…

ショートリードとロングリードを用いたハプロタイプアセンブリツール HAT

ハプロタイプとは、1つの染色体上に共存する対立遺伝子のセットで、次世代に共に遺伝する。一倍体のリファレンスゲノムでは、この共起情報が失われるため、表現型と遺伝子型の対立遺伝子の組み合わせとの関連付けにしか利用できない。そのため、DNA塩基配列…

遺伝子およびタンパク質の相互作用を自動認識して検索する GePI

遺伝子とタンパク質の相互作用に関する知識は、生体分子研究にとって不可欠である。このような知識の大部分は文章で公開されており、構造化された方法でアクセスすることはできない。この状況を改善するために、自動的に抽出された相互作用の事実のリポジト…

機械学習を用いた微生物ゲノム品質の迅速で正確かつスケール可能な評価ツール CheckM2

2023/07/28 論文引用 2024/04/16 インストール追記 DNA シーケンスとバイオインフォマティクスの進歩により、メタゲノム解析データからの微生物ゲノムの回収率は飛躍的に向上した。メタゲノム解析で得られたゲノムの品質を評価することは、解析に先立つ重要…

ローカバレッジ全ゲノムシークエンシングデータから系統樹マーカーを取り出す Patchwork

最新のショートリードシーケンサーからの出力が増加したことにより、ローカバレッジホールゲノムシーケンス(LC-WGS)は大規模な系統学へのアプローチとしてますます手頃な価格になっている。しかし、従来のシーケンシング手法と比較していくつかの利点があ…

メタゲノム探索とビニングのためのインタラクティブなプラットフォーム BinaRena

メタゲノム解析でコンティグを探索し、ビニングすることは、微生物群集の機能的、進化的なギルドを明らかにするために不可欠である。しかし、自動化されたビニングがあるにもかかわらず、研究者はしばしば、代表的な結果を得るために人間の関与が必要である…

(ナノポア)ホモポリマーやタンデムリピート領域からのパイルアップバリアントコーリングを改善する nPoRe

ナノポアのベースコーリング精度は近年向上しているが、生殖細胞における小さな挿入・欠失(INDEL)のバリアントコーリングは依然として低い。一塩基多型(SNPs)の精度と再現性は現在、定期的に99.5%を超えているが、比較的高いカバー率(85×)でのINDEL r…

集団特異的なリファレンスゲノムを作成するための高速なゲノム研磨ツール JASPER

ロングリードシーケンス技術の進歩により、ゲノムアセンブリの連続性と完全性が劇的に改善された。最新のナノポアシーケンサーを用いれば、フローセル1個からヒトゲノムのアセンブリに必要なデータを生成することができる。これらのシーケンスから得られるロ…

メタゲノム解析のための自動化されたワークフロー MAGNETO

2022/06/17 誤字修正 メタゲノム-アセンブルゲノム(MAG)は、メタゲノムデータから回収された個々のゲノムを表す。MAGは、未培養微生物のゲノム多様性の解析や、自然環境における機能・代謝の可能性を明らかにするために非常に有用である。近年の計算機開発…

遺伝子名の識別を支援するウェブアプリケーション GeneToList

オミックス技術を臨床医学やトランスレーショナル・メディシンに取り入れる動きが加速する中、これらの手法によって生成される大規模かつ複雑なデータセットを利用するエンドユーザーには課題がある。ゲノミクスにおける特別な課題は、遺伝子の命名法が大規…

大規模な系統樹を探索するためのウェブベースのツール Taxonium

2022/06/11 誤字修正 COVID-19の大流行により、シークエンスデータの規模が一変し、SARS-CoV-2のゲノムは地球上のどの生物よりも多く配列決定された。これまでの系統樹探索のためのウェブベースのツールは、この規模の樹に直接スケールアップすることができ…

バリアントを考慮したリファレンスアラインメントの高速リフトオーバーを行う levioSAM2

テロメア単位の完全なゲノムアセンブリは、解析の向上や新しいバリアントの発見を期待できるが、多くの重要なゲノムリソースは古いリファレンスゲノムと関連したままである。そのため、リファレンスゲノム間のゲノムフイーチャーやリードアラインメントをト…

対話型マイクロアレイデータ解析ツール sMAP

マイクロアレイデータは、生物学者が複数の表現型にわたって差次的に発現した遺伝子(DEG)を抽出することを可能にする。マイクロアレイ解析のためのパイプラインやツールはいくつか存在するが、それらは中級から上級の計算理解者を対象としており、使いやす…

シロイヌナズナの生物学的特徴を調べるFINderデータベース

近年の計算機アプローチや実験ワークフローの進歩により、ゲノムワイドな生物学的・ゲノムデータを比較的容易に、かつ一般的に取得することができるようになった。このハイスループット・データは、数百種類の植物のDNA(配列、メチル化、クロマチンアクセシ…