macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

2022-01-01から1年間の記事一覧

ユーザーフレンドリーなデータ可視化ウェブサーバー ImageGP

データの可視化は,研究者の間で結果を説明し,知識を共有するために重要な役割を果たす.しかし、多くの可視化ツールは十分なコーディング経験を必要としたり、特殊な用途のために設計されていたり、無償でなかったりする。ここでは、生物・化学データの可…

アンプリコンベースの菌叢解析のための包括的なプラットフォーム MOCHI

微生物叢の解析は、健康や科学にとって重要な意味を持つ。これらの解析では、16S/18S rRNA遺伝子シーケンスを利用して分類群を同定し、種の多様性を予測する。しかし、微生物叢データを解析するための利用可能なツールのほとんどは、適切な実装のために熟練…

分類学的情報の注釈付き系統樹を生成する TaxOnTree

系統解析は、遺伝子/タンパク質/種の進化を解析し、説明するために広く用いられている手法であり、DNA/ゲノムの配列が決定されている種の増加に伴い、その恩恵を受けている。数百の生物種の塩基配列から系統樹を作成することは、日常的な作業と考えること…

gtdbtkのde_novo_wfコマンド

マニュアルより gtdbtkのde novo ワークフローは、ユーザー提供のゲノムと GTDB-Tk リファレンスゲノムを含むバクテリアと古細菌のツリーを推論する。分類学的な分類を得るにはclassify_wfワークフローを推奨し、de novoでdomain固有のツリーが必要な場合の…

系統樹ファイルをチップ名(leaf)でフィルタリングする filter_tree.py スクリプト

8/8 誤字修正 QIIME1のfilter_tree.pyスクリプト(QIIME2ではqiime phylogeny filter-tree)は、系統樹ファイルから入力されたリスト(OTU名、ゲノム名など)で見つかったツリーのチップだけを保持するサブツリーを出力する。-negateオプションのTRUEフラグ…

バクテリアパンゲノムの探索的解析と可視化のためのウェブベースツール PanExplorer

パンゲノムアプローチは細菌の比較ゲノム解析や進化解析に多く用いられているが、バイオインフォマティシャンのいない生物学者にはまだ難しいため、細菌パンゲノムの探索を容易にする革新的なツールが必要である。PanExplorerは、様々なゲノム解析とレポート…

Foldseekを使ってAlphaFold UniProt DBから類似構造タンパク質を探す Foldseek server

2022/08/03 誤字修正 2023/07/10 追記 高精度な構造予測手法により、一般に公開されているタンパク質の構造が雪崩のように増えている。これらの構造を検索することが、構造解析の主なボトルネックになりつつある。Foldseekは、大規模な構造セットを高速かつ…

ChIP-SeqやATAC-seqのピークコーラー MACS3

Githubより シーケンサー技術の向上に伴い、クロマチン免疫沈降法とハイスループットシーケンス(ChIP-Seq)によるゲノム規模のタンパク質-DNA相互作用の研究が盛んになってきている。このようなChIP-Seqの強力な解析手法の欠如に対処するため、本著者らは転…

Sourmashのgatherコマンド

Sourmash helpより Sourmashのサブコマンド `gather` は、メタゲノム解析で最適なリファレンスゲノム(のシグネチャファイル)をリファレンスゲノムデータベースから選択する。 k-merは非常に特異的なので、Sourmash gather は、過去にシークエンシングされ…

グラフニューラルネットワークを用いてタンパク質機能予測を行う PANDA2

ハイスループットなシークエンス技術により、大量のタンパク質配列が生成されているが、タンパク質配列のアノテーションは、低スループットで高価な生物学的実験に大きく依存している。そのため、タンパク質配列から機能的な知識を推測するために、正確かつ…

グラフ畳み込みネットワークによりタンパク質の機能予測を行う DeepFRI

2023/04/05 追記 配列データベースに登録されるタンパク質数の急増とその機能の多様化により、自動的な機能予測のための計算機によるアプローチが課題となっている。本発表では、タンパク質言語モデルとタンパク質構造から抽出した配列特徴を利用して、タン…

メタゲノムにおける遺伝子予測精度を向上させた MetaGeneMark-2

メタゲノムに含まれるタンパク質遺伝子を正確に予測することは、よく知られた課題である。特に、短い遺伝子や不完全な遺伝子、翻訳開始部位の位置を特定することは困難である。原核生物の翻訳開始は、5'UTRに存在するShine-Dalgarno(SD)コンセンサス配列で…

ディープラーニングを用いたタンパク質の翻訳後修飾部位予測と可視化のためのウェブサーバ MusiteDeep

MusiteDeepは、タンパク質の翻訳後修飾(PTM)部位の予測および可視化のためのディープラーニングフレームワークを提供するオンラインリソースである。この予測ツールは、タンパク質の配列のみを入力とし、複雑な特徴を必要としないため、多数のタンパク質に…

PacBio HiFiリードをアダプターの位置で分割する Skera

HPより Skeraは、PacBioのアレイ化されたリードを、アダプターの位置で分割し、リードセグメントを生成します。各入力/親リード(HiFi など)に対して、skera は複数の bam レコードを作成し、各フラグメントに対して 1 つずつ作成します。1本の親リードは、…

メタゲノム解析のために擬似ロングリードを作成する PLR-GEN

ハイスループットなシークエンスデータを用いたメタゲノム解析は、培養せずに環境試料中の微生物ゲノムを構築できる強力な手法である。しかし、メタゲノム解析は、複数の微生物のゲノムが混在してメタゲノムを構成しているため、特にショートリードしか利用…

ショートリードとロングリードを用いたハプロタイプアセンブリツール HAT

ハプロタイプとは、1つの染色体上に共存する対立遺伝子のセットで、次世代に共に遺伝する。一倍体のリファレンスゲノムでは、この共起情報が失われるため、表現型と遺伝子型の対立遺伝子の組み合わせとの関連付けにしか利用できない。そのため、DNA塩基配列…

UCSF ChimeraX内でColabFoldを使う

2021年の論文より UCSF ChimeraX は、UCSF Chimera に続く、Resource for Biocomputing, Visualization, and Informatics (RBVI) による次世代対話型可視化プログラムである。ChimeraXは、(a) パフォーマンスとグラフィックスの大幅な向上、(b) Chimeraで最…

遺伝子およびタンパク質の相互作用を自動認識して検索する GePI

遺伝子とタンパク質の相互作用に関する知識は、生体分子研究にとって不可欠である。このような知識の大部分は文章で公開されており、構造化された方法でアクセスすることはできない。この状況を改善するために、自動的に抽出された相互作用の事実のリポジト…

入力された DNA 配列からオープンリーディングフレームを検索する ORF finder

原核生物のオープンリディングフレーム(ORF)予測ツールは繊細で、頻度は少ないものの、配列のわずかな違いで遺伝子予測されなことが起きることがある。遺伝子予測精度がゲノム配列によって異なると、比較ゲノム解析で遺伝子の有無を調べる際に問題となる。…

DNAエンリッチメントのためのベイトデザインをスケーラブルに行う Syotti

ベイトエンリッチメントは、メタゲノム試料中の目的領域の増幅に成功したことから、広く普及しつつあるプロトコルである。この方法では、一組の合成プローブ(「ベイト」)を設計・製造し、断片化したメタゲノムDNAに適用する。プローブは断片化したDNAに結…

NCBIからmitochondria DNAをダウンロードする。

NCBIのOrganelle Genome Resourcesでは、オルガネラゲノム配列をダウンロードできます。ミトコンドリアDNAのfastaファイルをダウンロードしてみます。 NCBIのOrganelle Genome Resourcesにアクセスする。https://www.ncbi.nlm.nih.gov/genome/organelle/ 左…

真菌ミトコンドリアDNAのオンラインリソース MitoFun

HPより ミトコンドリアDNAのサイズや構造は様々である。菌類では、mtDNAの大きさは約16-110kbsである。ミトコンドリアに必要な成分の大部分はコードされておらず、核の遺伝子からコードされてミトコンドリアに輸入される。 小さな例外を除き、ミトコンドリア…

大規模な遺伝子バリアントアノテーションのための統合的かつ対話的なプラットフォーム Annotation Query (AnnoQ)

Annotation Query (AnnoQ) (http://annoq.org/)は、ヒトの遺伝子バリアントに対して包括的かつ最新の機能アノテーションを提供するために設計されている。このシステムは、Haplotype Reference Consortium (HRC) の約3900万個のヒトバリアントに、WGSAによる…

ノイズの多いロングリードを分類する deSAMBA

ノイズの多いロングリードの分類を特定するための高速かつ正確な分類ツールが未だ存在せず、有望なロングリードメタゲノムシーケンス技術の利用におけるボトルネックとなっている。本発表では、de Bruijn graph-based Sparse Approximate Match Block Analyz…

ゲノム配列やシークエンシングデータを公開リポジトリから取得する getSequenceInfo

2022/07/14 誤字修正 生物学的配列は、世界中で急速に、そして指数関数的に増加している。塩基配列データベースは、様々な生物について有意義なゲノム情報を提供する重要な役割を担っている。getSequenceInfoは、GenBank、RefSeq、European Nucleotide Archi…

機械学習を用いた微生物ゲノム品質の迅速で正確かつスケール可能な評価ツール CheckM2

2023/07/28 論文引用 2024/04/16 インストール追記 DNA シーケンスとバイオインフォマティクスの進歩により、メタゲノム解析データからの微生物ゲノムの回収率は飛躍的に向上した。メタゲノム解析で得られたゲノムの品質を評価することは、解析に先立つ重要…

reCOGnizer

Githubより reCOGnizerは、RPS-BLASTとCDDのデータベースをリファレンスとして、ドメインベースのアノテーションを行う。現在実装されている参照データベースはCDD, NCBIfam, Pfam, TIGRFAM, Protein Clusters, SMART, COG and KOGとなっている。reCOGnizer…

UniProtのデータベースから機能的アノテーションとID mappingを行う UPIMAPI

2022/07/12 修正 2023/03/05 追記 オミックスやメタオミックス技術は、微生物の機能を探索するための強力なアプローチだが、オミックスデータセットの大きさと複雑さにより、その解析はしばしば困難な課題となる。オミックスやメタオミックス解析のために開…

UniProtKBデータベースをダウンロードしてBLAST検索する。

#2022/07/10誤字修正、07/12誤字修正 #2022/07/28 ツイート追記 Universal Protein Resource (UniProt)は、European Bioinformatics Institute (EBI) (*2)とSIB Swiss Institute Bioinformaticsが共同研究して構築している知識ベースである(*1)。タンパク質…

ローカバレッジ全ゲノムシークエンシングデータから系統樹マーカーを取り出す Patchwork

最新のショートリードシーケンサーからの出力が増加したことにより、ローカバレッジホールゲノムシーケンス(LC-WGS)は大規模な系統学へのアプローチとしてますます手頃な価格になっている。しかし、従来のシーケンシング手法と比較していくつかの利点があ…