macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

2023-05-01から1ヶ月間の記事一覧

5′上流に保存されたuORFをアノテーションする uORF4u

原核生物および真核生物において、上流のオープンリーディングフレーム(uORF、いわゆるリーダーペプチドをコードすることが多い)は、下流のメインORF(mORF)の翻訳と転写を制御することができる。しかし、新規機能性uORFのアノテーションは、通常100コド…

RNA-Seqの正規化手法を比較し、発現変動遺伝子の解析まで行う NormSeq

2023 5/30 タイトル修正 RNAシーケンスは、様々なRNAサブポピュレーションの発現に関する知識を得るために最も使用されるハイスループットなアプローチの1つとなっている。しかし、ライブラリー調製時やデータ解析時に発生する技術的なアーチファクトが、検…

アノテーションパイプライン BRAKER3

2023/05/28, 5/30 誤字修正 2023/06/13 プレプリント引用 2024/02/19 ツイート追記 タンパク質配列やRNA-Seqライブラリの形で大量の外部エビデンスを提供するデータベースの利用可能性が高まっており、タンパク質コード遺伝子の遺伝子構造予測手法を改善する…

ウイルスコンセンサスゲノム配列をコールする高速でメモリ効率の良い実装 ViralConsensus

ウイルス分子疫学において、配列データからコンセンサスゲノムを再構成することは、懸念される変異やバリアントを追跡するために重要である。しかし、配列決定されるサンプル数が急増するにつれ、コンセンサスゲノムの再構築に必要な計算リソースは法外に大…

バクテリアゲノム上のプロファージ検索ウェブサーバー PHASTEST

PHASTEST (PHAge Search Tool with Enhanced Sequence Translation) は、プロファージ検索ウェブサーバーPHASTとPHASTERの後継である。PHASTESTは、細菌ゲノムおよびプラスミド内のプロファージ配列の迅速な同定、アノテーション、視覚化をサポートするよう…

latf-loadコマンド

シークエンシングデータなどをDDBJのファイルサーバにアップしてDRAの登録申請を行う場合、D-wayのDRAで情報を記載後に実行する自動validationのステップがあります。このプロセスでは、ファイル受付サーバからのシークエンシングデータのロードにSRA Toolki…

複数のアノテーション付きゲノムの視覚的探索をする Genome Context Viewer 2 (GCV)

Genome Context Viewerは、ゲノム領域をそのミクロおよびマクロシンテニックな構造に基づいて特定、アライメント、可視化するためのウェブアプリケーションである。遺伝子アノテーションのような機能的要素を検索・比較の単位として使用することで、Genome C…

ゲノムアセンブリを評価する WebQUAST

ゲノミクス研究において、適切なゲノムアセンブリを選択することは、ダウンストリーム解析の鍵となる。しかし、多くのゲノムアセンブリツールが存在し、その実行パラメータは非常に多様であるため、このタスクは困難である。また、既存のオンライン評価ツー…

GEOとSRAからデータおよびメタデータをダウンロードする GEOfetch

Gene Expression Omnibusは、二次解析のための重要な生物学的データ源となっている。しかし、Gene Expression Omnibus (GEO)からデータやメタデータを標準的なアノテーションフォーマットでダウンロードするシンプルでプログラム的な方法は存在しない。GEOfe…

糖質活性酵素と基質のアノテーションを行う dbCAN3

糖質活性酵素(CAZymes)は、様々な生物によって作られ、複雑な糖質代謝を担っている。バイオエネルギー、マイクロバイオーム、栄養、農業、地球規模の炭素循環におけるCAZymesの重要性から、CAZymesのゲノムマイニングは(メタ)ゲノムプロジェクトにおける…

単一のタンパク質配列からタンパク質構造を予測する OmegaFold

最近のブレイクスルーで、深層学習を用いて複数配列アラインメント(MSA)の進化情報を利用し、タンパク質の構造を正確に予測することができるようになった。しかし、オーファンタンパク質や抗体のような進化の早いタンパク質のように、相同タンパク質のMSA…

遺伝子ファミリーの起源を推論する GenEra

GenEra(https://github.com/josuebarrera/GenEra)は、DIAMONDを用いたgene-family founder inference framework(遺伝子ファミリーの起源となる遺伝子の推論フレームワーク)で、ゲノム系統分類における相同性検出の失敗など、これまで指摘されてきた限界…

メタゲノムの微生物の存在/不在を検出するANIベースの統計テスト YACHT

採取したDNAから環境に関連する微生物群集を研究するメタゲノミクスにおいて、最も基本的な計算タスクの1つは、リファレンスデータベースから、与えられたサンプルメタゲノムにどのゲノムが存在するか、または存在しないかを決定することである。この問いに…

細菌ゲノムの詳細な評価と視覚化を行う Proksee

Proksee (https://proksee.ca) は、細菌ゲノムのアセンブル、アノテーション、解析、可視化のための、強力で使いやすく、機能豊富なシステムをユーザーに提供する。Prokseeは、イルミナのシーケンスリードを、圧縮されたFASTQファイル、または生、FASTA、Gen…

ロングリードシーケンスデータを評価する NanoPack2

ロングリードシーケンスプロジェクトにおけるコホートサイズの増加により、Oxford Nanopore TechnologiesとPacific Biosciencesのシーケンスデータの品質評価と処理のためのより効率的なソフトウェアが必要とされている。ここでは、実験の要約、データセット…

昆虫の包括的遺伝子リソース InsectBase 2.0

昆虫は地球上で最大の動物群であり、資源の提供、病気の媒介、農作物生産の被害など、人間の生活に大きな影響を及ぼしている。近年、昆虫のゲノムや遺伝子のデータが大量に生成されている。これらのリソースを管理、共有、マイニングするためには、包括的な…

(ヒト)ノンコーディングRNAとKEGGシグナル伝達パスウェイの可視化およびエンリッチメント解析を行う NcPath

非コードRNAは転写プロセスにおいて重要な役割を果たし、様々な生物学的機能の制御に関与している。特にmiRNAやlncRNAが重要である。しかし、既存のシグナル伝達パスウェイデータベースには、miRNAやlncRNAに関する情報は含まれていない。そこで本著者らは、…

遺伝子モデルの様々な特徴を解析する GTFtools

遺伝子中心のバイオインフォマティクス研究では、遺伝子モデルを操作して、スプライスサイト、プロモーター、独立イントロン、非翻訳領域(UTR)など、遺伝子の様々な特徴を計算または抽出することが頻繁に行われる。遺伝子モデルは、GTF(Gene Transfer Form…

antiSMASHのアップデート antiSMASH7.0

2024/03/24 ローカルでのラン例追記 微生物は、二次代謝や特殊な代謝の一環として、小さな生物活性化合物を生成する。このような代謝物は、抗菌、抗がん、抗真菌、抗ウイルスなどの生物活性を持つことが多く、医療や農業への応用に重要な役割を担っている。…

ゲノムワイドなSNPデータとメタデータを同時に調べるためのウェブアプリケーション Evidente

病原体やその系統の解析では、一塩基多型(SNP)を用いてその進化史を再構築することが一般的である。しかし、ゲノムワイドなSNPベースの系統樹がさらなる情報なしに解析されることはほとんどない。SNPのデータだけでなく、サンプルのメタデータも含めて解析…

オルソログデータを探索・可視化する統合プラットフォーム OrthoVenn3

比較ゲノム研究の進歩により、種の進化や遺伝的多様性を研究することに関心が高まっている。この研究を促進するために、OrthoVenn3は、ユーザーが効率的にオルソログクラスターの同定とアノテーションを行い、さまざまな種にわたる系統関係を推論できる強力…

TSV形式のバリアントコールファイル(バリアントテーブル)をVCF形式に変換する tsv-vcf-converter

レポジトリより このツールは、tsvリソースのリフトオーバーを容易にするために作成された。特殊文字はほとんど扱えず、あらゆるTSVファイルやVCFファイルを変換するのには適していないが、一般的なTSV形式のバリアントコール結果(indel、SVには対応しない…

相同な遺伝子クラスターを迅速に検索・可視化する webサーバー CAGECAT

特殊な機能をコードする遺伝子の共局在は、微生物ゲノムに共通し、より大きな真核生物のゲノムにも存在する。重要な例として、薬用、農業用、工業用として価値のある特殊な代謝物(例:antimicrobials)を生産する生合成遺伝子クラスター(BGC)がある。BGC…

diamondでBLASTのデータベースを使えるようにするdiamond prepdbコマンド

DIAMOND v2.0.10 https://github.com/bbuchfink/diamond/discussions/478 DIAMONDは一般的なC++コードとしてコンパイルされ、ハードウェアアーキテクチャに対する特別な要件はないが、Intel/AMD x86-64プラットフォームのSSEおよびAVX命令セットが利用可能で…

真菌の遺伝子発現とオルタナティブスプライシングを探索するプラットフォーム FungiExp

真菌類は、多様な生態的ニッチを持つ真核生物の大規模かつ異質なグループを形成している。真菌の重要性は、真菌のライフスタイルや環境への適応性についての理解が限られていることと対照的である。この10年間で、ハイスループット配列決定技術により、膨大…

微生物ゲノム中の細胞機能をモデル化してアノテーションを行う MacSyFinder v2

複雑な細胞機能は、通常、微生物ゲノムの1つまたは数個の組織化された遺伝子座の遺伝子セットによってコードされている。Macromolecular System Finder (MacSyFinder) は、これらの特性を利用して、微生物ゲノム中の細胞機能をモデル化し、次にアノテーショ…

対比学習による酵素機能の予測ツール CLEAN

酵素の機能アノテーションは基本的な課題であり、数多くの計算機ツールが開発されている。しかし、これらのツールの多くは、研究が進んでいないタンパク質や、これまで解明されていない機能や複数の活性を持つタンパク質について、enzyme commission(EC)番…

HiFiロングリードアセンブリのためのリピートを認識したポリッシングツール NextPolish2

PacBio社が開発した高忠実度(HiFi)ロングリードシーケンス技術により、ゲノムアセンブリの塩基レベルの精度は大幅に向上したが、これらのアセンブリには、特にHiFiロングリードのエラーが発生しやすい領域内に、塩基レベルのエラーが残っている。しかし、…

DRAMをKBaseサイバーインフラストラクチャーに統合した kb_DRAM

微生物ゲノムのアノテーションとは、DNA配列中の構造的・機能的エレメントを特定し、そのエレメントに生物学的情報を付加するプロセスである。DRAMは、純粋培養やメタゲノムから得られた細菌、古細菌、ウイルスのゲノムをアノテーションするために開発された…

配列ファイルを堅牢かつ再現性よく操作するためのユーティリティ群 SeqFu

配列ファイル形式(FASTAおよびFASTQ)は、バイオインフォマティクス、分子生物学、生化学の分野でよく使用されている。次世代シーケンサー(NGS)の登場により、FASTQデータセットの作成・解析数は飛躍的に増加しており、これらのファイルを効率的に取り扱…