macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

2023-01-01から1年間の記事一覧

突然変異蓄積実験(MA experiment)用にデザインされた変異コーラー accuMUlate

突然変異蓄積(MA)実験(wiki)は、突然変異の影響を直接研究するために最も広く用いられている方法である。MA株から全ゲノムを配列決定することにより、研究者は自然突然変異の発生率と分子スペクトルを直接研究することができ、これらの結果を用いて突然…

ノイズパラメータを調整可能なナノポアシーケンスシグナルデータのシミュレーター squigulator

次世代シーケンサーデータのin silicoシミュレーションは、ゲノミクス分野で広く用いられている手法である。しかし、DNAまたはRNA分子を時系列電流シグナルデータの形で測定する「第3世代」ナノポアシーケンス装置からのシミュレーションデータを作成するた…

rDNAのコンセンサス配列を構築する ribotin

2023/10/06 論文(プレプリント)引用 リボソームDNA(rDNA)アレイは、すべての生命に存在する高度に反復的で均質な領域である。その反復性のため、現在のアセンブリ法では、ヒトや他の多くの真核生物のrDNAアレイを完全にアセンブリすることができず、rDNA…

ゲノムとトランスクリプトームデータからスプライシングバリアントを見つける RegTools

ゲノムの非コード領域における体細胞変異やエクソン変異は、解析ワークフローにおいて見過ごされがちな未同定の非コード化結果をもたらす可能性がある。ここでは、ゲノムデータから抽出した体細胞変異のコールと、トランスクリプトームデータから抽出したス…

データ可視化・解析のためのウェブアプリケーション PlotS

2023/06/20 誤字修正 データの可視化技術は、技術の進歩とともに大きく向上してきた。データをグラフで表現することで、その背景にあるデータ構造をより透明化し、解釈しやすくする。しかし、自由に利用できる一般的な可視化ツールは、記述統計のみをサポー…

(ヒトとマウス)マルチオミクスデータを探索するウェブサーバ  ExpressVis

ライフオミクスの時代、膨大な量のマルチオミクスデータが生成され、生物医学研究に広く利用されるようになった。プログラミングスキルの低い生物学者がマルチオミクスデータから生物学的知見を得ることは困難である。そのため、複雑なオミクスデータを扱い…

機械学習と言語モデルによる高速、正確、包括的なオーソログ推論を行う SonicParanoid2

オルソログ遺伝子を正確に推論することは、様々なゲノム研究や進化研究の必須条件である。SonicParanoidはオルソロジー推論に最も適したツールの1つである。しかし、その拡張性と感度は、それぞれ時間のかかるall-versus-allアラインメントと複雑なドメイン…

汚染シークエンシングリードを簡単に除外する GenomeFLTR

過去10年間、シーケンス技術の進歩により、ゲノムデータは飛躍的に増加した。これらの新しいデータは、遺伝子やゲノムの進化や機能に関する我々の理解を劇的に変化させてきた。シーケンサー技術の向上にもかかわらず、汚染されたリードを特定することは、多…

バクテリアの比較ゲノム解析を簡単に行う zDB

ゲノムの解析と比較は、アノテーション、オルソロジー予測、系統推論などのタスクのために、さまざまなツールに依存している。しかし、ほとんどのツールは単一のタスクに特化しており、結果を統合して可視化するためにはさらなる努力が必要である。このギャ…

ロングリードRNA seqデータのリファレンスフリーアセンブリを行う RNA-Bloom2

ロングリードシーケンス技術は、その登場以来大きく進歩した。そのリードの長さは転写産物全体に及ぶ可能性があり、トランスクリプトームを再構築するのに有利である。既存のロングリードトランスクリプトームアセンブリ手法は、主にリファレンスベースであ…

miniprotを使うことでゲノムからのBUSCO評価の精度と速度を改善したcompleasm

2023/07/01 名前をminiBUSCOからcompleasmに差し替え 2023/09/29 論文引用 ゲノムアセンブリの完全性評価は、ゲノムデータの正確性と信頼性を評価する上で重要である。不完全なアセンブリは、遺伝子予測、アノテーション、その他のダウンストリーム解析にお…

複数のライブラリにまたがるエンリッチメント解析を行う Enrichr-KG

遺伝子およびタンパク質セットのエンリッチメント解析は、オミックス実験から収集されたデータの解析において重要なステップである。Enrichrは、数十万件の注釈付き遺伝子セットを含む、人気のある遺伝子セットエンリッチメント解析ウェブサーバー検索エンジ…

メタゲノミクスの抗生物質耐性遺伝子データベース ResFinderFG v2.0

メタゲノミクスは、抗生物質耐性遺伝子(ARG)の拡散を監視するために利用できる。ResFinderやCARDなどのデータベースで発見されたARGは、主に培養可能な病原性細菌に由来するものだが、培養不可能な非病原性細菌由来のARGについては、まだ研究が不十分なま…

(ヒト)遺伝子発現解析のためデータ可視化とパスウェイエンリッチメント解析を統合したウェブツール STAGEs

遺伝子発現プロファイリングは、生物学的プロセスや疾患の理解に多大な貢献をしてきた。しかし、データ可視化ツールやパスウェイ解析ツールの多くは、膨大なデータフォーマットを必要とするため、特にバイオインフォマティシャンでない人にとっては、処理さ…

1行のコードでゲノムデータベースへの様々な問い合わせを行う gget

ゲノムデータの解釈には、既存のリファレンスデータベースとの関連で結果を評価することが繰り返し課題となっている。コマンドラインやPythonの利用者が増加する中、大規模な公開ゲノムデータベースの多様なコレクションに保存されているキュレーションされ…

5′上流に保存されたuORFをアノテーションする uORF4u

原核生物および真核生物において、上流のオープンリーディングフレーム(uORF、いわゆるリーダーペプチドをコードすることが多い)は、下流のメインORF(mORF)の翻訳と転写を制御することができる。しかし、新規機能性uORFのアノテーションは、通常100コド…

RNA-Seqの正規化手法を比較し、発現変動遺伝子の解析まで行う NormSeq

2023 5/30 タイトル修正 RNAシーケンスは、様々なRNAサブポピュレーションの発現に関する知識を得るために最も使用されるハイスループットなアプローチの1つとなっている。しかし、ライブラリー調製時やデータ解析時に発生する技術的なアーチファクトが、検…

アノテーションパイプライン BRAKER3

2023/05/28, 5/30 誤字修正 2023/06/13 プレプリント引用 2024/02/19 ツイート追記 タンパク質配列やRNA-Seqライブラリの形で大量の外部エビデンスを提供するデータベースの利用可能性が高まっており、タンパク質コード遺伝子の遺伝子構造予測手法を改善する…

ウイルスコンセンサスゲノム配列をコールする高速でメモリ効率の良い実装 ViralConsensus

ウイルス分子疫学において、配列データからコンセンサスゲノムを再構成することは、懸念される変異やバリアントを追跡するために重要である。しかし、配列決定されるサンプル数が急増するにつれ、コンセンサスゲノムの再構築に必要な計算リソースは法外に大…

バクテリアゲノム上のプロファージ検索ウェブサーバー PHASTEST

PHASTEST (PHAge Search Tool with Enhanced Sequence Translation) は、プロファージ検索ウェブサーバーPHASTとPHASTERの後継である。PHASTESTは、細菌ゲノムおよびプラスミド内のプロファージ配列の迅速な同定、アノテーション、視覚化をサポートするよう…

latf-loadコマンド

シークエンシングデータなどをDDBJのファイルサーバにアップしてDRAの登録申請を行う場合、D-wayのDRAで情報を記載後に実行する自動validationのステップがあります。このプロセスでは、ファイル受付サーバからのシークエンシングデータのロードにSRA Toolki…

複数のアノテーション付きゲノムの視覚的探索をする Genome Context Viewer 2 (GCV)

Genome Context Viewerは、ゲノム領域をそのミクロおよびマクロシンテニックな構造に基づいて特定、アライメント、可視化するためのウェブアプリケーションである。遺伝子アノテーションのような機能的要素を検索・比較の単位として使用することで、Genome C…

ゲノムアセンブリを評価する WebQUAST

ゲノミクス研究において、適切なゲノムアセンブリを選択することは、ダウンストリーム解析の鍵となる。しかし、多くのゲノムアセンブリツールが存在し、その実行パラメータは非常に多様であるため、このタスクは困難である。また、既存のオンライン評価ツー…

GEOとSRAからデータおよびメタデータをダウンロードする GEOfetch

Gene Expression Omnibusは、二次解析のための重要な生物学的データ源となっている。しかし、Gene Expression Omnibus (GEO)からデータやメタデータを標準的なアノテーションフォーマットでダウンロードするシンプルでプログラム的な方法は存在しない。GEOfe…

糖質活性酵素と基質のアノテーションを行う dbCAN3

糖質活性酵素(CAZymes)は、様々な生物によって作られ、複雑な糖質代謝を担っている。バイオエネルギー、マイクロバイオーム、栄養、農業、地球規模の炭素循環におけるCAZymesの重要性から、CAZymesのゲノムマイニングは(メタ)ゲノムプロジェクトにおける…

単一のタンパク質配列からタンパク質構造を予測する OmegaFold

最近のブレイクスルーで、深層学習を用いて複数配列アラインメント(MSA)の進化情報を利用し、タンパク質の構造を正確に予測することができるようになった。しかし、オーファンタンパク質や抗体のような進化の早いタンパク質のように、相同タンパク質のMSA…

遺伝子ファミリーの起源を推論する GenEra

GenEra(https://github.com/josuebarrera/GenEra)は、DIAMONDを用いたgene-family founder inference framework(遺伝子ファミリーの起源となる遺伝子の推論フレームワーク)で、ゲノム系統分類における相同性検出の失敗など、これまで指摘されてきた限界…

メタゲノムの微生物の存在/不在を検出するANIベースの統計テスト YACHT

採取したDNAから環境に関連する微生物群集を研究するメタゲノミクスにおいて、最も基本的な計算タスクの1つは、リファレンスデータベースから、与えられたサンプルメタゲノムにどのゲノムが存在するか、または存在しないかを決定することである。この問いに…

細菌ゲノムの詳細な評価と視覚化を行う Proksee

Proksee (https://proksee.ca) は、細菌ゲノムのアセンブル、アノテーション、解析、可視化のための、強力で使いやすく、機能豊富なシステムをユーザーに提供する。Prokseeは、イルミナのシーケンスリードを、圧縮されたFASTQファイル、または生、FASTA、Gen…

ロングリードシーケンスデータを評価する NanoPack2

ロングリードシーケンスプロジェクトにおけるコホートサイズの増加により、Oxford Nanopore TechnologiesとPacific Biosciencesのシーケンスデータの品質評価と処理のためのより効率的なソフトウェアが必要とされている。ここでは、実験の要約、データセット…