2023-01-01から1年間の記事一覧
突然変異蓄積(MA)実験(wiki)は、突然変異の影響を直接研究するために最も広く用いられている方法である。MA株から全ゲノムを配列決定することにより、研究者は自然突然変異の発生率と分子スペクトルを直接研究することができ、これらの結果を用いて突然…
次世代シーケンサーデータのin silicoシミュレーションは、ゲノミクス分野で広く用いられている手法である。しかし、DNAまたはRNA分子を時系列電流シグナルデータの形で測定する「第3世代」ナノポアシーケンス装置からのシミュレーションデータを作成するた…
2023/10/06 論文(プレプリント)引用 リボソームDNA(rDNA)アレイは、すべての生命に存在する高度に反復的で均質な領域である。その反復性のため、現在のアセンブリ法では、ヒトや他の多くの真核生物のrDNAアレイを完全にアセンブリすることができず、rDNA…
ゲノムの非コード領域における体細胞変異やエクソン変異は、解析ワークフローにおいて見過ごされがちな未同定の非コード化結果をもたらす可能性がある。ここでは、ゲノムデータから抽出した体細胞変異のコールと、トランスクリプトームデータから抽出したス…
2023/06/20 誤字修正 データの可視化技術は、技術の進歩とともに大きく向上してきた。データをグラフで表現することで、その背景にあるデータ構造をより透明化し、解釈しやすくする。しかし、自由に利用できる一般的な可視化ツールは、記述統計のみをサポー…
ライフオミクスの時代、膨大な量のマルチオミクスデータが生成され、生物医学研究に広く利用されるようになった。プログラミングスキルの低い生物学者がマルチオミクスデータから生物学的知見を得ることは困難である。そのため、複雑なオミクスデータを扱い…
オルソログ遺伝子を正確に推論することは、様々なゲノム研究や進化研究の必須条件である。SonicParanoidはオルソロジー推論に最も適したツールの1つである。しかし、その拡張性と感度は、それぞれ時間のかかるall-versus-allアラインメントと複雑なドメイン…
過去10年間、シーケンス技術の進歩により、ゲノムデータは飛躍的に増加した。これらの新しいデータは、遺伝子やゲノムの進化や機能に関する我々の理解を劇的に変化させてきた。シーケンサー技術の向上にもかかわらず、汚染されたリードを特定することは、多…
ゲノムの解析と比較は、アノテーション、オルソロジー予測、系統推論などのタスクのために、さまざまなツールに依存している。しかし、ほとんどのツールは単一のタスクに特化しており、結果を統合して可視化するためにはさらなる努力が必要である。このギャ…
ロングリードシーケンス技術は、その登場以来大きく進歩した。そのリードの長さは転写産物全体に及ぶ可能性があり、トランスクリプトームを再構築するのに有利である。既存のロングリードトランスクリプトームアセンブリ手法は、主にリファレンスベースであ…
2023/07/01 名前をminiBUSCOからcompleasmに差し替え 2023/09/29 論文引用 ゲノムアセンブリの完全性評価は、ゲノムデータの正確性と信頼性を評価する上で重要である。不完全なアセンブリは、遺伝子予測、アノテーション、その他のダウンストリーム解析にお…
遺伝子およびタンパク質セットのエンリッチメント解析は、オミックス実験から収集されたデータの解析において重要なステップである。Enrichrは、数十万件の注釈付き遺伝子セットを含む、人気のある遺伝子セットエンリッチメント解析ウェブサーバー検索エンジ…
メタゲノミクスは、抗生物質耐性遺伝子(ARG)の拡散を監視するために利用できる。ResFinderやCARDなどのデータベースで発見されたARGは、主に培養可能な病原性細菌に由来するものだが、培養不可能な非病原性細菌由来のARGについては、まだ研究が不十分なま…
遺伝子発現プロファイリングは、生物学的プロセスや疾患の理解に多大な貢献をしてきた。しかし、データ可視化ツールやパスウェイ解析ツールの多くは、膨大なデータフォーマットを必要とするため、特にバイオインフォマティシャンでない人にとっては、処理さ…
ゲノムデータの解釈には、既存のリファレンスデータベースとの関連で結果を評価することが繰り返し課題となっている。コマンドラインやPythonの利用者が増加する中、大規模な公開ゲノムデータベースの多様なコレクションに保存されているキュレーションされ…
原核生物および真核生物において、上流のオープンリーディングフレーム(uORF、いわゆるリーダーペプチドをコードすることが多い)は、下流のメインORF(mORF)の翻訳と転写を制御することができる。しかし、新規機能性uORFのアノテーションは、通常100コド…
2023 5/30 タイトル修正 RNAシーケンスは、様々なRNAサブポピュレーションの発現に関する知識を得るために最も使用されるハイスループットなアプローチの1つとなっている。しかし、ライブラリー調製時やデータ解析時に発生する技術的なアーチファクトが、検…
2023/05/28, 5/30 誤字修正 2023/06/13 プレプリント引用 2024/02/19 ツイート追記 タンパク質配列やRNA-Seqライブラリの形で大量の外部エビデンスを提供するデータベースの利用可能性が高まっており、タンパク質コード遺伝子の遺伝子構造予測手法を改善する…
ウイルス分子疫学において、配列データからコンセンサスゲノムを再構成することは、懸念される変異やバリアントを追跡するために重要である。しかし、配列決定されるサンプル数が急増するにつれ、コンセンサスゲノムの再構築に必要な計算リソースは法外に大…
PHASTEST (PHAge Search Tool with Enhanced Sequence Translation) は、プロファージ検索ウェブサーバーPHASTとPHASTERの後継である。PHASTESTは、細菌ゲノムおよびプラスミド内のプロファージ配列の迅速な同定、アノテーション、視覚化をサポートするよう…
シークエンシングデータなどをDDBJのファイルサーバにアップしてDRAの登録申請を行う場合、D-wayのDRAで情報を記載後に実行する自動validationのステップがあります。このプロセスでは、ファイル受付サーバからのシークエンシングデータのロードにSRA Toolki…
Genome Context Viewerは、ゲノム領域をそのミクロおよびマクロシンテニックな構造に基づいて特定、アライメント、可視化するためのウェブアプリケーションである。遺伝子アノテーションのような機能的要素を検索・比較の単位として使用することで、Genome C…
ゲノミクス研究において、適切なゲノムアセンブリを選択することは、ダウンストリーム解析の鍵となる。しかし、多くのゲノムアセンブリツールが存在し、その実行パラメータは非常に多様であるため、このタスクは困難である。また、既存のオンライン評価ツー…
Gene Expression Omnibusは、二次解析のための重要な生物学的データ源となっている。しかし、Gene Expression Omnibus (GEO)からデータやメタデータを標準的なアノテーションフォーマットでダウンロードするシンプルでプログラム的な方法は存在しない。GEOfe…
糖質活性酵素(CAZymes)は、様々な生物によって作られ、複雑な糖質代謝を担っている。バイオエネルギー、マイクロバイオーム、栄養、農業、地球規模の炭素循環におけるCAZymesの重要性から、CAZymesのゲノムマイニングは(メタ)ゲノムプロジェクトにおける…
最近のブレイクスルーで、深層学習を用いて複数配列アラインメント(MSA)の進化情報を利用し、タンパク質の構造を正確に予測することができるようになった。しかし、オーファンタンパク質や抗体のような進化の早いタンパク質のように、相同タンパク質のMSA…
GenEra(https://github.com/josuebarrera/GenEra)は、DIAMONDを用いたgene-family founder inference framework(遺伝子ファミリーの起源となる遺伝子の推論フレームワーク)で、ゲノム系統分類における相同性検出の失敗など、これまで指摘されてきた限界…
採取したDNAから環境に関連する微生物群集を研究するメタゲノミクスにおいて、最も基本的な計算タスクの1つは、リファレンスデータベースから、与えられたサンプルメタゲノムにどのゲノムが存在するか、または存在しないかを決定することである。この問いに…
Proksee (https://proksee.ca) は、細菌ゲノムのアセンブル、アノテーション、解析、可視化のための、強力で使いやすく、機能豊富なシステムをユーザーに提供する。Prokseeは、イルミナのシーケンスリードを、圧縮されたFASTQファイル、または生、FASTA、Gen…
ロングリードシーケンスプロジェクトにおけるコホートサイズの増加により、Oxford Nanopore TechnologiesとPacific Biosciencesのシーケンスデータの品質評価と処理のためのより効率的なソフトウェアが必要とされている。ここでは、実験の要約、データセット…