2023-01-01から1年間の記事一覧
バイオインフォマティクスと計算生物学の分野において、タンパク質の構造モデリングと解析は極めて重要な側面である。しかし、既存のツールのほとんどは高度な専門知識を必要とし、ユーザーフレンドリーなインターフェースを備えていない。この問題を解決す…
タンパク質構造はDNA構造よりも複雑で多様であり、通常、機能、相互作用、生物学的注釈の解釈に影響を与える。Reduced amino acid alphabets (Raaa) は、タンパク質の複雑さを軽減し、機能的に保存された領域を同定する強力な能力を示す。RaacFoldは、58の還…
Foldyは、専門家ではない科学者がAlphaFoldやDiffDockなどのAIベースの高度な構造生物学ツールに簡単にアクセスして利用できるようにするクラウドベースのアプリケーションである。Kubernetes上に構築されているため、大学、学部、研究室がハードウェアリソ…
多くの臨床現場で標準治療となることが予想される、包括的なゲノムデータの臨床治療への活用の増加に伴い、診断医学の実践は顕著な変化を遂げつつある。しかし、単一遺伝子またはパネルベースの遺伝子検査からエクソームおよびゲノムシーケンスへの移行は、…
公開されたゲノムには、オープンリーディングフレーム、開始点、スプライスサイト、および関連する構造的特徴の同定に関連する問題を表す誤った遺伝子モデルが含まれていることが多い。これらの矛盾の原因は、ロングリードのアラインメントと予測された遺伝…
PacBioやOxford Nanoporeシークエンサーで作られたロングリードは、ショートリードよりも構造変異(SV)のブレイクポイントに頻繁にまたがっている可能性がある。そのため、既存のロングリードのマッピング手法では、しばしば誤ったアラインメントやバリアン…
進化的推論は複数配列アラインメント(MSA)の質に大きく依存するが、遠縁のタンパク質では問題がある。タンパク質の構造は塩基配列よりも保存されているので、遠いホモログに対して構造アラインメントを用いるのは自然なことのように思われる。しかしながら、…
転写因子(TF)は遺伝子の発現調節に大きな役割を果たしている。各遺伝子の制御領域に結合するTFを発見することは、長年の研究の焦点であった。TF結合部位(TFBS)の実験的検証は複雑なプロセスであるため、予測を行うウェブツールが開発されてきた。しかし、…
2024/09/04 論文引用 ロングリードシーケンスは、複雑な微生物群集の特徴を明らかにする上で大きな可能性を秘めているが、ロングリード専用に設計された分類学的プロファイリングツールはまだ不足している。ここでは、ロングリードのユニークな特性を生かし…
2023/12/23 誤字修正 2024/02/11 help追記、05/09 論文追記 ロングリードシークエンスの精度と利用可能性が向上したことで、現在ではハイブリッド(すなわちショートリードとロングリード)アセンブリアプローチを用いて完全な細菌ゲノムが日常的に再構築さ…
またIGVの簡単なTipsを紹介します。 1,ロングリードシークエンスのindelエラーの表示/非表示 ロングリードシークエンスの普及により、IGVにTGS向けのオプションが追加されています。 View => Preference => Third Genタブ TGS向けの長めのVisibility range…
fastpは既に5000回以上引用されている(PubMedより)人気のシークエンシングデータの前処理ツールだが、最近のアップグレード(*1)でいくつか新機能が追加された。新機能を簡単に確認しておく。 インストール iMetaの論文ではv0.23.2が最新のバージョンのfa…
msamtoolsは、マイクロバイオームデータ解析、特にショットガンメタゲノミクスやメタトランスクリプトミクスデータを解析する際によく使われる便利な機能を提供している。既にいくつかの論文で使用されている。 インストール M1 macstudioでテストした(rose…
植物に有益な微生物は、持続可能な植物生産や植物衛生上の実践において重要性を増している。しかし、植物成長促進(PGP)に関連する細菌形質を対象とした計算論的アプローチが不足しており、植物刺激性細菌株のin-silico同定、比較、選択を妨げている。この…
PacBio High-Fidelity(HiFi)シーケンス技術は>99%の精度のロングリードを生成する。この技術により、新世代のde novoシーケンスアセンブラが開発され、そのすべてがシーケンスエラー修正(EC)を最初のステップとしている。HiFiは新しいデータタイプであるた…
系統学的研究やゲノムワイドな選択調査などの分子進化研究は、しばしばシングルコピーオルソログ(SC-OG)の遺伝子ファミリーに依存している。トランスポーターや転写因子などいくつかの重要な遺伝子ファミリーに見られる現象であるが、1つ以上の種に複数の…
2023/10/10 追記 メタゲノムシーケンスはマイクロバイオームの特性解析に大きな利点をもたらしたが、現在利用可能な解析ツールには、菌株レベルの分類学的解像度と存在量の推定を、アセンブルされたゲノムの機能プロファイリングと組み合わせる能力が欠けて…
プラスミドは、重要なアクセサリー遺伝子を運ぶ移動性の遺伝性エレメントである。プラスミドをカタログ化することは、細菌間の遺伝子の水平伝播を促進するプラスミドの役割を解明するための基本的なステップである。次世代シーケンサー(NGS)は、今日、新し…
ゲノムシーケンスデータの低価格化と入手の容易化に伴い、de novoゲノムアセンブリは、様々な下流の研究や解析への重要な第一歩となっている。そのため、計算効率の高い方法で高品質のゲノムアセンブリを作成できるバイオインフォマティクスツールが不可欠で…
配列決定されたゲノムの数が増え続けており、比較ゲノムのためのパンゲノムアプローチの開発が必要とされている。2016年に発表されたPanToolsは、パンゲノム構築、ホモロジーグループ化、パンゲノムリードマッピングを可能にするプラットフォームである。グ…
マニュアルより AEGeAn Toolkitは、全ゲノム遺伝子構造アノテーションを管理・解析するツールを構築するための、いくつかの異なるが関連した取り組みとして始まった。AEGeAnはこれらの取り組みを一つのライブラリにまとめ、実行可能なプログラムだけでなく、…
大規模な比較ゲノム研究は、種の進化や多様性に関する重要な知見を提供してきたが、同時に可視化という大きな課題にもつながっている。膨大なゲノムデータに隠された重要な情報や、複数のゲノム間の関係を素早くキャッチし、提示するには、効率的な可視化ツ…
ヒトのDNAバリアントを記述のスタンダードとして、HGVS Nomenclature という記述のルール(命名則)が存在する。これはバリアントをどのように曖昧なく記述するべきかのガイドラインで、snpeffなどのアノテーションツールは、このスタンダードに従ってバリア…
コマンドの誤り修正(very抜け) FastTree-2は、大規模系統樹を推定するための最も成功したツールの1つである。FastTree-2の設計の核心はスピードであるが、FastTree-2の実装には、その性能とスケーラビリティを害する重要な問題がまだある。これらの限界に…
Seaviewバージョン5(*1) 分子配列データからマルチプルアライメントと系統樹構築を行うマルチプラットフォーム・プログラム、Seaviewバージョン5を紹介する。Seaviewは、配列データベースへのネットワークアクセス、任意のアルゴリズムによるアラインメン…
ロングリードDNAシーケンスの登場により、多くの真核生物のセントロメアに見られるメガベーススケールのサテライトリピート配列など、高度に反復したゲノム領域の完全なアセンブリが初めて可能になった。このような反復領域のアセンブリにより、高次反復パタ…
大規模な塩基配列データセットは、視覚化するのも扱うのも難しい。さらに、それらはしばしば自然の多様性のランダムなサブセットを表しているのではなく、調整されていない便宜的なサンプリングの結果である。その結果、冗長性やサンプリングバイアスに悩ま…
2023/08/23 グラフ修正 ZEN3世代のTR5995WXがZEN2世代の3990X(PROなら3995WX)からどのくらい性能が向上しているのかを調べるため、fastqのマッピングにかかる時間を比較する簡単なベンチマークを行いました。使用したのは線虫の全ゲノムショートリードシー…
2024/03/22 追記 2024/06/18 コメント追加 パンゲノム解析は、1つのクレード内の単離株間で遺伝子含有量のばらつきが大きいため、細菌ゲノム解析において不可欠となっている。細菌ゲノムコレクションからパンゲノムを構築するための多くの計算手法が存在する…
Plant Expression Omnibus (PEO)は、100以上の植物種、約60,000の手作業でアノテーションされたRNA-seqサンプル、400万以上の遺伝子の遺伝子発現に関する知見を生物学者に提供するウェブアプリケーションである。このツールにより、ユーザーは異なる器官にわ…