macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

Bioinformatics

ロングリードの事前フェーシングでSVジェノタイピングを改善する SVUPP

ここでは、リードのフェージング情報を遺伝子型尤度に組み込むことでSVの遺伝子型判定を改善する手法SVUPPを提案する。包括的なベンチマーク評価により、SVUPPは近傍にSVが存在しない場合のSV遺伝子型判定において、オックスフォード・ナノポア・テクノロジ…

SVアノテーションのための統合webツール AnnotSV 2023アップデート

ヒト遺伝子のバリアントレパートリーの多くは、一塩基多型(SNV)とsmall indelで構成されているが、構造多型(SV)は依然として私たちの変異DNAの主要な部分を占めている。SVの検出は、各カテゴリーのSVを検出するために異なる技術(アレイCGH、SNPアレイ、…

メタゲノム腸内微生物叢プロファイリングによる健康評価のためのwebアプリケーション GMWI-webtool

本著者らは最近、腸内微生物叢の状態から疾患発生の可能性を判定し健康状態を評価する指標として、糞便メタゲノムに基づく「腸内微生物叢ウェルネス指数(GMWI)」を導入した。このウェルネス指数の算出は、健康に有益な種と健康に有害な種の相対的豊かさに…

マイクロバイオーム群集検出のためのウェブツール MiCoDe

Microbiome Community Detector (MiCoDe) は、ベイジアン加重確率的ブロックモデルを用いて微生物分類群のネットワークをコミュニティにクラスタリングする、無料の使いやすいウェブツールである。MiCoDeはデータを自動的にフィルタリングし、高次元性、構成…

メタゲノムデータから株レベルの多様性を検出する metaSNV

微生物群集の分類学的解析は、種および株レベルで十分に支持されている。しかし、種内には顕著な表現型の多様性が存在し、株は世界的な集団間で広く共有されることは稀である。種と株の間の多様性を層別化することで、「>亜種」と呼ばれる有用な中間層を特定…

重複遺伝子のコピー数をマッピングデータから推定する parascopy

ヒトゲノムには数百の低コピー反復配列(LCR)が存在するが、コピー数のばらつきが大きく、リードマッピングがあいまいなため、ショートリードシーケンス技術による解析は困難である。LCRに重複する150以上の重複遺伝子のコピー数および配列の変異は、単発性…

親から子へゲノムのどの部分が受け継がれたかを描画する Pedigree Painter (pepa)

ゲノミクス分野においてデータ可視化はますます重要性を増しており、研究者が世代を超えて遺伝と組み換えのパターンを解明するのを可能にしている。既存のツールの多くは祖先予測に焦点を当てているが、親の遺伝子が子孫のゲノムにどのように寄与するかを分…

メタゲノムの菌叢存在量を株レベルで正確に定量する StrainR2

合成微生物群集は、管理可能なモデルシステムにおいて還元主義的研究を行う機会を提供する。しかし、これらの群集内における高度に類似した株のアバンダンスを推定することは、現在信頼性が低い状態になっている。16S rRNA遺伝子シーケンシングは株レベルで…

細菌のSNPおよびSVの検出に適したオールインワンのパイプライン VariantDetective

ゲノム変異は、1塩基ヌクレオチド多型(SNP)から大規模な構造変異(SV)まで、多様な変化のスペクトラムを構成し、細菌の進化と種分化に重要な役割を果たしている。SNPsとSVsを正確に同定することは、その後の進化研究や疫学研究に有益である。本研究では…

細菌ゲノムのロングリードコンセンサスアセンブリを行う Autocycler

2025/09/03論文追記 ロングリードシーケンスにより完全な細菌ゲノムアセンブリが可能になるが、個々のアセンブラは不完全であり、しばしば配列レベルや構造エラーが生じる。Trycyclerを用いたコンセンサスアセンブリは精度を向上させることができるが、自動…

オルソロジーに基づく代替モデル生物の選択を支援する OMAMO

生物種を超えてパスウェイや遺伝子が保存されていることから、科学者はヒト以外のモデル生物を用いてヒトの生物学をより深く理解することができるようになった。しかし、マウス、ラット、ゼブラフィッシュのような伝統的なモデル系を使用することは、コスト…

パンゲングラフによって遺伝子含有量を探索する pangene

遺伝子内容は生物の生物学的性質を制御しており、種間および同一種内の個体間で変化する。細菌ゲノムにおける遺伝子内容の変化を特定するツールは開発されているが、ヒトパンゲノムのような大規模な真核生物ゲノムのコレクションには適用可能なものは存在し…

ゲノム配列から高精度なab initioの遺伝子構造予測を行う Tiberius

25年以上にわたり、学習ベースの真核生物遺伝子予測は、DNA配列を直接入力する隠れマルコフモデル(HMM)によって駆動されてきた。最近、HolstらはHelixerを用いて、深層学習とHMMポストプロセッサーを組み合わせることでab initio真核生物遺伝子予測の精度…

ロングリードのマッピングから構造バリアントとジェノタイピングを行う Sawfish

構造バリアント(SV)は進化および機能ゲノミクスにおいて重要な役割を果たすが、その特性解析は困難である。高精度のロングリードシーケンスは、効果的なコーリング手法と組み合わせることで、SVの特性解析を大幅に改善することができる。最新のロングリー…

全ゲノムアラインメントを操作するための超高速ツールキット Wgatools

ロングリードシーケンス技術の急速な発展により、個体完全長ゲノムの時代が近づいている。本著者らは、様々な全ゲノムアラインメント(WGA)フォーマットをサポートし、アラインメントの変換、処理、評価、可視化のための実用的なツールを提供する、クロスプ…

原核生物アセンブリのための包括的でスケーラブルなNextflowアノテーションパイプライン mettannotator

近年、原核生物のゲノムアセンブリが急増しており、単離された生物や環境サンプルの両方から得られている。これらのアセンブリには、リファレンスデータベースでは十分に表現されていない新規の生物種が含まれることが多く、よく記述されている分類群と新規…

メタゲノム配列プロファイリングのためのMinimizerベースのナイーブベイズ分類器 MNBC

メタゲノムシーケンスリードを分類するための最先端のツールは、迅速かつ正確な選択肢を提供するが、単一のツールで両者を組み合わせることは、常に改善される研究分野である。機械学習ベースのNaïve Bayes Classifier (NBC)アプローチは、サンプル内のすべ…

ゲノムアセンブリのエクストラロングタンデムリピート(ETR)を評価する TandemTools

Extra-longタンデムリピート(ETR)は真核生物のゲノムに広く存在し、染色体分離などの基本的な細胞内プロセスに重要な役割を果たしている。新しいロングリード技術によってETRのアセンブリが可能になったが、その品質を評価するツールがないため、アセンブ…

タンパク質配列のゲノム配列へのスプライスアライメントの速度と精度を向上させた Spaln3

Spalnは、哺乳類サイズの真核生物ゲノム配列にタンパク質のクエリ配列をスプライスアライメントし、自己完結的にゲノムマッピングを行うための最も初期の実用的なツールである。しかし、その計算速度は、急速に増加するゲノムおよび転写産物配列データの解析…

出版品質の一塩基多型可視化プロットを出力する Snipit

Snipitは、配列中の一塩基多型を参照配列と比較して要約するためにデザインされた解析・可視化ツールである。このツールは、ヌクレオチドやアミノ酸の違いを効率的にカタログ化し、カスタマイズ可能な出版用の図を通して明確な比較を可能にする。設定可能な…

ゲノム領域を柔軟に調整して視覚化と比較ができるユーザーフレンドリーなアプリケーション GenoFig

生物の分子進化の歴史を理解するには、通常、近縁種や系統のゲノム領域を視覚的に比較する必要がある。このタスクを達成するためのアプリケーションはすでにいくつか存在するが、それらは古すぎたり、限定的すぎたり、あるいは複雑すぎたりして、ほとんどの…

タンパク質言語モデルの配列表現の直接比較に基づいて遠隔相同性検出を行う pLM-BLAST

配列比較による相同性の検出は、タンパク質の機能と進化の研究における典型的な最初のステップである。この研究では、タンパク質言語モデルのこのタスクへの適用可能性を探る。pLM-BLASTはBLASTにインスパイアされたツールであり、タンパク質言語モデルProtT…

T2Tゲノムアセンブリの評価ツール Genome Continuity Inspector (GCI)

最近のロングリードシーケンス技術の進歩により、高品質なゲノムアセンブリの作成が大幅に容易になった。テロメアtoテロメアなギャップレス(T2T)アセンブリは、ゲノムアセンブリの新たなゴールデンスタンダードとなっている。最近、T2Tレベルのリファレン…

ウェブブラウザ上で高品質な高分子構造の可視化を行う Protein Imager

分子ビューアーの長い学習曲線は、研究者が初めて構造生物学の分野にアプローチする際の妨げとなっている。ここでは、次世代のオンライン分子ビューアーとして、軽量で強力かつ使いやすいインターフェースである'The Protein Imager'を紹介する。さらに、こ…

高速かつ様々なプロファイルに対応可能な、次世代シークエンシングデータの次世代のシミュレーター NGSNGS

シークエンシングの世代が変わるにつれてDNAシークエンサーの性能が急速に向上し、生成されるデータ量も増加した。この進化は、新しいバイオインフォマティクスの手法にもつながっており、モデルの精度やゲノム解析パイプラインの頑健性を検証する際に、in s…

細菌の保存されたタンパク質の割合を計算するためのNextflowパイプライン POCP-nf

2024/05/08 追記 シーケンス技術の進歩により、細菌ゲノムは飛躍的に増加しており、確実な分類法が必要とされている。Qin et al. (2014)によって最初に提案されたPercentage Of Conserved Proteins (POCP)は、原核生物の属境界を評価するための貴重な指標で…

複雑な反復配列を迅速にインタラクティブなドットプロットで可視化する ModDotPlot

ゲノムの反復配列を分析する一般的な方法は、ドットプロットによって可視化された配列類似性マトリックスを作成することである。StainedGlassのような革新的なアプローチは、ドットプロットを配列同一性のヒートマップとしてレンダリングすることにより、こ…

タンパク質構造へのバリアントのマッピングのためのコマンドラインツール 3Dmapper

ゲノムデータの解釈は、生物学的プロセスの分子メカニズムを理解する上で極めて重要である。タンパク質構造は、遺伝子をコードする変異体に機能的な背景を与えることにより、この解釈を容易にする上で重要な役割を果たす。しかし、遺伝子とタンパク質の対応…

細菌のpopulation genomicsのためのインタラクティブなビューア Phandango

現在の細菌集団ゲノミクスのデータセットに含まれる豊富なデータを十分に活用するには、数百から数千の分離株における数百万塩基対にわたるさまざまなタイプの解析を統合し、統合する必要がある。現在のアプローチでは、系統学的、疫学的、統計学的、進化学…

オンラインで大規模コピー数多型変異の臨床的解釈を行うために開発された CNV-ClinViewer

病因となるコピー数多型バリアント(CNV)は、希少かつ重篤な疾患の不均一なスペクトルを引き起こす可能性がある。しかし、ほとんどのCNVは良性であり、ヒトゲノムのnatural variationの一部である。CNVの病原性の分類、遺伝子型-表現型解析、治療標的の同定…