macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

Bioinformatics

メタゲノム配列プロファイリングのためのMinimizerベースのナイーブベイズ分類器 MNBC

メタゲノムシーケンスリードを分類するための最先端のツールは、迅速かつ正確な選択肢を提供するが、単一のツールで両者を組み合わせることは、常に改善される研究分野である。機械学習ベースのNaïve Bayes Classifier (NBC)アプローチは、サンプル内のすべ…

ゲノムアセンブリのエクストラロングタンデムリピート(ETR)を評価する TandemTools

Extra-longタンデムリピート(ETR)は真核生物のゲノムに広く存在し、染色体分離などの基本的な細胞内プロセスに重要な役割を果たしている。新しいロングリード技術によってETRのアセンブリが可能になったが、その品質を評価するツールがないため、アセンブ…

タンパク質配列のゲノム配列へのスプライスアライメントの速度と精度を向上させた Spaln3

Spalnは、哺乳類サイズの真核生物ゲノム配列にタンパク質のクエリ配列をスプライスアライメントし、自己完結的にゲノムマッピングを行うための最も初期の実用的なツールである。しかし、その計算速度は、急速に増加するゲノムおよび転写産物配列データの解析…

出版品質の一塩基多型可視化プロットを出力する Snipit

Snipitは、配列中の一塩基多型を参照配列と比較して要約するためにデザインされた解析・可視化ツールである。このツールは、ヌクレオチドやアミノ酸の違いを効率的にカタログ化し、カスタマイズ可能な出版用の図を通して明確な比較を可能にする。設定可能な…

ゲノム領域を柔軟に調整して視覚化と比較ができるユーザーフレンドリーなアプリケーション GenoFig

生物の分子進化の歴史を理解するには、通常、近縁種や系統のゲノム領域を視覚的に比較する必要がある。このタスクを達成するためのアプリケーションはすでにいくつか存在するが、それらは古すぎたり、限定的すぎたり、あるいは複雑すぎたりして、ほとんどの…

タンパク質言語モデルの配列表現の直接比較に基づいて遠隔相同性検出を行う pLM-BLAST

配列比較による相同性の検出は、タンパク質の機能と進化の研究における典型的な最初のステップである。この研究では、タンパク質言語モデルのこのタスクへの適用可能性を探る。pLM-BLASTはBLASTにインスパイアされたツールであり、タンパク質言語モデルProtT…

T2Tゲノムアセンブリの評価ツール Genome Continuity Inspector (GCI)

最近のロングリードシーケンス技術の進歩により、高品質なゲノムアセンブリの作成が大幅に容易になった。テロメアtoテロメアなギャップレス(T2T)アセンブリは、ゲノムアセンブリの新たなゴールデンスタンダードとなっている。最近、T2Tレベルのリファレン…

ウェブブラウザ上で高品質な高分子構造の可視化を行う Protein Imager

分子ビューアーの長い学習曲線は、研究者が初めて構造生物学の分野にアプローチする際の妨げとなっている。ここでは、次世代のオンライン分子ビューアーとして、軽量で強力かつ使いやすいインターフェースである'The Protein Imager'を紹介する。さらに、こ…

高速かつ様々なプロファイルに対応可能な、次世代シークエンシングデータの次世代のシミュレーター NGSNGS

シークエンシングの世代が変わるにつれてDNAシークエンサーの性能が急速に向上し、生成されるデータ量も増加した。この進化は、新しいバイオインフォマティクスの手法にもつながっており、モデルの精度やゲノム解析パイプラインの頑健性を検証する際に、in s…

細菌の保存されたタンパク質の割合を計算するためのNextflowパイプライン POCP-nf

2024/05/08 追記 シーケンス技術の進歩により、細菌ゲノムは飛躍的に増加しており、確実な分類法が必要とされている。Qin et al. (2014)によって最初に提案されたPercentage Of Conserved Proteins (POCP)は、原核生物の属境界を評価するための貴重な指標で…

複雑な反復配列を迅速にインタラクティブなドットプロットで可視化する ModDotPlot

ゲノムの反復配列を分析する一般的な方法は、ドットプロットによって可視化された配列類似性マトリックスを作成することである。StainedGlassのような革新的なアプローチは、ドットプロットを配列同一性のヒートマップとしてレンダリングすることにより、こ…

タンパク質構造へのバリアントのマッピングのためのコマンドラインツール 3Dmapper

ゲノムデータの解釈は、生物学的プロセスの分子メカニズムを理解する上で極めて重要である。タンパク質構造は、遺伝子をコードする変異体に機能的な背景を与えることにより、この解釈を容易にする上で重要な役割を果たす。しかし、遺伝子とタンパク質の対応…

細菌のpopulation genomicsのためのインタラクティブなビューア Phandango

現在の細菌集団ゲノミクスのデータセットに含まれる豊富なデータを十分に活用するには、数百から数千の分離株における数百万塩基対にわたるさまざまなタイプの解析を統合し、統合する必要がある。現在のアプローチでは、系統学的、疫学的、統計学的、進化学…

オンラインで大規模コピー数多型変異の臨床的解釈を行うために開発された CNV-ClinViewer

病因となるコピー数多型バリアント(CNV)は、希少かつ重篤な疾患の不均一なスペクトルを引き起こす可能性がある。しかし、ほとんどのCNVは良性であり、ヒトゲノムのnatural variationの一部である。CNVの病原性の分類、遺伝子型-表現型解析、治療標的の同定…

(メタ)ゲノムのARGプロファイリングを行うSnakemakeパイプライン ARGprofiler

メタゲノム解析は、抗菌薬耐性遺伝子(ARG)の機能や分布を理解する上で非常に有用である。しかし、研究の比較可能性を確保するために、標準化された再現可能なワークフローが必要である。現在の選択肢には、それぞれ特定の目的を念頭に設計された様々なツー…

ブルームフィルタを用いて低メモリ使用量且つ高速にsamの重複マークを行う streammd

重複テンプレートの同定は、バルクシークエンシング解析における一般的な前処理ステップである。streammdは、Picard MarkDuplicatesの出力を忠実に再現しながら、大幅に高速化し、SAMBLASTERよりはるかに少ないメモリで動作する。streammdは、GitHub https:/…

ゲノムからメタコミュニティの幅広いデータに対応したロバストな機能アノテーションを行うツール MetaCerberus

2024/03/5 更新 2024/04/9 追記 MetaCerberusは、超並列、高速、低メモリ、スケーラブルなアノテーションツールであり、ゲノムからメタコミュニティにわたる遺伝子機能を推論する。MetaCerberusは、HMM/HMMERベースのツールを低メモリで高速に提供する。KEGG…

ロングリードトランスクリプトームの高効率なクラスタリングを行う geluster

ロングリードRNAシーケンス技術の進歩は、トランスクリプトーム解析に明るい未来をもたらした。ロングリードをその起源遺伝子ファミリーにしたがってクラスタリングすることは非常に重要である。しかし、既存のde novoクラスタリングアルゴリズムは、膨大な…

InterProScan 5

2014年の論文より ロバストな大規模配列解析は、生物学者が何百万もの配列の特徴を明らかにしようとしている現代のゲノム科学における大きな課題である。ここでは、広く使われているタンパク質機能予測ソフトウェアパッケージInterProScanの新しいJavaベース…

ウルトラロングデータセットに対する高速多重塩基配列アラインメント法 FMAlign2

バイオインフォマティクスにおいて、マルチプル配列アライメント(MSA)は極めて重要なタスクである。しかし、従来の方法では、ウルトラロングシークエンスのアライメントに苦労することが多い。この問題に対処するため、研究者たちは、並列アラインメントの…

ONTのリードからのリファレンスフリーのトランスクリプトーム再構成を行う isONform

ロングリードトランスクリプトームシーケンスの進歩により、転写産物の完全な配列決定が可能になり、転写プロセスを研究する能力が大幅に向上した。ロングリードのトランスクリプトームシーケンス技術としては、Oxford Nanopore Technologies (ONT)が有名で…

ターゲット2倍体ゲノムアセンブラ JTK

ハプロタイプ間の遺伝的差異を解明するためには、Diploid assembly(二倍体アセンブリ)、すなわち相同染色体の配列を別々に決定することが不可欠である。一つのアプローチは、リファレンス配列上で一塩基変異(SNV)をコールし、phase化することである。し…

逆位の構造変異を持つノイジーなロングリードの高感度なマッピングツール invMap

PacBioやOxford Nanoporeシークエンサーで作られたロングリードは、ショートリードよりも構造変異(SV)のブレイクポイントに頻繁にまたがっている可能性がある。そのため、既存のロングリードのマッピング手法では、しばしば誤ったアラインメントやバリアン…

タンパク質配列と構造のハイブリッド類似性スコアに基づく進化推定のためのツール PC_ali

進化的推論は複数配列アラインメント(MSA)の質に大きく依存するが、遠縁のタンパク質では問題がある。タンパク質の構造は塩基配列よりも保存されているので、遠いホモログに対して構造アラインメントを用いるのは自然なことのように思われる。しかしながら、…

ハプロタイプを考慮したロングリードエラー訂正の評価を行う hifieval

PacBio High-Fidelity(HiFi)シーケンス技術は>99%の精度のロングリードを生成する。この技術により、新世代のde novoシーケンスアセンブラが開発され、そのすべてがシーケンスエラー修正(EC)を最初のステップとしている。HiFiは新しいデータタイプであるた…

パンゲノムグラフの構築と探索を行う pantools

配列決定されたゲノムの数が増え続けており、比較ゲノムのためのパンゲノムアプローチの開発が必要とされている。2016年に発表されたPanToolsは、パンゲノム構築、ホモロジーグループ化、パンゲノムリードマッピングを可能にするプラットフォームである。グ…

複数ゲノムにまたがるシンテニー関係を可視化する使いやすいツール NGenomeSyn

大規模な比較ゲノム研究は、種の進化や多様性に関する重要な知見を提供してきたが、同時に可視化という大きな課題にもつながっている。膨大なゲノムデータに隠された重要な情報や、複数のゲノム間の関係を素早くキャッチし、提示するには、効率的な可視化ツ…

HGVS命名法をチェックする Mutalyzer

ヒトのDNAバリアントを記述のスタンダードとして、HGVS Nomenclature という記述のルール(命名則)が存在する。これはバリアントをどのように曖昧なく記述するべきかのガイドラインで、snpeffなどのアノテーションツールは、このスタンダードに従ってバリア…

大規模アラインメントの系統推定を高速化した VeryFastTree

コマンドの誤り修正(very抜け) FastTree-2は、大規模系統樹を推定するための最も成功したツールの1つである。FastTree-2の設計の核心はスピードであるが、FastTree-2の実装には、その性能とスケーラビリティを害する重要な問題がまだある。これらの限界に…

タンデムリピートのアノテーションを行う TRASH

ロングリードDNAシーケンスの登場により、多くの真核生物のセントロメアに見られるメガベーススケールのサテライトリピート配列など、高度に反復したゲノム領域の完全なアセンブリが初めて可能になった。このような反復領域のアセンブリにより、高次反復パタ…