macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

Bioinformatics

タンパク質言語モデルの配列表現の直接比較に基づいて遠隔相同性検出を行う pLM-BLAST

配列比較による相同性の検出は、タンパク質の機能と進化の研究における典型的な最初のステップである。この研究では、タンパク質言語モデルのこのタスクへの適用可能性を探る。pLM-BLASTはBLASTにインスパイアされたツールであり、タンパク質言語モデルProtT…

ウェブブラウザ上で高品質な高分子構造の可視化を行う Protein Imager

分子ビューアーの長い学習曲線は、研究者が初めて構造生物学の分野にアプローチする際の妨げとなっている。ここでは、次世代のオンライン分子ビューアーとして、軽量で強力かつ使いやすいインターフェースである'The Protein Imager'を紹介する。さらに、こ…

高速かつ様々なプロファイルに対応可能な、次世代シークエンシングデータの次世代のシミュレーター NGSNGS

シークエンシングの世代が変わるにつれてDNAシークエンサーの性能が急速に向上し、生成されるデータ量も増加した。この進化は、新しいバイオインフォマティクスの手法にもつながっており、モデルの精度やゲノム解析パイプラインの頑健性を検証する際に、in s…

細菌の保存されたタンパク質の割合を計算するためのNextflowパイプライン POCP-nf

2024/05/08 追記 シーケンス技術の進歩により、細菌ゲノムは飛躍的に増加しており、確実な分類法が必要とされている。Qin et al. (2014)によって最初に提案されたPercentage Of Conserved Proteins (POCP)は、原核生物の属境界を評価するための貴重な指標で…

タンパク質構造へのバリアントのマッピングのためのコマンドラインツール 3Dmapper

ゲノムデータの解釈は、生物学的プロセスの分子メカニズムを理解する上で極めて重要である。タンパク質構造は、遺伝子をコードする変異体に機能的な背景を与えることにより、この解釈を容易にする上で重要な役割を果たす。しかし、遺伝子とタンパク質の対応…

細菌のpopulation genomicsのためのインタラクティブなビューア Phandango

現在の細菌集団ゲノミクスのデータセットに含まれる豊富なデータを十分に活用するには、数百から数千の分離株における数百万塩基対にわたるさまざまなタイプの解析を統合し、統合する必要がある。現在のアプローチでは、系統学的、疫学的、統計学的、進化学…

オンラインで大規模コピー数多型変異の臨床的解釈を行うために開発された CNV-ClinViewer

病因となるコピー数多型バリアント(CNV)は、希少かつ重篤な疾患の不均一なスペクトルを引き起こす可能性がある。しかし、ほとんどのCNVは良性であり、ヒトゲノムのnatural variationの一部である。CNVの病原性の分類、遺伝子型-表現型解析、治療標的の同定…

(メタ)ゲノムのARGプロファイリングを行うSnakemakeパイプライン ARGprofiler

メタゲノム解析は、抗菌薬耐性遺伝子(ARG)の機能や分布を理解する上で非常に有用である。しかし、研究の比較可能性を確保するために、標準化された再現可能なワークフローが必要である。現在の選択肢には、それぞれ特定の目的を念頭に設計された様々なツー…

ブルームフィルタを用いて低メモリ使用量且つ高速にsamの重複マークを行う streammd

重複テンプレートの同定は、バルクシークエンシング解析における一般的な前処理ステップである。streammdは、Picard MarkDuplicatesの出力を忠実に再現しながら、大幅に高速化し、SAMBLASTERよりはるかに少ないメモリで動作する。streammdは、GitHub https:/…

ゲノムからメタコミュニティの幅広いデータに対応したロバストな機能アノテーションを行うツール MetaCerberus

2024/03/5 更新 2024/04/9 追記 MetaCerberusは、超並列、高速、低メモリ、スケーラブルなアノテーションツールであり、ゲノムからメタコミュニティにわたる遺伝子機能を推論する。MetaCerberusは、HMM/HMMERベースのツールを低メモリで高速に提供する。KEGG…

ロングリードトランスクリプトームの高効率なクラスタリングを行う geluster

ロングリードRNAシーケンス技術の進歩は、トランスクリプトーム解析に明るい未来をもたらした。ロングリードをその起源遺伝子ファミリーにしたがってクラスタリングすることは非常に重要である。しかし、既存のde novoクラスタリングアルゴリズムは、膨大な…

InterProScan 5

2014年の論文より ロバストな大規模配列解析は、生物学者が何百万もの配列の特徴を明らかにしようとしている現代のゲノム科学における大きな課題である。ここでは、広く使われているタンパク質機能予測ソフトウェアパッケージInterProScanの新しいJavaベース…

ウルトラロングデータセットに対する高速多重塩基配列アラインメント法 FMAlign2

バイオインフォマティクスにおいて、マルチプル配列アライメント(MSA)は極めて重要なタスクである。しかし、従来の方法では、ウルトラロングシークエンスのアライメントに苦労することが多い。この問題に対処するため、研究者たちは、並列アラインメントの…

ONTのリードからのリファレンスフリーのトランスクリプトーム再構成を行う isONform

ロングリードトランスクリプトームシーケンスの進歩により、転写産物の完全な配列決定が可能になり、転写プロセスを研究する能力が大幅に向上した。ロングリードのトランスクリプトームシーケンス技術としては、Oxford Nanopore Technologies (ONT)が有名で…

ターゲット2倍体ゲノムアセンブラ JTK

ハプロタイプ間の遺伝的差異を解明するためには、Diploid assembly(二倍体アセンブリ)、すなわち相同染色体の配列を別々に決定することが不可欠である。一つのアプローチは、リファレンス配列上で一塩基変異(SNV)をコールし、phase化することである。し…

逆位の構造変異を持つノイジーなロングリードの高感度なマッピングツール invMap

PacBioやOxford Nanoporeシークエンサーで作られたロングリードは、ショートリードよりも構造変異(SV)のブレイクポイントに頻繁にまたがっている可能性がある。そのため、既存のロングリードのマッピング手法では、しばしば誤ったアラインメントやバリアン…

タンパク質配列と構造のハイブリッド類似性スコアに基づく進化推定のためのツール PC_ali

進化的推論は複数配列アラインメント(MSA)の質に大きく依存するが、遠縁のタンパク質では問題がある。タンパク質の構造は塩基配列よりも保存されているので、遠いホモログに対して構造アラインメントを用いるのは自然なことのように思われる。しかしながら、…

ハプロタイプを考慮したロングリードエラー訂正の評価を行う hifieval

PacBio High-Fidelity(HiFi)シーケンス技術は>99%の精度のロングリードを生成する。この技術により、新世代のde novoシーケンスアセンブラが開発され、そのすべてがシーケンスエラー修正(EC)を最初のステップとしている。HiFiは新しいデータタイプであるた…

パンゲノムグラフの構築と探索を行う pantools

配列決定されたゲノムの数が増え続けており、比較ゲノムのためのパンゲノムアプローチの開発が必要とされている。2016年に発表されたPanToolsは、パンゲノム構築、ホモロジーグループ化、パンゲノムリードマッピングを可能にするプラットフォームである。グ…

複数ゲノムにまたがるシンテニー関係を可視化する使いやすいツール NGenomeSyn

大規模な比較ゲノム研究は、種の進化や多様性に関する重要な知見を提供してきたが、同時に可視化という大きな課題にもつながっている。膨大なゲノムデータに隠された重要な情報や、複数のゲノム間の関係を素早くキャッチし、提示するには、効率的な可視化ツ…

HGVS命名法をチェックする Mutalyzer

ヒトのDNAバリアントを記述のスタンダードとして、HGVS Nomenclature という記述のルール(命名則)が存在する。これはバリアントをどのように曖昧なく記述するべきかのガイドラインで、snpeffなどのアノテーションツールは、このスタンダードに従ってバリア…

大規模アラインメントの系統推定を高速化した VeryFastTree

コマンドの誤り修正(very抜け) FastTree-2は、大規模系統樹を推定するための最も成功したツールの1つである。FastTree-2の設計の核心はスピードであるが、FastTree-2の実装には、その性能とスケーラビリティを害する重要な問題がまだある。これらの限界に…

タンデムリピートのアノテーションを行う TRASH

ロングリードDNAシーケンスの登場により、多くの真核生物のセントロメアに見られるメガベーススケールのサテライトリピート配列など、高度に反復したゲノム領域の完全なアセンブリが初めて可能になった。このような反復領域のアセンブリにより、高次反復パタ…

断片化したメタゲノムアセンブリからバクテリオファージゲノムを同定する Phables

2023/09/29 論文引用 ヒトの腸内に見られる微生物群集は、ヒトの健康に強い影響を及ぼす。腸内細菌やウイルスは、炎症性腸疾患などの消化器疾患に影響を及ぼす。バクテリオファージとして知られる細菌に感染するウイルスは、ヒト腸内の細菌群集を調節する上…

ナノポアのロングリードからウイルスゲノムを検出する VirPipe

ナノポアシークエンシングによるウイルスゲノムの検出と解析は、病原体アウトブレイクのサーベイランスにおいて大きな可能性を示している。しかし、ナノポアシーケンスをサポートするウイルス検出パイプラインの数は非常に限られている。この論文では、Nanop…

宿主汚染を正確に除去する Hostile

2023/12/22 論文引用 臨床サンプルから作成された微生物配列は、倫理的および法的な理由から除去しなければならないヒト宿主配列で汚染されていることが多い。バリアントコーリングやde novoアセンブリなどの下流解析に不利になるような標的微生物配列を不用…

SemiBin2

2023/07/10 誤字修正 2024/04/19 チュートリアルリンク追記 環境試料からメタゲノムアセンブリゲノム(MAG)を再構成するメタゲノムビニング法は、大規模なメタゲノム研究において広く用いられている。最近提案された半教師ビニング法SemiBinは、いくつかの…

バクテリアのプラスミド自動アセンブリツール Plassembler

近年のシーケンシング技術の進歩により、ロングリードファーストアセンブリアプローチとショートリードポリッシングを組み合わせることで、ほぼ完全な細菌染色体アセンブリを安価かつ効率的に得ることが可能になった。しかしながら、long-read-first assembl…

突然変異蓄積実験(MA experiment)用にデザインされた変異コーラー accuMUlate

突然変異蓄積(MA)実験(wiki)は、突然変異の影響を直接研究するために最も広く用いられている方法である。MA株から全ゲノムを配列決定することにより、研究者は自然突然変異の発生率と分子スペクトルを直接研究することができ、これらの結果を用いて突然…

miniprotを使うことでゲノムからのBUSCO評価の精度と速度を改善したcompleasm

2023/07/01 名前をminiBUSCOからcompleasmに差し替え 2023/09/29 論文引用 ゲノムアセンブリの完全性評価は、ゲノムデータの正確性と信頼性を評価する上で重要である。不完全なアセンブリは、遺伝子予測、アノテーション、その他のダウンストリーム解析にお…