macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

2023

SVアノテーションのための統合webツール AnnotSV 2023アップデート

ヒト遺伝子のバリアントレパートリーの多くは、一塩基多型(SNV)とsmall indelで構成されているが、構造多型(SV)は依然として私たちの変異DNAの主要な部分を占めている。SVの検出は、各カテゴリーのSVを検出するために異なる技術(アレイCGH、SNPアレイ、…

メタゲノム腸内微生物叢プロファイリングによる健康評価のためのwebアプリケーション GMWI-webtool

本著者らは最近、腸内微生物叢の状態から疾患発生の可能性を判定し健康状態を評価する指標として、糞便メタゲノムに基づく「腸内微生物叢ウェルネス指数(GMWI)」を導入した。このウェルネス指数の算出は、健康に有益な種と健康に有害な種の相対的豊かさに…

ロングリードデータから正確に構造変異を検出する SVsearcher

構造変異(SV)は、50bpを超えるサイズのゲノム再編成(欠失、挿入、反転など)を指す。これらは遺伝性疾患や進化メカニズムにおいて重要な役割を果たす。ロングリードシーケンシング技術(PacBioロングリードシーケンシングやOxford Nanopore(ONT)ロング…

重複遺伝子のコピー数をマッピングデータから推定する parascopy

ヒトゲノムには数百の低コピー反復配列(LCR)が存在するが、コピー数のばらつきが大きく、リードマッピングがあいまいなため、ショートリードシーケンス技術による解析は困難である。LCRに重複する150以上の重複遺伝子のコピー数および配列の変異は、単発性…

超高速かつ堅牢なMAGのANI比較を行う skani

メタゲノムアセンブリゲノム(MAG)用のシーケンス比較ツールは、大量のデータや低品質のデータに対処するのが困難である。本著者らは、疎な近似アラインメントを用いて平均ヌクレオチド同一性(ANI)を決定する手法であるskani(https://github.com/bluenot…

植物の機能的アノテーションを行う GFAP

遺伝子の機能的アノテーション(GFA)はゲノム解析において重要であり、広範なゲノム研究の基礎となる。 配列を入力とする一般的なGFAツールは2つのカテゴリーに分けられる: (i)リファレンスベースのツールは、ユーザーが新たに配列決定されたゲノムをアノ…

超高速でスケーラブルなゲノム検索を行う gsearch

ゲノム検索や分類は、データベース(参照ゲノム)に最もマッチするゲノムを見つけることが一般的であるが、利用可能なデータベースゲノムの数が増加していることや、従来の手法が大規模なデータベースに対してうまくスケールしないという事実により、ますま…

ディープラーニングと隠れマルコフモデルを組み合わせて真核生物の一次遺伝子モデルの予測を行う Helixer

遺伝子構造アノテーションはゲノム配列から生物学的知識を得るための重要なステップであり、現在でもゲノミクスプロジェクトにおいてチャレンジングな課題である。現在のde novo隠れマルコフモデルは、生物学的複雑性をモデル化する能力に限界があり、一方、…

RNAシーケンス解析のための統合プラットフォーム ExpressAnalyst

非モデル生物種の研究へのRNAシーケンスの応用が進むにつれ、研究者が生物学的および機能的洞察を迅速に明らかにするための、使いやすく効率的なバイオインフォマティクスツールが求められている。我々は、あらゆる真核生物種のRNAシーケンスデータを処理、…

タンパク質言語モデルの配列表現の直接比較に基づいて遠隔相同性検出を行う pLM-BLAST

配列比較による相同性の検出は、タンパク質の機能と進化の研究における典型的な最初のステップである。この研究では、タンパク質言語モデルのこのタスクへの適用可能性を探る。pLM-BLASTはBLASTにインスパイアされたツールであり、タンパク質言語モデルProtT…

細菌のタンパク質毒素データベース Toxinome

タンパク質毒素は生物学における重要な分子兵器であり、隣接する細胞を攻撃するために使用される。細菌はタンパク質毒素を使って、原核細胞や真核細胞を死滅させたり、成長を阻害したりする。毒素は、様々な生息環境におけるマイクロバイオームの形成、ファ…

メタゲノムアセンブリゲノムの品質を評価するパイプライン MAGqual

微生物群集の全ゲノム配列を決定するメタゲノミクスは、複雑な生態系に対する洞察を提供してきた。新規微生物の発見を容易にし、群集の相互作用を説明し、様々な分野で応用されている。ハイスループットと第3世代シーケンシング技術の進歩は、その普及にさら…

系統的忠実性が高い高度に保存された20個のシングルコピー遺伝子を使い、細菌ゲノムから自動で系統再構成を行う VBCG

系統学的解析は、細菌の多様性と進化を研究する上で切っても切り離せないものとなっており、多くの異なる細菌のコア遺伝子が照合され、系統樹の再構築に用いられてきた。しかし、これらの遺伝子は、すべての細菌ゲノムにおけるその存在と単一コピー率に基づ…

高速かつ様々なプロファイルに対応可能な、次世代シークエンシングデータの次世代のシミュレーター NGSNGS

シークエンシングの世代が変わるにつれてDNAシークエンサーの性能が急速に向上し、生成されるデータ量も増加した。この進化は、新しいバイオインフォマティクスの手法にもつながっており、モデルの精度やゲノム解析パイプラインの頑健性を検証する際に、in s…

WGSやRNA-seqやTarget-captureなどのさまざまなショートリードデータからユーザーが指定した数百〜数千の遺伝子座の同祖配列を抽出し、系統解析に使用可能なMSAを出力する CAPTUS

ターゲットキャプチャー、RNA-Seq、ゲノムスキミング、深く読んだ全ゲノムシーケンスなど、多様なハイスループットシーケンスデータは系統ゲノム解析に利用されているが、このようなミックスされたデータを単一の系統ゲノムデータセットに統合するには、多く…

オンラインで大規模コピー数多型変異の臨床的解釈を行うために開発された CNV-ClinViewer

病因となるコピー数多型バリアント(CNV)は、希少かつ重篤な疾患の不均一なスペクトルを引き起こす可能性がある。しかし、ほとんどのCNVは良性であり、ヒトゲノムのnatural variationの一部である。CNVの病原性の分類、遺伝子型-表現型解析、治療標的の同定…

ギャップフリーゲノムアセンブリとセントロメリックリピート同定のためのT2Tツールキット quarTeT

2024/04/08 CLI追記 高品質なゲノムは、機能的、進化的、比較ゲノム研究の基礎である。telomere-to-telomere (T2T)アセンブリという新しい時代の到来とともに、複雑な染色体構造や高度な反復配列の解明に注目が集まっている。しかし、T2Tゲノムの自動構築や…

メタゲノムシークエンシングデータから微生物真核生物ゲノムを取り出すパイプライン Eukfinder

微生物群集のホールゲノムショットガン(WGS)メタゲノムシークエンシングにより、多様な生態系に生息する微生物の原核生物や真核生物の機能、生理、進化の歴史を発見することができる。その重要性にもかかわらず、微生物真核生物のメタゲノム研究は、WGSデ…

ブルームフィルタを用いて低メモリ使用量且つ高速にsamの重複マークを行う streammd

重複テンプレートの同定は、バルクシークエンシング解析における一般的な前処理ステップである。streammdは、Picard MarkDuplicatesの出力を忠実に再現しながら、大幅に高速化し、SAMBLASTERよりはるかに少ないメモリで動作する。streammdは、GitHub https:/…

細菌の近傍に存在するタンパク質ファミリーを調べる ProFaNA

機能的に関連する遺伝子は、特に原核生物において、ゲノム上でしばしば近傍にグループ化されることがよく知られている。この現象が起こる進化的メカニズムは様々であるが、未知の遺伝子の機能を予測するのに利用できる。ここでは、現在利用可能な膨大なゲノ…

ロングリードのハプロタイプを考慮したエラー訂正を行う HERRO

20240419 タイトル修正 2024/08/05 引用の間違い修正 2025/01/22 テストラン追記 注;論文のタイトルにはHEROと書かれてますが、レポジトリではHERROとなっています。ここではHERROで統一します。 追記 HEROとHERROを混同していました。コメントで教えていた…

複数のプロファイルHMMを1つに統合する HMMerge

過去数十年の間に多重配列アライメントのための手法開発が進歩したにもかかわらず、配列の長さが大きく異なるデータセットのアライメントは、特に入力配列に非常に短い配列(シークエンシング技術、または進化の過程で大きく欠失した配列)が含まれる場合、…

細菌・古細菌の高速な比較ゲノムブラウザ Fast.genomics

ゲノムシークエンシングにより、細菌や古細菌の驚くべき多様性が明らかになったが、これらのゲノムを横断的に閲覧するための高速で便利なツールは存在しない。原核生物の多様性の中で、目的のタンパク質のホモログの存在率や、それらのホモログの遺伝子近傍…

LAIスコアによる連続性の高い植物・藻類ゲノムアセンブリの品質比較を行うサイト PlantLAI

近年のゲノム解読の進歩により、解読されたゲノム数は増加している。しかし、反復配列の存在は植物ゲノムのアセンブリを複雑にしている。LTRアセンブリインデックス(LAI)は、LAIが高いほどアセンブリの質が高いことを意味することから、近年、ゲノムアセン…

ONTのリードからのリファレンスフリーのトランスクリプトーム再構成を行う isONform

ロングリードトランスクリプトームシーケンスの進歩により、転写産物の完全な配列決定が可能になり、転写プロセスを研究する能力が大幅に向上した。ロングリードのトランスクリプトームシーケンス技術としては、Oxford Nanopore Technologies (ONT)が有名で…

セントロメア構造の自動アノテーションツール HiCAT

ロングリードシーケンス技術の著しい向上により、ゲノム中のセントロメアのような複雑なゲノム領域が解明され、セントロメアのアノテーション問題が導入された。現在、セントロメアのアノテーションは半手動的に行われている。HiCATは、階層的タンデムリピー…

ターゲット2倍体ゲノムアセンブラ JTK

ハプロタイプ間の遺伝的差異を解明するためには、Diploid assembly(二倍体アセンブリ)、すなわち相同染色体の配列を別々に決定することが不可欠である。一つのアプローチは、リファレンス配列上で一塩基変異(SNV)をコールし、phase化することである。し…

分類学的シグナルを組み込むことでメタゲノムリードのアノテーションと分類学的プロファイリングを改善する RAT

メタゲノム解析には、リードベースの分類学的プロファイリング、アセンブル、メタゲノムアセンブリゲノム(MAGs)のビニングが一般的である。ここでは、これらのステップを統合したRead Annotation Tool (RAT)を報告する。RATを使ってMAGやコンティグから得…

天然変性タンパク質を予測する ADOPT

天然変性タンパク質(Intrinsically disordered proteins: IDPs)(wiki)は、広範な生物学的機能に重要であり、多くの疾患に関与している。内在性無秩序を理解することは、IDPを標的とする化合物を開発するための鍵となる。IDPの実験的特性解析は、IDPが非…

ウェブベースのタンパク質・構造解析ワークステーション PROFASA

バイオインフォマティクスと計算生物学の分野において、タンパク質の構造モデリングと解析は極めて重要な側面である。しかし、既存のツールのほとんどは高度な専門知識を必要とし、ユーザーフレンドリーなインターフェースを備えていない。この問題を解決す…