macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

2022

疑似マッピングによる原核生物とウイルス集団の正確なメタゲノムプロファイリングを行う KMCP

2022/10/17 help更新 2023/01/05 論文引用、07/26 追記 微生物リファレンスゲノムの増加により、メタゲノム解析の精度は向上したが、分類学的プロファイラーのインデックス作成効率、データベースサイズ、実行時間に対する要件は高くなってきている。また、…

メタゲノムの高感度分類と柔軟な機能アノテーションのためのパイプライン MEDUSA

メタゲノム研究により、微生物群集の分類学的構成や機能の詳細が明らかになった。完全なメタゲノム解析には、目的別に異なるツールが必要であり、これらのツールの選択とセットアップは依然として困難である。さらに、選択したツールセットは、結果で報告さ…

アセンブリグラフを用いたゲノム配列の変換、評価、操作を行う gfastats

リファレンスゲノムの作成が急速に進んでいる現在、ゲノムアセンブリの要約統計量を確実かつ効率的に生成するツールの利用が不可欠となっている。また、新しいアルゴリズムやデータ型の出現に伴い、自動的および手動的なキュレーションによって既存のアセン…

ロングリードを高効率に圧縮する CoLoRd

今日のゲノム研究において、シーケンサー実験によって毎年生み出されるエクサバイト級のデータを維持するためのコストが大きな問題となっている。第三世代シーケンサーの普及にもかかわらず、ロングリードを圧縮する既存のアルゴリズムは、汎用のgzipに対し…

系統樹検索エンジン SHOOT.bio

遺伝子間の進化的関係を明らかにすることは、比較生物学研究の基本である。ここでは、SHOOTを紹介する。SHOOTは、ユーザからのクエリー配列を系統樹のデータベースと照合し、クエリー配列が正しく配置された系統樹を返す。SHOOTはBLAST検索に匹敵する速度で…

コアゲノム推定にメタゲノムアセンブルゲノムを活用するためのロバストなベイズアプローチ mOTUpan

2022/08/20 論文引用 近年のシーケンサーとバイオインフォマティクスの進歩により、メタゲノムアセンブルゲノム(MAG)やシングルセルアセンブルゲノム(SAG)を通じて、環境に関連する未培養クレードのゲノムを提供し、生命の系譜を拡大している。このよう…

複数のゲノムまたはビンからの非冗長化パンゲノムアセンブリを得る SuperPang

2022/303/29 リンク修正、コマンド修正 ゲノムレベルでは、微生物は対立遺伝子と遺伝子組成の両方において高い適応性を持っている。このような遺伝的形質は、異なる環境ニッチに対応して出現し、微生物群集の動態に大きな影響を与える可能性がある。この結果…

シングルセルDNAシーケンシングデータのシミュレータ SimSCSnTree

細胞の進化ツリーを生成し、その枝に沿って一塩基変異(SNVs)やコピー数異常(CNAs)を進化させる新しいシングルセルDNA配列シミュレータSimSCSnTreeについて報告する。このシミュレータで生成されたデータは、特にSNVやCNAが偏在するガンのシングルセルゲ…

真核生物のシンテニックパンゲノムアノテーションを行う GENESPACE

多くの分類群において高品質な複数のリファレンスゲノム配列が利用可能になったことで、分子進化のパターンやプロセスを高解像度で見ることができるようになった。しかし、真核生物のほぼすべての系において、複数のリファレンスハプロタイプの情報を活用す…

ABRIDGE

技術の進歩により、シークエンシングマシンは膨大な量の遺伝子データを生成するようになり、ストレージの需要が増加している。多くのゲノム解析ソフトウエアは、リードアライメントをトランスクリプトームアセンブリや遺伝子数推定などの目的で利用している…

ロングリードアンプリコンのソートとコンセンサス配列の構築のためのツール amplicon_sorter

オックスフォード・ナノポア・テクノロジーズ(ONT)は、携帯可能で低コストなシーケンスの可能性から、生態学研究において人気を集めている第3世代のシーケンサー技術である。この技術はロングリードのシーケンスを得意とするが、アンプリコンのシーケンス…

メタゲノム、メタトランススクリプトーム、ncRNAのシークエンシングデータからrRNA配列を正確かつ高速に検出・除去する RiboDetector

2022/03/11追記 2023/03/05 追記 トランスクリプトームやトランスラトーム技術の進歩により、RNAの活性プロファイルやRNAによる制御機構を深く研究することが可能になった。リボソームRNA(rRNA)配列は細胞内RNAの中で非常に豊富に存在するが、ターゲット配…

オーファン遺伝子の発見のための検索エンジン ORFanID

現在、多くのゲノムが解読され、ある分類群の遺伝子のかなりの割合が他の分類群にオルソログ配列を持っていないことが示されている。これらの配列は、通常、1つの種にのみ存在する場合はorphans/ORFansと呼ばれ、より高い分類学上のランクで見つかった場合は…

PacBio CLR ゲノムアセンブリの研磨のためのNextflowワークフロー polishCLR

2023/08/23 論文引用 ロングリードシーケンスにより、染色体レベルの高密度のコンティグが得られるようになり、ゲノムアセンブリは大きく変化した。しかし、Pacific Biosciences (PacBio) Continuous Long Reads (CLR) などの第3世代のロングリード技術によ…

PacBioのbamをfastqに変換し、残存しているPacBioアダプター配列を取り除く HiFiAdapterFilt

第3世代のシーケンサー技術により、ゲノムシークエンシングとアセンブルに革命が起こり、その速度はますます速くなっている。現在のシーケンシング戦略の1つは、PacBio Sequel II装置での高コンセンサス精度サーキュラーコンセンサスシーケンス(CCS)に由来…

ロングリードのウイルスメタゲノミクスアセンブリから宿主を特定する viralFlye

ロングリードシーケンスを用いると、ショートリードに比べてアセンブルされたウイルスゲノムの連続性が向上するが、複雑なウイルスコミュニティのアセンブルには未解決の問題が残っている。本著者らは、メタゲノムでアセンブルされたウイルスをロングリード…

複雑なメタゲノムデータセットから高品質なゲノムを回収するビニングアルゴリズム binny

2022/10/15 論文引用 ゲノムの再構築は、ゲノム-resolved メタゲノム解析や微生物群集からのマルチオミクスデータ統合において重要なステップである。本発表では、連続したゲノムと高度に断片化したゲノムの両方から高品質のメタゲノムアセンブリゲノムを生…

ロングトランスクリプトームリードから遺伝子融合を高精度に検出する Genion

次世代シーケンサーの登場により、様々なトランスクリプトーム研究が行われるようになった。その中でも、多くのがん種で観察され、発がん性が疑われている遺伝子融合は、広く研究されているテーマである。遺伝子融合は、2つの遺伝子が近接して配置され、融合…

ロングリードから染色体特異的テロメア長を報告する Telogator

テロメアは、真核生物の染色体末端に見られる繰り返し配列で、多くの細胞で分裂時にその平均長が短くなることから、「体内時計」と考えられている。テロメアの長さの異常は、老化との関連に加え、複数の癌やテロメア短小症候群との関連や、様々な疾患の危険…

ショートリードやロングリードを使った効率的な構造バリアントコールを行う Dysgu

構造変異(SV)はゲノム進化において基本的な役割を果たし、癌などの遺伝性または後天性疾患の根底にある可能性がある。ロングリードシーケンス技術により、構造変異(SV)の特徴付けが向上したが、ペアエンドシーケンスの方が拡張性に優れている。本発表で…

ハプロタイプを考慮してロングリードのエラー修正を行う VeChat

2022/04/17 インストール手順修正 エラー訂正は、ロングリードのシーケンスデータ解析における標準的な最初のステップである。現在の標準的な方法は、テンプレートとしてコンセンサス配列を使用する。しかし、メタゲノムや倍数性の高い生物のような混合サン…

Serratus Explorer

公開データベースには惑星規模の核酸配列コレクションが含まれているが、このコーパスの効率的な検索方法がないため、体系的な探索が阻害されている。このデータベースは(本稿執筆時点で)20ペタベースを超え、指数関数的に増加している (ref.1)。そこで、…

(SARS-CoV-2) シーケンシングリードの迅速なデコンタミネーションを行う ReadItAndKeep

臨床検体から得られたウイルス配列データには、人為的な汚染が含まれていることが多い。これらは、法的・倫理的な理由により、共有する前に除去する必要がある。ホストリードの除去を可能にし、低スペックのノートパソコンでSARS-CoV-2のシーケンスデータを…

非コード転写産物のマルチマッピングおよびマルチオーバーラッピングアラインメントのあいまいさに対処するRNA-seq定量ツール MGcount

2022 1/27追記 トータルRNAシーケンス(total-RNA-seq)により、コーディングとノンコーディングの両方のトランスクリプトームを同時に研究することができる。しかし、計算パイプラインは従来、特定のバイオタイプに焦点を当て、total-RNA-seqデータセットが…

マグネトゾーム遺伝子クラスターの同定、アノテーション、可視化のためのツール MagCluster

磁性細菌(MTB)におけるマグネトソームの生合成と組織化を担うマグネトソーム遺伝子クラスター(MGC)は、細菌の磁気受容、オルガネラ生物形成、細胞内バイオミネラリゼーションの機構と進化的起源を解読する鍵となるものである。ここでは、大規模な(メタ…

模擬微生物コミュニティとそのアンプリコンシークエンシングリードを発生させるための多機能ソフトウェア M&Ms

シーケンシング技術の進歩に伴い、16S rDNAシーケンスデータの解析を目的とした多くのバイオインフォマティクスツールが開発されている。これらのツールをテストするためには、異なる環境からのサンプルに類似したデータセットをシミュレートすることが重要…

複数条件下での時間経過トランスクリプトームデータを解析するためのウェブサービス TimesVector-Web

遺伝子発現データの時間経過解析は、ある生物学的メカニズムの時間経過に伴う遺伝子発現の変調パターンを明らかにするのに有利である。例えば、正常者と癌患者のコホートなど、2つの条件間で有意に差のある発現遺伝子(DEG)を検索することは一般的に行われ…

メタゲノムデータに適用可能な機械学習モデル SignalP 6.0

シグナルペプチド(SP)は、すべての生物において、タンパク質の分泌や移動を制御する短いアミノ酸配列である。SPは配列データから予測することができるが、既存のアルゴリズムでは既知のSPの種類を全て検出することはできない。本稿では、5種類のSPをすべて…

高効率なカバレッジ計算ツール BamToCov

2022/02/25 論文引用 多くのゲノミクスアプリケーションでは、リファレンスのヌクレオチドカバレッジを計算したり、リファレンス領域に何本のリードがマッピングされているかをカウントしたりする必要がある。本発表では、BamToCovを紹介する。このツールは…

遺伝子構造に基づいてメタゲノム中の真核生物と原核生物のコンティグを区別する Whokaryote

2022/05/04 追記 メタゲノミクスは、微生物群集に含まれるすべての生物の機能的可能性を研究するための著名な技術となっている。しかし、ほとんどの研究では、真核微生物を無視して、微生物群集に含まれるバクテリアに焦点を当てている。実際、多くのメタゲ…