macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

Pacbio

メタゲノムシークエンシングデータから微生物真核生物ゲノムを取り出すパイプライン Eukfinder

微生物群集のホールゲノムショットガン(WGS)メタゲノムシークエンシングにより、多様な生態系に生息する微生物の原核生物や真核生物の機能、生理、進化の歴史を発見することができる。その重要性にもかかわらず、微生物真核生物のメタゲノム研究は、WGSデ…

de novo transcriptomeのアイソフォームアセンブラ ClusTrAsT

2024/02/27 追記 信頼できるリファレンスゲノムを持たない生物種のRNAシーケンスデータからのトランスクリプトームアセンブリはde novoで行う必要があるが、de novo methodでは転写産物のアイソフォームを再構築する能力が不十分であることが多いことが研究…

逆位の構造変異を持つノイジーなロングリードの高感度なマッピングツール invMap

PacBioやOxford Nanoporeシークエンサーで作られたロングリードは、ショートリードよりも構造変異(SV)のブレイクポイントに頻繁にまたがっている可能性がある。そのため、既存のロングリードのマッピング手法では、しばしば誤ったアラインメントやバリアン…

メタゲノムロングリードの分類学的分類と定量を行う Melon

ロングリードシーケンスは、複雑な微生物群集の特徴を明らかにする上で大きな可能性を秘めているが、ロングリード専用に設計された分類学的プロファイリングツールはまだ不足している。ここでは、ロングリードのユニークな特性を生かしたマーカーベースの分…

IGVのtips 4

またIGVの簡単なTipsを紹介します。 1,ロングリードシークエンスのindelエラーの表示/非表示 ロングリードシークエンスの普及により、IGVにTGS向けのオプションが追加されています。 View => Preference => Third Genタブ TGS向けの長めのVisibility range…

minimizer空間でメタゲノムのアセンブリを行う metaMDBG

2023/08/03 全面的に修正 2024/01/03 論文引用、タイトル修正 高精度ロングリードのための新しいメタゲノミクスアセンブラを紹介する。metaMDBGとして実装された本アプローチは、minimizer空間における高効率なde Bruijnグラフアセンブリと、ゲノムカバレッ…

あらゆるタイプのPacBioおよびONTロングリードのシミュレータ PBSIM3

2024/02/12 誤字修正 Pacific Biosciences (PacBio)やOxford Nanopore Technologies (ONT)などのロングリードシーケンサーは、そのリード長や精度を向上させ、これまでにない研究を開拓している。ロングリードを解析するためのツールやアルゴリズムも数多く…

HiFiロングリードを効率的にマッピングする mapquik

2023/07/13 タイトル修正、誤字修正 DNAシーケンスデータは、シーケンスエラー率がますます低くなり、より長いリードへと進歩し続けている。本著者らは、ロングリード(PacBio HiFi)から低発散配列のリファレンスゲノムへのマッピング(アラインメント)と…

HiFiロングリードアセンブリのためのリピートを認識したポリッシングツール NextPolish2

PacBio社が開発した高忠実度(HiFi)ロングリードシーケンス技術により、ゲノムアセンブリの塩基レベルの精度は大幅に向上したが、これらのアセンブリには、特にHiFiロングリードのエラーが発生しやすい領域内に、塩基レベルのエラーが残っている。しかし、…

mOTUs3を使ってロングリードの分類学的プロファイリングを行う

krakenに代表されるメタゲノムの分類学的プロファイリングツールは、fastqのそれぞれのReadに対してダイレクトに分類学的分類を行う。そのために、kraken1ではJellyfishを使ってリファレンスゲノムからk-merが取り出され、ゲノムの分類学的情報と共にデータ…

ロングリードデータを用いたプラスチドゲノムのアセンブリを行う ptGAUL

プラスチドゲノム(プラストーム)の構造は、ほとんどの種子植物で高度に保存されているが、過去20年間の研究により、大幅な再配列を経験したいくつかの異種族系統が明らかになっている。ほとんどのプラストームには、大きなインバーテッドリピートと2つのシ…

ONTリードを用いて2倍体HiFiアセンブリを検証する GAVISUNK

現在、多くの生物種や個体において、 de novo phased diploid genome assembliesが実現可能である。そのため、アセンブリの精度を検証し、オーソログシーケンスデータによるミスアセンブリを検出し、ダウンストリーム解析を確実に行うための手法が求められて…

アセンブリ時のハプロタイプ重複に対処するためのツール群 Mabs

真核生物のゲノム解析は、ゲノム解読法の進歩にもかかわらず、未だエラーフリーには至っていない。真核生物のゲノムアセンブリの問題の中には、対立遺伝子が誤ってパラロガスとしてアセンブリされるケースとして現れる、いわゆる「ハプロタイプ重複」と呼ば…

ノイズの多いロングリードの高感度で高速なマッピングを行う kngMap

PacBioやOxford Nanoporeのような1分子シーケンスの急速な発展に伴い、出力されるリードの長さは増加し続けており、最先端のゲノムアプリケーションに劇的な可能性を与えている。これらのリードをリファレンスゲノムにマッピングすることは、ダウンストリー…

2ラウンドのオーバーラッピングとキャッシュに基づく高速エラー訂正を行う Fec

第3世代シーケンサーは長いリード長でゲノム解析を進めるが、リードのエラーレートが高いため、エラー訂正が必要になる。特にシーケンスカバレッジが高い場合、エラー訂正は時間のかかる作業である。一般に、既存の誤り訂正手法は、重複するリードAを訂正す…

PacBio HiFiリードをアダプターの位置で分割する Skera

HPより Skeraは、PacBioのアレイ化されたリードを、アダプターの位置で分割し、リードセグメントを生成します。各入力/親リード(HiFi など)に対して、skera は複数の bam レコードを作成し、各フラグメントに対して 1 つずつ作成します。1本の親リードは、…

ノイズの多いロングリードを分類する deSAMBA

ノイズの多いロングリードの分類を特定するための高速かつ正確な分類ツールが未だ存在せず、有望なロングリードメタゲノムシーケンス技術の利用におけるボトルネックとなっている。本発表では、de Bruijn graph-based Sparse Approximate Match Block Analyz…

ハプロタイプゲノム配列を組み立てるHaploMaker

二倍体生物において、全ゲノムハプロタイプの構築は、ヘテロ接合型一塩基多型の対立遺伝子を正確に同定し、正しい相同染色体に割り当てることに依存する。このように対立遺伝子を適切に配置することで、ハプロタイプと呼ばれる染色体上の一塩基多型の組み合…

ロングリードのアセンブラ NextDenovo

2022/06/09 追記 Githubより NextDenovoは、ロングリード(CLR、HiFi、ONT)用のストリンググラフベースのde novoアセンブラです。canuと同様に "correct-then-assemble "戦略を採用していますが(PacBio HiFiリードは修正ステップなし)、必要な計算資源と…

環状細菌ゲノムアセンブラ B-assembler

細菌ゲノムの正確なde novoアセンブリは、新しい細菌種の進化や病原性を理解するための基礎となるものである。Third-Generation Sequencing (TGS)の出現と普及により、バクテリアゲノムのアセンブルはかつてないほどのスピードで可能になった。しかし、現在…

シーケンスデータ中の変異プロファイルを簡単に定量的に測定できる SIQ

ゲノム編集後の突然変異の結果を確立することは、高効率のゲノムターゲティングツールの出現により、ますます重要となっている。次世代シーケンサー(NGS)は、特定の標的部位における変異誘発の程度を調査するために不可欠な方法となっている。そのため、研…

ロングリードを用いた低複雑度メタゲノムから株レベルアセンブリを分離する Strainberry

ハイスループットなショートリードメタゲノミクスにより、微生物コミュニティの大規模な種レベルの解析と機能的な特徴付けが可能になった。マイクロバイオームには同一種の複数の株が含まれることが多く、株によってその機能的役割に重要な違いがあることが…

ロングリードを高効率に圧縮する CoLoRd

今日のゲノム研究において、シーケンサー実験によって毎年生み出されるエクサバイト級のデータを維持するためのコストが大きな問題となっている。第三世代シーケンサーの普及にもかかわらず、ロングリードを圧縮する既存のアルゴリズムは、汎用のgzipに対し…

PacBio CLR ゲノムアセンブリの研磨のためのNextflowワークフロー polishCLR

2023/08/23 論文引用 ロングリードシーケンスにより、染色体レベルの高密度のコンティグが得られるようになり、ゲノムアセンブリは大きく変化した。しかし、Pacific Biosciences (PacBio) Continuous Long Reads (CLR) などの第3世代のロングリード技術によ…

PacBioのbamをfastqに変換し、残存しているPacBioアダプター配列を取り除く HiFiAdapterFilt

第3世代のシーケンサー技術により、ゲノムシークエンシングとアセンブルに革命が起こり、その速度はますます速くなっている。現在のシーケンシング戦略の1つは、PacBio Sequel II装置での高コンセンサス精度サーキュラーコンセンサスシーケンス(CCS)に由来…

ハプロタイプを考慮したロングリードからの2倍体ゲノムアセンブリを行う phasebook

ハプロタイプを考慮した2倍体ゲノムアセンブリは、ゲノミクス、精密医療、その他多くの分野で極めて重要である。ロングリードシーケンス技術により、ゲノムアセンブリは大幅に改善された。しかし、現在のロングリードアセンブラは、リファレンスベースのため…

ロングリードから染色体特異的テロメア長を報告する Telogator

テロメアは、真核生物の染色体末端に見られる繰り返し配列で、多くの細胞で分裂時にその平均長が短くなることから、「体内時計」と考えられている。テロメアの長さの異常は、老化との関連に加え、複数の癌やテロメア短小症候群との関連や、様々な疾患の危険…

ショートリードやロングリードを使った効率的な構造バリアントコールを行う Dysgu

構造変異(SV)はゲノム進化において基本的な役割を果たし、癌などの遺伝性または後天性疾患の根底にある可能性がある。ロングリードシーケンス技術により、構造変異(SV)の特徴付けが向上したが、ペアエンドシーケンスの方が拡張性に優れている。本発表で…

ハプロタイプを考慮してロングリードのエラー修正を行う VeChat

2022/04/17 インストール手順修正 エラー訂正は、ロングリードのシーケンスデータ解析における標準的な最初のステップである。現在の標準的な方法は、テンプレートとしてコンセンサス配列を使用する。しかし、メタゲノムや倍数性の高い生物のような混合サン…

ノイズの多いロングリードからの完全長de novoウイルスハプロタイプ再構築を行う Strainline

多様なウイルスゲノムのHaplotype-resolvedアセンブリは、ウイルス性疾患の予防、制御、治療において重要である。しかし、現在の手法では、比較的正確なショートリードデータしか扱えないか、ハプロタイプ特有の変異をコンセンサス配列に折り畳んでしまうか…