assembly
微生物群集に含まれる細菌種は、ゲノムの小さな変異によって区別される菌株の混合物であることが多い。ショートリード法は、菌株間の小規模な変異を検出するために使用できるが、これらの変異を連続したハプロタイプにphasing(位相を揃える)することはでき…
ウイルスの研究はメタゲノムシークエンシングを用いて行われることが多いが、ゲノムの不完全性が包括的で正確な解析の妨げとなっている。Contig Overlap Based Re-Assembly (COBRA)は、de Bruijnグラフに基づいてアセンブリのブレークポイントを解決し、コン…
近年のゲノム解読の進歩により、解読されたゲノム数は増加している。しかし、反復配列の存在は植物ゲノムのアセンブリを複雑にしている。LTRアセンブリインデックス(LAI)は、LAIが高いほどアセンブリの質が高いことを意味することから、近年、ゲノムアセン…
ハプロタイプ間の遺伝的差異を解明するためには、Diploid assembly(二倍体アセンブリ)、すなわち相同染色体の配列を別々に決定することが不可欠である。一つのアプローチは、リファレンス配列上で一塩基変異(SNV)をコールし、phase化することである。し…
ゲノムシーケンスデータの低価格化と入手の容易化に伴い、de novoゲノムアセンブリは、様々な下流の研究や解析への重要な第一歩となっている。そのため、計算効率の高い方法で高品質のゲノムアセンブリを作成できるバイオインフォマティクスツールが不可欠で…
近年のシーケンシング技術の進歩により、ロングリードファーストアセンブリアプローチとショートリードポリッシングを組み合わせることで、ほぼ完全な細菌染色体アセンブリを安価かつ効率的に得ることが可能になった。しかしながら、long-read-first assembl…
ゲノミクス研究において、適切なゲノムアセンブリを選択することは、ダウンストリーム解析の鍵となる。しかし、多くのゲノムアセンブリツールが存在し、その実行パラメータは非常に多様であるため、このタスクは困難である。また、既存のオンライン評価ツー…
2023/03/10 追記 メタゲノムシークエンシングは、培養を必要としない複雑な微生物コミュニティの大規模な構成の解析と機能的特徴付けを容易にする。最近のロングリードシーケンス技術の進歩は、長距離情報を利用して、repeat-awareなメタゲノムアセンブリパ…
真核生物のゲノム解析は、ゲノム解読法の進歩にもかかわらず、未だエラーフリーには至っていない。真核生物のゲノムアセンブリの問題の中には、対立遺伝子が誤ってパラロガスとしてアセンブリされるケースとして現れる、いわゆる「ハプロタイプ重複」と呼ば…
2023/02/112 誤字修正 最新のロングリードDNOVOゲノムアセンブラは、OLC(Overlap Layout Consensus)パラダイムに従っており、そのネイティブ実装ではO(n2)アルゴリズムであった。OLCの最も時間とメモリを消費するステップであるall-vs-allシーケンシングリ…
低価格のDNAシーケンス技術により、ゲノム、トランスクリプトーム、生態系全体のメタゲノム解析における直接核酸シーケンスの役割は拡大しています。このような大規模なデータセットに対する人間や機械の理解は、配列断片を長く連続した配列ブロック(コンテ…
近年、ハイスループットなシーケンシングが進んでいるが、微生物集団のメタゲノム解析は依然として困難な状況にある。特に、メタゲノムで構築されたゲノム(MAG)は、種間反復、カバレッジの不均一、菌株数の変動などにより、しばしば断片化されている。MAG…
レポジトリより OGA(Organelle Genome Assembler)は、遠縁の生物種、あるいはオルガネラ遺伝子をリファレンスとして、オルガネラゲノムをアセンブルする。オルガネラゲノム(プラストーム)を組み立てるために、以下の4つのステップを実施する。(1)生のショ…
DNA塩基配列の解読にかかる費用と時間が短縮されたことにより、NCBI(National Center for Biotechnology Information)のような公開データベースへの生物情報の寄託が大幅に増加した。1回の実行で大量のデータが生成されるため、この新しい特徴を持つデータ…
Satellite Repeat Finder(SRF)は、ゲノム上で何度もタンデムに繰り返されるサテライトDNAのモチーフを組み立てるツールである。ショートリード、高精度ロングリード、高品質コンティグを入力とし、各リピートユニットのコンセンサスを報告する。SRFは、de …
RNA-seqリードからの転写産物アセンブルは、遺伝子発現やその後の機能解析において重要なステップとなる。本発表では、複数のRNA-seqサンプルを同時に解析するアプローチに基づく、正確かつ効率的なトランスクリプトアセンブラであるPsiCLASSを紹介する。Psi…
2022/06/09 追記 2024/04/28 論文追記、05/23追記 Githubより NextDenovoは、ロングリード(CLR、HiFi、ONT)用のストリンググラフベースのde novoアセンブラです。canuと同様に "correct-then-assemble "戦略を採用していますが(PacBio HiFiリードは修正ス…
細菌ゲノムの正確なde novoアセンブリは、新しい細菌種の進化や病原性を理解するための基礎となるものである。Third-Generation Sequencing (TGS)の出現と普及により、バクテリアゲノムのアセンブルはかつてないほどのスピードで可能になった。しかし、現在…
De novoゲノムアセンブリでは、通常、完全なゲノムではなく、コンティグのセットが作成される。そのため、ゲノムの完全な構造を決定するためには、遺伝的連鎖地図、オプティカルマップ、Hi-Cデータなどの追加データが必要となる。従来の研究では、コンティグ…
次世代シーケンス(NGS)技術は、今日の遺伝学およびゲノミクス研究の展望を支配している。イルミナは依然として世界のシーケンサーを支配しているが、オックスフォード・ナノポアは、現在、生物学者、医学者、遺伝学者がさまざまな用途で使用している主要技…
原核生物ゲノムのショートリードアセンブリにおける欠損領域は、しばしばシーケンス技術の偏りや繰り返しエレメントに起因するとされ、前者は特定の遺伝子座のシーケンスカバレッジの低さ、後者はde novoアセンブリグラフの未解決ループに起因するとされる。…
2022/04/18 誤字修正, 2024/02/11 分かりにくい説明を修正 ロングリードシークエンシングを行う事で、小さなゲノムであれば、chromosomeの完全長アセンブリ、もしくはそれに近い連続性の高いアセンブリが達成出来きるようになりました。この点で最も恩恵を受…
リファレンスゲノムの作成が急速に進んでいる現在、ゲノムアセンブリの要約統計量を確実かつ効率的に生成するツールの利用が不可欠となっている。また、新しいアルゴリズムやデータ型の出現に伴い、自動的および手動的なキュレーションによって既存のアセン…
ハプロタイプを考慮した2倍体ゲノムアセンブリは、ゲノミクス、精密医療、その他多くの分野で極めて重要である。ロングリードシーケンス技術により、ゲノムアセンブリは大幅に改善された。しかし、現在のロングリードアセンブラは、リファレンスベースのため…
ロングリードシーケンスを用いると、ショートリードに比べてアセンブルされたウイルスゲノムの連続性が向上するが、複雑なウイルスコミュニティのアセンブルには未解決の問題が残っている。本著者らは、メタゲノムでアセンブルされたウイルスをロングリード…
タイトルの通りのツール。ランするにはRed (Repeat Detector) とbiopythonが必要。 インストール Github mamba create -n red python=2.7 -yconda activate red#red,biopython,natsortmamba install -c bioconda -y red biopython natsortgit clone https://…
興味のある生物に対して最も完全で、継続的で、正確なアセンブリを選択するためには、アセンブリの包括的な品質評価が必要である。本著者らは、Evaluation of De Novo Assemblies (EvalDNA)という新しいツールを開発した。このツールは、教師付き機械学習を…
ロングリードシーケンス技術は、de novo ゲノムアセンブリの大きな進歩を可能にする。しかし、生のリードはエラー率が高く、エラー分布も広いため、結果的にアセンブリに多くのエラーが発生してしまう。ポリッシングは、ドラフトアセンブリのエラーを修正し…
全ゲノムde novoアセンブリはリファレンスゲノムを持たない種の研究には不可欠であり、リファレンスゲノムを持つ種の遺伝的変異の全容を明らかにするためにも重要である。ロングリードシーケンシング技術の進歩により、ロングリードはより正確に、より長く、…
レポジトリより 私(オーサー)の要件を満たすリードのサブサンプリング用ツールは見つかりませんでした。私が見つけたツールは、サブサンプルするリードの数や割合を指定するだけのものや、カバレッジに合わせてサブサンプルする場合、すべてのリードが同じ…