macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

large genome

ゲノムアセンブリのエクストラロングタンデムリピート(ETR)を評価する TandemTools

Extra-longタンデムリピート(ETR)は真核生物のゲノムに広く存在し、染色体分離などの基本的な細胞内プロセスに重要な役割を果たしている。新しいロングリード技術によってETRのアセンブリが可能になったが、その品質を評価するツールがないため、アセンブ…

ヘテロ接合度の高い非モデル生物のアセンブリグラフをハプロタイプにアンジップする GraphUnzip

ロングリードやHi-Cは、難易度の高いゲノムに対して連続性の高いアセンブリを可能にし、ゲノムアセンブリの分野に革命をもたらした。現在では、あらゆる種類の生物でハプロイドの染色体レベルのアセンブリが一般的に達成されているため、アセンブリフェージ…

自動化されたラージゲノムアセンブリと評価のためのツール Pipeasm

高品質なリファレンスゲノムを用いた生物多様性研究の取り組みが活発化し、さまざまな生物の塩基配列決定が可能になっていることから、大規模ゲノムアセンブリのための最先端の方法論を取り入れた、アクセスしやすく、再現性が高く、使いやすいツールの開発…

複数のラージゲノム間のシンテニーを高速に検出する ntsynt

2024/05/27 追記 近年、リファレンスグレードのゲノムアセンブリは大幅に多様化している。このような豊富なデータにより、ゲノム間の配列保存に関する情報を提供し、種の進化に関する重要な知見に貢献するゲノムのシンテニーの検出を含む、スケーラブルな複…

De novoで散在性反復配列を検出する REPrise

真核生物ゲノムの大部分を占める反復配列の正確なアノテーションは、様々なゲノム解析に不可欠である。データベースフリーのde novoリピート検出アプローチは、十分にキュレートされたリピートデータベースがないゲノムのアノテーションに威力を発揮する。し…

アセンブリ時のハプロタイプ重複に対処するためのツール群 Mabs

真核生物のゲノム解析は、ゲノム解読法の進歩にもかかわらず、未だエラーフリーには至っていない。真核生物のゲノムアセンブリの問題の中には、対立遺伝子が誤ってパラロガスとしてアセンブリされるケースとして現れる、いわゆる「ハプロタイプ重複」と呼ば…

真核生物のシンテニックパンゲノムアノテーションを行う GENESPACE

多くの分類群において高品質な複数のリファレンスゲノム配列が利用可能になったことで、分子進化のパターンやプロセスを高解像度で見ることができるようになった。しかし、真核生物のほぼすべての系において、複数のリファレンスハプロタイプの情報を活用す…

PacBio CLR ゲノムアセンブリの研磨のためのNextflowワークフロー polishCLR

2023/08/23 論文引用 ロングリードシーケンスにより、染色体レベルの高密度のコンティグが得られるようになり、ゲノムアセンブリは大きく変化した。しかし、Pacific Biosciences (PacBio) Continuous Long Reads (CLR) などの第3世代のロングリード技術によ…

ロングリードを使ったゲノムアセンブリの評価とミスアセンブリ修正を行う Inspector

全ゲノムde novoアセンブリはリファレンスゲノムを持たない種の研究には不可欠であり、リファレンスゲノムを持つ種の遺伝的変異の全容を明らかにするためにも重要である。ロングリードシーケンシング技術の進歩により、ロングリードはより正確に、より長く、…

オックスフォードナノポアのハプロイドアセンブリを2倍体アセンブリに変換する hapdup

ロングリードシーケンシングは、現在マッピングが困難な領域に到達し、隣接するバリエーションを日常的にリンクさせてリードベースのフェージングを可能にすることで、バリアント検出に変革をもたらす可能性がある。第3世代のナノポアシーケンスデータは、長…

ゲノムアセンブリの品質、完全性、フェーズ評価を行う Merqury

最近のロングリードアセンブリは、利用可能なリファレンスゲノムの品質と完全性を上回ることが多く、その検証は困難を極めている。ここでは、効率的なk-merセット操作に基づいてリファレンスフリーにアセンブリを評価する新しいツール、Merquryを紹介する。M…

大量のタンデムリピート構造を含むゲノムをインタラクティブに可視化する StainedGlass

2022/01/13 論文引用 ドットプロット解析は、配列の同一性や方向性の違いのような複雑なリピートの基礎構造を明らかにするためによく用いられる。ロングリードシーケンス技術の進歩により、最近ではますます連続したリファレンスゲノムのアセンブリやヒトの…

真核生物ゲノムに存在するLTRレトロトランスポゾンをde novoで発見してアノテーションを付ける LTRpred

LTRレトロトランスポゾンは、2つの類似したロングターミナルリピート(LTR)を含む可動性遺伝因子の一種である。現在、LTRレトロトランスポゾンは、主に従来の相同性検索の手法で真核生物のゲノムにアノテーションされている。そのため、既知の因子のアノテ…

プライマリーゲノムアセンブリにおけるハプロタイプ重複の特定と除去を行う purge_dups

2021 12/22 コマンド追記 ロングリードシーケンシングとスキャフォールディング技術の急速な発展により、大規模な真核生物ゲノムのリファレンスクオリティのアセンブリの作成が加速している。しかし、ヘテロ接合性の高い領域におけるハプロタイプの分岐は、…

HiFiロングリードを使ってhaplotype-resolved assemblyを行う Hifiasm

2022/03/26 Hi-Cと組み合わせた論文引用、ツイート追記 2023/02ツイート追記 2024/04/06 追記、help更新、9/5 レポジトリリンク修正 Haplotype-resolved de novo assemblyは、ゲノム配列のバリエーションを研究するための究極のソリューションである。しかし…

ハプロイドまたは二倍体ゲノムのためのSVコーラー SVIM-asm

2021 8/14 タイトル修正 ゲノム変異の主要なクラスの一つとして、構造バリアント(SV)は50 bps以上の大きさのゲノムリアレンジメントの多様な範囲から構成されている。ヒトの平均的なゲノムには、シングルヌクレオチドバリアント(Single Nucleotide Varian…

MGSE

2020 12/9 インストール追記 染色体の大きさは顕微鏡で測定できるが、ゲノムの大きさは正確には測定できない。生化学的手法やk-mer分布に基づくアプローチでは、推定しかできない。本研究では、高い連続性のセンブリとショートリードマッピングに基づいてゲ…

高速かつ低メモリ使用量でlarge genomeのde gbrujin graphを構築する Cuttlefish

ゲノム解析において、リファレンスゲノムの大規模なコレクションからコンパクトなde Bruijnグラフを構築することは、ますます関心が高まっている課題である。例えば、compacted colored reference de Bruijn graphsは、ショートリードとロングリードのアライ…

2倍体ゲノムアセンブリからHaplotigsを追い出してPrimary contigsを出力する Purge Haplotigs

2020 7/11 図追加 2020 7/13 タイトル修正 2020 7/15 コメント追記 2021 12/23 コメント追加 2022/09/18 インストール手順修正 第三世代の1分子シーケンシングにおける最近の進歩は、非常に高いレベルの連続性と完全性を持つde novoゲノムアセンブリを可能…

De novoでTEを探索する RepeatModeler2

2020 7/5 ProcessRepeatsのhelp追加 2020 7/6 step3修正 2020 7/7 ProcessRepeatsのコマンドの間違いを修正 2022/04/18 追記 2023/07/24 追記 Tree of life全体のゲノム配列決定のペースが加速しているため、 transposable elements(TE)のようなゲノム構成…

高速かつメモリ使用量の少ないポリッシングツール POLCA

2020 6/29 インストール手順修正 Pacific Biosciences(PacBio)によるSingle Molecule Real Time(SMRT)シーケンスや、Oxford Nanopore Technologies(ONT)によるnanoporeシーケンスなどの第3世代シーケンスプラットフォームは、数キロベースからメガベー…

ゲノム間のシンテニー領域を調べる MCScanX

2020 6/21 タイトル変更 2021 11/23 インストール手順修正 MCScanは、複数のゲノムまたはサブゲノムをスキャンして、相同性のあると思われる染色体領域を特定し、遺伝子をアンカーにしてこれらの領域を整列させることができるアルゴリズムである。MCScanXツ…

(vertebrateなどの) ラージゲノムをアセンブルするためのパイプライン CSA

脊椎動物ラージゲノムの全ゲノムショットガン(WGS)アセンブリは、過去20年間のバイオインフォマティクス研究の重要なテーマだが、脊椎動物の大型ゲノムについては、単一のバイオインフォマティクスツールを用いて完全にアセンブリされた染色体を得ることは…

公開されている真核生物アセンブリを分析する BlobToolKit

2020 6/15 追記 種の起源について不可知なシーケンスデバイスによって作成されたシーケンシングデータから標的ゲノムを再構築する場合、汚染された DNA によって混同される可能性がある。サンプル処理中に混入した場合でも、標的DNAとの共抽出によって混入し…

アセンブリ結果を評価するwebサービス gVolante

2021 5/12 ツイート追記 全ゲノムやトランスクリプトームなどの包括的な配列情報へのアクセスが増加するとともに、それらの品質を評価する必要性が高まっている。N50などのシーケンス長に基づくメトリックが標準になったが、これはアセンブリ品質の1つの側面…

ヒトゲノムを扱えるハイパフォーマンスなロングリードアセンブラ Shasta

2020 3/14 動画追加 2020 9/30 論文引用追加 2022/02/04 v0.9 2022/06/08 アップデートに伴いコマンド修正, help更新 ロングリードシーケンシング技術からヒトゲノムアセンブリを作成する現在のワークフローは、大きなコホートへの効率的な拡大を妨げるコス…

複数のシーケンシング技術に対応したドラフトアセンブリpolishingツール Apollo

第三世代のシークエンシング技術は900Kもの塩基対(bp)を含むロングリードをシークエンシングすることができる。これらの長いリードは、アセンブリ(すなわち対象のゲノム)を構築するために使用される。残念なことに、第3世代のシーケンシング技術は高いシ…

マッピングベースでゲノムサイズを推定する MGSE

現在では植物のほぼすべての部分を測定することが可能になってきているがが、植物ゲノムのサイズを評価することは依然として困難である。染色体サイズは顕微鏡下で測定することができるが[ref.1]、単一細胞内の全DNA分子の合計の長さはまだ不明である。シロ…

de novo transcriptome解析のクラスタリングとclosely rellatedな種の情報を用いたアノテーションを行う Grouper

シーケンシング技術の進歩により、モデル生物の範囲を超えてトランスクリプトームを効率的かつ正確に探索することが可能になった(Ekblom and Galindo、2011; Marioni et al、2008)。トランスクリプトームシークエンシングは、高品質のリファレンスゲノムを…

ショートリードのマッピングを行う Whisper

リファレンスゲノムへのリードのマッピングは、シークエンシングデータ解析パイプラインの最初のステップである。シーケンシングコストが削減していることから、合理的な時間内に増大する量の生成データを処理することができるアルゴリズムに対する必要性が…