macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

assembly

(植物など)ゲノムアセンブリとアノテーションのクオリティを分析するwebサーバー GenomeQC

過去数十年にわたって、Genlisea aureaの63 Mb [ref.1]からPinus taedaの22 Gb [ref.2]までのサイズの多数の植物ゲノムアセンブリが生成された。このようなプロジェクトから生成されたゲノムリソースは、改良された作物品種の開発に貢献し、ゲノムサイズ、構…

contigをscaffoldingする Scaffold_builder

#今回からDNAシーケンシング => DNAシークエンシングに統一。 第二世代シークエンシングは、完全なゲノムシークエンシングのための最も費用対効果が高く、すぐに利用可能な技術である。完全なゲノム配列のアセンブリとscaffoldingはしばしば課題のままとなっ…

GAPPadder

急速に発展するハイスループットシーケンステクノロジーにより、シーケンスリードからのde novoゲノムアセンブリは、シーケンステクノロジーの主要なアプリケーションになった。これまでに、多くのゲノムアセンブリソフトウェアツールが開発されている[ref.1…

アセンブリグラフから二次代謝産物生合成遺伝子クラスターを再構築する BiosyntheticSPAdes

微生物ゲノムまたはメタゲノムをアセンブリするための多くのツールが存在するが(Simpson et al、2009、Li et al、2015、Nurk et al、2017)、それらはすべて反復ドメインを有するタンパク質をコードする長い遺伝子を含むコンティグに関して限界がある。長い…

アセンブリ結果を評価する dnAQET

次世代シーケンス(NGS)テクノロジーの導入により、大量のゲノムシーケンスデータを生成できるようになった。これにより、個人のゲノムをシーケンシングしてde novoアセンブリすることが可能になった。約10年前、NGSテクノロジーにより、二倍体de novoゲノ…

IDBA-UD

次世代シーケンシングにより、シングルセルシーケンシングまたはメタゲノムシーケンシングテクノロジーを使用して、微生物環境のシーケンシングができる。しかし、両方の技術には、ゲノムの異なる領域または異なる種のゲノムのシーケンシングデプスが非常に…

fungiのゲノムアセンブリ完全性評価ツール FGMP

ハイスループットシークエンシングおよび分析ツールの最近の爆発により、培養不可能な生物を含む生命のツリーを横切るほぼ全ての種のシークエンシングがより容易かつ安価になった。しかしながら、これらのゲノムの質と完全性は、リピート領域をアセンブリす…

viral quasispeciesのハプロタイプを再構成する PEHaplo

高い突然変異率、自然選択および組換えは、RNAウイルス集団の高い遺伝的多様性につながる可能性がある(Domingo-Calap et al、2016)。これらはclosely relatedだが異なるウイルス株で構成されている。ウイルス集団のこれらのグループは、しばしばquasispeci…

微生物ゲノムアセンブリの品質と比較ゲノミクス(correspondence要約)

私(論文のオーサー;hereafter、私)の最近の研究では、低品質の細菌ゲノム配列(ここでは「多くのコンティグを含むゲノム配列アセンブリ、最終的には明らかなミスアセンブリと未解決のプラスミド配列」と定義)を扱ってきた。主要な問題は、ゲノムのクオリ…

複数のFASTAファイルをNNN...で連結する CombineFasta

タイトルの通りのツール。 インストール Technically, this program works on all operating systems; however, it has only been tested on Linux. 依存 Java jdk version 1.8 This git repository A decent (>16Gb) amount of RAM Github git clone https:…

メタゲノムのハイブリッドアセンブリツール OPERA-MS

2019 8/31 docker imageのhelpコマンドのエラー修正 腸内微生物叢は、ホストの健康に寄与する多様な代謝特性を付与する数百種の豊かなコミュニティを持っている(ref.1)。また、抗生物質耐性遺伝子の貯蔵庫としても機能し、数え切れないほどの細菌が絶え間…

ヒトゲノムを扱えるハイパフォーマンスなロングリードアセンブラ Shasta

ロングリードシーケンシング技術からヒトゲノムアセンブリを作成する現在のワークフローは、大きなコホートへの効率的な拡大を妨げるコストおよび生産時間のボトルネックを有している。著者らは11のヒトゲノム用に最適化されたPromethIONナノポアシーケンス…

viral quasispeciesのクラスタリング(binning)ツール VirBin

ウイルス集団内の高い遺伝的多様性が、HIV、HCVなどのRNAウイルスによる慢性感染症の患者において観察されている(Sullivan et al、2007; PerrinおよびTelenti、1998)。遺伝的多様性は、異なる株の多重感染、または宿主内でのウイルス複製中の変異によって…

アセンブリ過程でロングリードをフィルタリングする fpa

以前、ロングリードのアセンブリ前処理ツール yacrdを紹介した。 今回はアセンブリ過程でフィルタリングして出力を調節するfpaを紹介する。 以下のフィルタリングが行える (Githubより)。 internal match containment dovetails self matching read name mat…

アセンブリグラフからプラスミドを検出する HyAsP

プラスミドはバクテリアで一般的なextra-chromosomalのDNA分子である。プラスミドは、それらの長さ(それらはchromosomeよりはるかに短い傾向がある)、コピー数(プラスミドは細胞内に複数のコピーで存在する場合がある)およびGC含有量などの様々な特徴に…

Pacbioシーケンシングリードのオーバーラップ検出感度を改善する GroupK

リード長の増加により、第3世代のシークエンシングでゲノムアセンブリのギャップを埋め[ref.1, 2]、構造の変化を明らかにし[ef.13]、トランスクリプトームシークエンシングで遺伝子アイソフォームをより正確に定量できるようになった[ef.14]。さらに、ロング…

メタゲノムシーケンシングリードをアセンブリしてvirusゲノム配列を探す自動パイプライン virMine

真核生物および原核生物とは対照的に、ウイルスゲノムはごく一部のみがシーケンシングされ特徴付けられている。ウイルスのメタゲノム研究は、地球上でのウイルスの多様性についての理解を深めるうえで極めて重要である。海水(Breitbart et al、2002; Yoosep…

アセンブリのグラフを分析する Asgan

Asgan - [As] sembly [G] raphs [An] alyzer - は、アセンブリグラフを分析するためのツールである。 このツールはGFA形式の2つのアセンブリグラフを入力として受け取り、そのグラフの最小セットの相同配列(シンテニーパス)を見つけ、見つかったパスに基づ…

メタゲノムデータセットをタンパク質レベルでアセンブリし、ホモログサーチを行う GRASP2

メタゲノミクスは、特定の微生物群集のゲノム含有量を研究するための培養に依存しないアプローチである。典型的なメタゲノミクス研究では、環境サンプルから微生物のDNAが抽出され、次世代シークエンシング(NGS)技術を使用してシークエンシングされる。中…

AMOSアセンブラパッケージのMinimusとMinimus2

MInumusのpaper(Sommer et al., 2007)より 大規模な全ゲノムシークエンシングプロジェクトの課題に対処するためのアルゴリズムの必要性に応えて、ゲノムアセンブラは非常に大きく複雑になっている。しかし、アセンブラの最も一般的な用途の多くは、より少…

再現性のあるメタゲノム解析を行うためのモジュール設計された自動パイプライン Sunbeam

2019 6/26 誤字修正 メタゲノミックショットガンシークエンシングは、関心のある微生物混合群からDNAを抽出し、無作為に抽出されたDNAをディープシーケンシングする。これは、特定の標的遺伝子領域が増幅およびシーケンシングされるマーカー遺伝子シーケンシ…

複数のメタゲノムをその場で分析するための軽量で多機能なメタゲノム分析ツール SqueezeMeta(オフライン使用)

シーケンシング技術の改良によりメタゲノムシーケンシングが一般化し、メタゲノムシーケンシングがマイクロバイオームの構造および機能性を分析するための標準的な手順となった。メタゲノム実験によって生成された膨大な数のショートリード配列に対処するた…

ショートリードによるpolishingも行う高速なロングリードアセンブラ Ra

Raは、第3世代シーケンシングによって生成されたrawシーケンシングリードの高速で使いやすいアセンブラである。 以下の図に示すように、RaはMinimap2、Rala、およびRaconで構成されている。 Raは入力としてFASTA / FASTQフォーマット(gzipで圧縮可能)のraw…

CAP3

備忘録を兼ねて紹介します。論文はこれまで5000回以上引用されています。 CAPシーケンスアセンブリプログラムの第3世代について説明する。 CAP3プログラムには多くの改良と新機能が含まれている。 プログラムは、5 'および3'の低品質のリード領域を切り取…

contigやシーケンシングリードのリファレンスへのアラインメントを複数の方法で視覚化する Alvis

2019 6/10 誤字修正 2019 6/21 リンク追加 2セットの配列間のアラインメントを見つけることは、バイオインフォマティクスにおける基本的な作業である。ロングリードの解析、アセンブリ結果の評価、またはターゲットキャプチャープロトコルの評価では、リファ…

ショートリードとロングリードのhybrid-assemblyにより de novo transcriptomeアセンブリを行う IDP-denovo

新世代のシークエンシング技術がトランスクリプトームの探索において実質的な進歩をもたらすにつれて、スプライス検出および転写物再構成などの関連するバイオインフォマティクス方法が数多く開発され、様々な種で広く使用されてきた(Grabherr et al、2011;…

metaplasmidSPAdes

2019 6/7 出力例 プラスミドは、それらの生存および適応にとって重要なさらなる遺伝物質を細菌宿主に提供するクロモソーム外に独立して複製されるDNA分子である。シーケンシング時代より昔は、抗生物質耐性または難治性有機化合物を分解する能力など、それら…

ショートシーケンシングリードとアセンブリの評価ツール SQUAT

最近の次世代シークエンシング技術により低コストで提供される超高スループットは、特に非モデル生物の全ゲノムシークエンシングプロジェクトの急速な成長を引き起こした[ref.1、2]。広域分類群のための大規模ゲノムプロジェクト、例えば脊椎動物種のためのG…

(メタゲノム向け)高効率なプロテインレベルのアセンブリツール PLASS

2019 6/25 twitter追記 メタゲノム研究の主な制限は、ショートリードの大部分(土壌で80% - 90%[1])を、遺伝子およびタンパク質配列の予測を可能にするのに十分な長さの連続した配列(contigs)にアセンブリすることができないことである。 低存在量のゲ…

viral quasispeciesのアセンブリを行う SAVAGE

2019 5/20 誤字修正、コメント、ヘルプ追加 HIV、Zika、Ebolaなどのウイルスは、一般的にウイルス準種(viral quasispecies, wiki)と呼ばれる、遺伝的に関連しているが異なる変異株の集団として宿主に存在する。それぞれ独自のハプロタイプ配列によって特徴…