macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

assembly

de bruin graphにリードをマッピングする BGREAT

次世代シーケンシング技術(NGS)は、シーケンシングされたゲノムの生成を大幅に加速した。しかしながら、これらの技術は、依然として染色体当たり単一の配列を提供することができないままである。代わりに、それらは大量かつ冗長なリードセットを生成し、各…

複数のアセンブラとk-merを使ったTranscriptome 自動アセンブリワークフロー Oyster River Protocol

2018 11/2 コマンド追記 & 誤字修正 2018 11/7 誤字修正 現代のシーケンシング技術は細胞内の代謝過程から人口変動パターンまで、非常に幅広い自然現象の基礎となるゲノムレベルのプロセスを深く理解する機会を提供してきた。トランスクリプトームシーケンシ…

de novo transcriptomeのアノテーションツール dammit

dammitは、単純なde novo transcriptome annotatorである。 アノテーションのプロセスの個々の部分は全てすでに存在しているが、既存の解決策は過度に複雑であるか、または無駄な非フリーソフトウェアに依存しているという観測から生まれた。 dammitは無料で…

よく似たゲノム情報を使い不完全なゲノム情報しか持たない種のRNA seq解析の精度を上げる自動化されたツール Necklace

2018 10/31、11/2 タイトル、コード等修正、docker追加 シーケンシングされた種の数が増加しているが、ゲノムの大部分は不完全である。それらにはギャップが含まれていても、配置されていない領域が残っていてもよく、アノテーションが不十分な場合もある。…

ハイブリッドアセンブリのためのアライメントフリー scaffolding graph構築ツール Fast-SG

2018 10/26 タイトル修正 ゲノム全体のデノボアセンブリの主要な課題は、リピートを解決することである[論文より 1,2]。リピートは、ゲノムの複数の位置で生じるほぼ同一のゲノム配列に対応する。この課題に対処するために、主に2つのタイプのアプローチが提…

大きなk-merも使うde Bruijn graph のアセンブリツール SKESA

NGSデータを分析するためのシーケンスアライメント、アセンブリ、変異検出、またはそれらのいくつかの組み合わせは、通常、バイオインフォマティクスパイプラインの主要なモジュールである[論文より ref.1,2,3,4,5,6]。微生物ゲノムシーケンシングの重要な用…

レビュージャーナル要約 植物ゲノムのアセンブリガイド

シーケンシング技術の急速な進歩と急激なコストのために、非モデル植物からの全ゲノムのアセンブリは、すぐにplant systematistsとevolutionary biologistsにとって日常的になるだろう。ここでは、ゲノムプロジェクトにアプローチする方法についての実践的な…

ロングリードを使ってcontigのscaffoldingを行う LINKS

ロングリードシークエンシング技術はここ数年で急速に成熟し、ゲノムアセンブリへのロングリードの利点は欠かせないものになった[論文より ref.1]。最近、複数グループがエラーの多いロングリードから完全なバクテリアゲノムへのデノボアセンブリが可能であ…

WGSデータからミトコンドリアゲノムをアセンブルする NORGAL

ミトコンドリアなどの特定の細胞小器官には、独自の異なるゲノムが存在している。ミトコンドリアゲノム - the mitogenome - は、真核生物の核ゲノムとは著しく異なる。典型的に環状であり、サイズがより小さい[ref.1]。The mitogenomeは、ミトコンドリアを単…

LightAssembler

次世代シークエンシング(NGS)技術の出現はゲノム研究に革命をもたらしたが、シーケンスされた生物の全体像を提供することはできていない。なぜなら、数十億のフラグメント断片の相対位置はゲノムアセンブリなしでは分からず、それらは非常にあいまいな重複…

in silico mate-pairシーケンシングによってde novo アセンブリ改善を試みる cross-species-scaffolding

10/5 3stepコマンドの誤り修正 及びコマンド変更、コメント追加 正確で完全でアノテーションのついたゲノムは、種や個体の過去、現在、未来に関する豊富な情報を提供するため、医療や生物学の研究にとって非常に貴重なリソースとなっている[論文より ref.1]…

cGOF-assisted アセンブリパイプライン GAAP

次世代シークエンシング(NGS)技術は、近年では数万の原核生物ゲノム配列を生成し、原核生物のゲノム研究を大いに促進している。cost-effectiveで、カバレッジが高いので高品質の信頼できるデータが生成できる。しかしながら、原核生物の完全なゲノム配列の…

Procaryotesの自動アセンブリパイプライン Mypro

Pos 最近の全ゲノムシーケンシング(WGS)技術のコストの低下は、様々な原核生物のシーケンシングの増加をもたらした。典型的なゲノミクスプロジェクトでは、データマイニングの前にシーケンシングリードを処理する必要がある(Hasman et al、2014; Rhoads e…

ラージゲノムにも対応したアセンブリ評価ツール QUAST-LG

現代のDNAシーケンシング技術は染色体の全配列を読み取ることができない。代わりに、それらはゲノムの異なる部分からサンプリングされた多数のリードを生成する。低コストで高品質の第2世代シーケンシング(次世代シークエンシングまたはNGSとも呼ばれる)の…

バクテリアのシーケンシングデータ分析ツール GenomePeek

シーケンシングコストが低下するにつれて、バクテリアゲノムの配列が増加している。現在、NCBI(Benson et al、2009; Sayers et al、2009)、SEEDデータベース(Overbeek、Disz&Stevens、2004)には約15,000種類の原核生物ゲノムがあり、約75,000種類のアセ…

review article要約 genome assembly reconciliation toolsの比較

真核生物ゲノムの大部分は、それらを組み立てるというアルゴリズム上の課題のために未完成である。 様々なアセンブリやスキャフォールディングツールが利用できるが、特定のゲノムサイズや複雑さにどのツールやパラメータを使用するかは必ずしも明らかではな…

ラージゲノムにも対応したcontigのscaffoldingツール BESST

近年のハイスループットシーケンシング(HTS)技術は、低コストで数百万の短いDNA配列(リードと呼ばれる)を生成するため、デノボアセンブリプロジェクトにとって魅力的である。しかしながら、これらのリードは数百bpの長さしかないため、アセンブラ(例え…

Procaryote向けの自動アセンブリパイプライン A5-miseq

ゲノムアセンブリは、rawシーケンシングデータから始まり、スキャホールディングされたコンティグで終わる全データ処理ワークフローからなる。この手順は、アダプタのトリミング、クオリティフィルタリング、エラー訂正、コンティグの作成、アセンブリへのリ…

アセンブリの簡単なstatisticsを出力する assembly-stats

assembly-statsはsanger-pathogensのGithubレポジトリで公開されているアセンブリ配列の簡単な要約統計を出力するツール。 インストール mac os10.13でテストした。 本体 Github #Anaconda環境ならcondaでインストールできるconda install -c bioconda assem…

複数のアセンブラのコンティグをマージする GAM-NGS

次世代シーケンシング(NGS)技術の出現により、生物圏のすべての生物を事実上 シーケンシングでききるようになった[論文より ref.1]。 NGS技術は、非常に高いデータ生産量を特徴としており、あらゆる生物で高いカバレッジのデータを手に入れることができる…

review article要約 バクテリアのバリアントコール評価のベストプラクティス

Best practices for evaluating single nucleotide variant calling methods for microbial genomicsより https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4493402/ シークエンシング技術の革新により、生物学の研究者はbiologicalなシステムの理解を大幅に進…

review article要約 ラージゲノムのシーケンシング解析

はじめに この記事はレビュー論文の要約です。チェックリスト、または思考を整頓するガイドとして使ってください。ただし、この要約で論文を読んだことにはなりません。時間が許す限り原著論文を読むことをお勧めします。review articleは各段落が一般論で構…

高速なgermlineとsomaticのSV検出ツール Manta

ゲノムシーケンシングおよびゲノムエンリッチメントシーケンシングは、臨床での遺伝性および体細胞突然変異発見のためにますます使用されてきているが、このシナリオにおける構造変異(SV)およびindelsの迅速な発見のためのツールは限られている。著者らは…

Fermi-lite

Fermi-liteはHeng Liさん(wiki)がGithubで公開されているスタンドアロンのCライブラリ。イルミナのショートリードを100bpから1,000万bpの領域でアセンブリするコマンドラインツールとしても機能する。Fermi-liteはオーバーラップベースのアセンブリを行う…

高速なロングリードのマッピング、エラー訂正、アセンブリツール MECAT

MECATは、1分子シークエンシング(SMRT)リードの超高速マッピング、エラー訂正、およびデノボアセンブリを行うツール。State of the artのアライナとエラー訂正ツールよりもはるかに効率的な、新しいアライメントとエラー訂正アルゴリズムを採用している。 …

NGSデータからAMRのgenotypeを調べるARIBA

Antimicrobial resistance(AMR)(薬剤耐性。抗生物質耐性(AR or ABR)はAMRのサブクラス)は、ヒトの健康に対する主要な脅威の1つとなっており、世界中で年間700,000人の直接的な死因と推定されている[論文より ref.1]。この脅威に対処しなければ、この数…

既知Eukaryotic Virusesのアセンブリツール drVM

ウイルスは地球上で最も豊富な生物学的実体であり、動物、植物、細菌、真菌類を含むあらゆる細胞型の生活の中で発見されている。 4500種以上のウイルス種が発見されてきている(論文執筆時点)。それらの配列情報は研究者によって収集されている[論文より re…

RNA seq用のde novoアセンブリツール BinPacker

RNA-seq法の出現によりmRNA発現レベルに関して前例のない正確さが提供されたため、転写、スプライシング変異および関連する機構の研究方法が大きく変わっている[論文より ref.1]。それらは、レアなスプライシングアイソフォームおよび低発現スプライシングア…

RNA seq用のターゲットアセンブリツール Kollector

非モデル生物のための高品質のリファレンスゲノム配列の作製は、特に大きなゲノム(> 1Gbp)では依然として挑戦的な取り組みである。このようなプロジェクトでは、デノボでの全ゲノムアセンブリは、通常、数種の異なるタイプのDNAライブラリーの数十億のシー…

SPAdesのアセンブリを改善する Shovill

SPAdesゲノムアセンブラは、バクテリアや他の真核微生物(主に1倍体)のIlluminaホールゲノムシーケンシング(WGS)データのデファクトスタンダードのアセンブラとなっている。 SPAdesはVelvetのような以前のアセンブラーよりも大幅に改善されているが、計算…