macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

高速なツール

特定の領域由来のロングリードを高速選抜する selectION

SelectION: Identification of predefined genomic regions in large nanopore DNA London Calling 2017 インストール ubuntu18.04LTSでテストした。 ビルド依存 requires gcc > 5 and the following libraries: boost filesystem boost program_options boo…

illumina、BGIのシーケンシングリードの前処理を行う Ktrim

次世代シーケンシング(NGS)データは、品質の悪いサイクルやアダプター汚染に悩まされることが多いため、下流での解析の前に前処理を行う必要がある。最新のシーケンサーのスループットとリードの長さはますます増大しており、前処理のステップは、現在のツ…

全工程が自動化された高速なRNA seq解析webサービス RaNA-Seq(60以上のモデル生物に対応)

2020 4/10 タイトル修正、説明と図追加 RaNA-Seqは、RNA-Seqデータを迅速に解析・可視化するためのクラウドプラットフォームである。FASTQファイルの定量、品質管理指標の計算、発現変動遺伝子の解析の実行、機能解析による結果の説明を可能にすることで、数…

パンゲノムグラフから微生物の多様性を調べる PPanGGOLiN

2020 4/10 引用追加、タイトル修正 機能研究、進化研究、疫学研究のために比較ゲノムを使用するには、与えられた種での発現の観点から遺伝子ファミリーを分類する方法が必要である。これらの方法は、通常、分割や最適なクラス数を推論するための多変量統計モ…

計算リソースを効率的に使って多数のよく似たバクテリアゲノムを素早く分析する自動化されたパイプライン Bactopia

2020 3/17 パラメータ追記、コマンド修正、タイトル修正 2020 3/18 追記 2020 5/11 説明追加 イルミナのテクノロジーを使用した細菌ゲノムのシーケンシングは、多くの場合、扱いやすい分析手法よりも速くデータが生成される手順になっている。 Nextflowワー…

スモールゲノムからラージゲノムまで対応した高速かつ精度の高いハイブリッドアセンブラ HASLR

オックスフォード・ナノポア・テクノロジーズやパシフィック・バイオサイエンスなどのプラットフォームからの第三世代シーケンシング技術は、より連続したアセンブリを構築し、ゲノムを完全に再構築する道を開いた。これらのテクノロジーで生成されより長い…

ラップトップでも軽快に動作するゲノム比較ツール bindash

ゲノム(メタゲノムを含む)の数は加速的に増加している。 近い将来、数百万のゲノム間のペアワイズ距離を推定する必要があるかもしれない。 クラウドコンピューティングを使用しても、そのような推定を実行できるソフトウェアはほとんどない。マルチスレッ…

(ヒトゲノム)ハイパフォーマンスなハイブリッドアセンブラ WENGAN

2020 3/7 パラメータの表記ミス修正 ロングリードシーケンシング技術の継続的な改善により、高品質のゲノムを約束する新しいde novoアセンブリ時代が始まっている。ただしロングリードのみを使用して、大規模で反復性の高いヒトゲノムの正確なゲノムアセンブ…

高速なヒトゲノムのアセンブラ Peregrine

初期のヒトゲノムプロジェクトと安価なDNAシークエンシング技術の技術の開発は、学術研究とゲノム情報を使用して人間の健康を改善する産業の両方を進歩させた。それは、遺伝子型と表現型の関連と多くの重要かつ臨床関連のアプリケーションのための貴重な情報…

URMAP

2020 1/19 コマンドの誤り修正 2020 1/20 twitter追記 2020 6/25 論文追記、リンク切れ更新 次世代シーケンシングにより、ヒト機能ゲノミクス(Morozova and Marra、2008)から微生物メタゲノミクス(Gilbert and Dupont、2011)までの分野で劇的な進歩が可…

ラージゲノムにもスケールする高速且つ精度の高いドラフトゲノムポリッシャー hypo

DNAシーケンサーによって生成されたフラグメント(リード)からゲノムを再構築するゲノムアセンブリと、種間または種内の遺伝的変異を調べるためのその解析は、ゲノミクスの中心である。 Pacific Biosciences(PacBio)やOxford Nanopore Technologies(ONT…

Whisper 2

第3世代のシーケンシングの開発にもかかわらず、高いスループットと低いエラーレートのショートリードプラットフォームは多くの生物学的分析に不可欠なままである。 これらは、とりわけ、スモール(Kim et al、2018)および構造(Cameron et al。、2019)変…

ラージデータにも対応したマルチプルシーケンスアラインメントツール Kalign 3

マルチプルシーケンスアラインメント(MSA)は、生物学的シーケンス解析の重要なタスクのままである。 MSAプログラムは、Consistency-based のメソッドとprogressive なメソッドに分けることができる。後者は、ペアワイズシーケンス距離を推定し、ガイドツリ…

バクテリア/アーキアの高速なアノテーションパイプライン DFAST

2019 11/17 補足説明追記 2019 12/28 インストールコマンド修正 2020 1/17 実行例追加 本著者らはパブリックシーケンスデータベースへのゲノム送信をサポートする原核生物ゲノムアノテーションパイプラインDFASTを開発した。 DFASTは元々オンラインアノテー…

マッピングとバリアントコールを両方行う MapCaller

次世代シーケンシング(NGS)技術の進歩により、近い将来に精密医療のさまざまなアプリケーションをサポートできるようになってきている(Ku and Roukos、2013)。ますます多くの医学的および生物学的研究でNGS技術を採用してパーソナル間の遺伝的変異を特徴…

BWTによる高速なゲノム間アラインメントを行う GSAlign

パーソナルゲノミクスと比較ゲノミクスは、臨床診療とゲノム研究においてますます重要になっている2つの分野である。両方のフィールドは、配列の保存と構造の変化を発見するためにシーケンスアラインメントが必要である。ゲノム配列のアラインメントを処理す…

Uniprotデータベースに対する高速なタンパク質ホモロジーサーチを行う SANSparallel

近年、シーケンスの数が著しく増加している。これにより、データベース検索(ref.1〜4)がますます長くなり、無料のコンピューティングサービスと事前に計算されたデータベースが閉鎖に追い込まれたりまたは依存するようにクラウドソーシング(ref.5〜7)に…

Functional annotationを行うwebサーバー GO FEAT

2019 8/17 タイトル修正 、tips追記 ゲノムデータおよびトランスクリプトームデータに生物学的意味を与えることは、特にハイスループットテクノロジーによって生成される大量のデータと、この目的のために開発されたツール、Webサーバー、およびデータベース…

ヒトゲノムを扱えるハイパフォーマンスなロングリードアセンブラ Shasta

2020 3/14 動画追加 ロングリードシーケンシング技術からヒトゲノムアセンブリを作成する現在のワークフローは、大きなコホートへの効率的な拡大を妨げるコストおよび生産時間のボトルネックを有している。著者らは11のヒトゲノム用に最適化されたPromethION…

elprep 4

elPrep 4はelPrep [ref.1]の大幅に拡張された再実装であり、DNAシーケンシングパイプラインでのバリアントコールのシーケンスアライメント/マップファイル(SAM / BAM)[ref.2]を準備するためのマルチスレッドツールである。パイプラインでどの準備ステップ…

アセンブリの前処理としてロングリードのキメラ領域(低オーバーラップ領域)を除く yacrd

2019 コマンドの誤り修正 2020 3/30 バージョンによるコマンドの違いを記載 2020 3/31 version0.6.0のコマンドを一番下に追記 2020 4/23 論文追記 第三世代DNAシーケンシング法(PacBio、オックスフォードナノポア)は、リファレンスゲノムの構築(デノボア…

メタゲノムデータセットをタンパク質レベルでアセンブリし、ホモログサーチを行う GRASP2

メタゲノミクスは、特定の微生物群集のゲノム含有量を研究するための培養に依存しないアプローチである。典型的なメタゲノミクス研究では、環境サンプルから微生物のDNAが抽出され、次世代シークエンシング(NGS)技術を使用してシークエンシングされる。中…

MMseqs2 コマンド其の2 タンパク質配列のクラスタリング

インストール 以前の記事を参照 > mmseqs $ mmseqs MMseqs2 (Many against Many sequence searching) is an open-source software suite for very fast, parallelized protein sequence searches and clustering of huge protein sequence data sets. Please…

再現性のあるメタゲノム解析を行うためのモジュール設計された自動パイプライン Sunbeam

2019 6/26 誤字修正 メタゲノミックショットガンシークエンシングは、関心のある微生物混合群からDNAを抽出し、無作為に抽出されたDNAをディープシーケンシングする。これは、特定の標的遺伝子領域が増幅およびシーケンシングされるマーカー遺伝子シーケンシ…

ショートリードのマッピングを行う Whisper

リファレンスゲノムへのリードのマッピングは、シークエンシングデータ解析パイプラインの最初のステップである。シーケンシングコストが削減していることから、合理的な時間内に増大する量の生成データを処理することができるアルゴリズムに対する必要性が…

ショートリードによるpolishingも行う高速なロングリードアセンブラ Raven (旧名 Ra)

2020 5/23 タイトル補足、ravenインストール追記 Ra(現在はRaven)は、第3世代シーケンシングによって生成されたrawシーケンシングリードの高速で使いやすいアセンブラである。 以下の図に示すように、RaはMinimap2、Rala、およびRaconで構成されている。 R…

多機能なNGS分析ツール BBtools 其の3BBMap追加コマンド

BBMapの追加コマンドについて紹介します。 BBMap Guide https://jgi.doe.gov/data-and-tools/bbtools/bb-tools-user-guide/bbmap-guide/ callvariants.sh Introducing CallVariants, a new variant caller in #BBMap! CallVariants is 81x faster than mpilu…

ロングリードのドラフトアセンブリをpolishする marginpolish

2019 6/13 tweetリンク追加、誤字修正 MarginPolishはグラフベースのアセンブリのpolisher。入力としてFASTAアセンブリとインデックス付きBAM(ONTのアセンブリ配列へのアラインメント)を受け取り、polishingしたFASTAアセンブリを生成する。 MarginPolish…

k-merカウントツール Squeakr

Massively parallel high-throughput sequencing (HTS) 技術の登場により、シーケンシング能力は劇的に増加している。増加するHTSデータに対処するための新しい計算方法の多くは、k-mer(k塩基の文字列)をシーケンスの分析の最小単位として使用する。例えば…

(メタゲノム向け)高効率なプロテインレベルのアセンブリツール PLASS

2019 6/25 twitter追記 メタゲノム研究の主な制限は、ショートリードの大部分(土壌で80% - 90%[1])を、遺伝子およびタンパク質配列の予測を可能にするのに十分な長さの連続した配列(contigs)にアセンブリすることができないことである。 低存在量のゲ…