macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

高速なツール

ラージデータにも対応したマルチプルシーケンスアラインメントツール Kalign 3

マルチプルシーケンスアラインメント(MSA)は、生物学的シーケンス解析の重要なタスクのままである。 MSAプログラムは、Consistency-based のメソッドとprogressive なメソッドに分けることができる。後者は、ペアワイズシーケンス距離を推定し、ガイドツリ…

バクテリア/アーキアの高速なアノテーションパイプライン DFAST

2019 11/17 補足説明追記 本著者らはパブリックシーケンスデータベースへのゲノム送信をサポートする原核生物ゲノムアノテーションパイプラインDFASTを開発した。 DFASTは元々オンラインアノテーションサーバーとして開始され、現在までに(論文執筆時点)、…

マッピングとバリアントコールを両方行う MapCaller

次世代シーケンシング(NGS)技術の進歩により、近い将来に精密医療のさまざまなアプリケーションをサポートできるようになってきている(Ku and Roukos、2013)。ますます多くの医学的および生物学的研究でNGS技術を採用してパーソナル間の遺伝的変異を特徴…

BWTによる高速なゲノム間アラインメントを行う GSAlign

パーソナルゲノミクスと比較ゲノミクスは、臨床診療とゲノム研究においてますます重要になっている2つの分野である。両方のフィールドは、配列の保存と構造の変化を発見するためにシーケンスアラインメントが必要である。ゲノム配列のアラインメントを処理す…

Uniprotデータベースに対する高速なタンパク質ホモロジーサーチを行う SANSparallel

近年、シーケンスの数が著しく増加している。これにより、データベース検索(ref.1〜4)がますます長くなり、無料のコンピューティングサービスと事前に計算されたデータベースが閉鎖に追い込まれたりまたは依存するようにクラウドソーシング(ref.5〜7)に…

Functional annotationを行うwebサーバー GO FEAT

2019 8/17 タイトル修正 、tips追記 ゲノムデータおよびトランスクリプトームデータに生物学的意味を与えることは、特にハイスループットテクノロジーによって生成される大量のデータと、この目的のために開発されたツール、Webサーバー、およびデータベース…

ヒトゲノムを扱えるハイパフォーマンスなロングリードアセンブラ Shasta

ロングリードシーケンシング技術からヒトゲノムアセンブリを作成する現在のワークフローは、大きなコホートへの効率的な拡大を妨げるコストおよび生産時間のボトルネックを有している。著者らは11のヒトゲノム用に最適化されたPromethIONナノポアシーケンス…

elprep 4

elPrep 4はelPrep [ref.1]の大幅に拡張された再実装であり、DNAシーケンシングパイプラインでのバリアントコールのシーケンスアライメント/マップファイル(SAM / BAM)[ref.2]を準備するためのマルチスレッドツールである。パイプラインでどの準備ステップ…

アセンブリの前処理としてロングリードのキメラ領域(低オーバーラップ領域)を除く yacrd

2019 コマンドの誤り修正 第三世代DNAシーケンシング法(PacBio、オックスフォードナノポア)は、リファレンスゲノムの構築(デノボアセンブリ)のための重要な技術となりつつある。この種のデータに対する新しいバイオインフォマティクス手法が急速に登場し…

メタゲノムデータセットをタンパク質レベルでアセンブリし、ホモログサーチを行う GRASP2

メタゲノミクスは、特定の微生物群集のゲノム含有量を研究するための培養に依存しないアプローチである。典型的なメタゲノミクス研究では、環境サンプルから微生物のDNAが抽出され、次世代シークエンシング(NGS)技術を使用してシークエンシングされる。中…

MMseqs2 コマンド其の2 タンパク質配列のクラスタリング

インストール 以前の記事を参照 > mmseqs $ mmseqs MMseqs2 (Many against Many sequence searching) is an open-source software suite for very fast, parallelized protein sequence searches and clustering of huge protein sequence data sets. Please…

再現性のあるメタゲノム解析を行うためのモジュール設計された自動パイプライン Sunbeam

2019 6/26 誤字修正 メタゲノミックショットガンシークエンシングは、関心のある微生物混合群からDNAを抽出し、無作為に抽出されたDNAをディープシーケンシングする。これは、特定の標的遺伝子領域が増幅およびシーケンシングされるマーカー遺伝子シーケンシ…

ショートリードのマッピングを行う Whisper

リファレンスゲノムへのリードのマッピングは、シークエンシングデータ解析パイプラインの最初のステップである。シーケンシングコストが削減していることから、合理的な時間内に増大する量の生成データを処理することができるアルゴリズムに対する必要性が…

ショートリードによるpolishingも行う高速なロングリードアセンブラ Ra

Raは、第3世代シーケンシングによって生成されたrawシーケンシングリードの高速で使いやすいアセンブラである。 以下の図に示すように、RaはMinimap2、Rala、およびRaconで構成されている。 Raは入力としてFASTA / FASTQフォーマット(gzipで圧縮可能)のraw…

多機能なNGS分析ツール BBtools 其の3BBMap追加コマンド

BBMapの追加コマンドについて紹介します。 BBMap Guide https://jgi.doe.gov/data-and-tools/bbtools/bb-tools-user-guide/bbmap-guide/ callvariants.sh Introducing CallVariants, a new variant caller in #BBMap! CallVariants is 81x faster than mpilu…

ロングリードのドラフトアセンブリをpolishする marginpolish

2019 6/13 tweetリンク追加、誤字修正 MarginPolishはグラフベースのアセンブリのpolisher。入力としてFASTAアセンブリとインデックス付きBAM(ONTのアセンブリ配列へのアラインメント)を受け取り、polishingしたFASTAアセンブリを生成する。 MarginPolish…

k-merカウントツール Squeakr

Massively parallel high-throughput sequencing (HTS) 技術の登場により、シーケンシング能力は劇的に増加している。増加するHTSデータに対処するための新しい計算方法の多くは、k-mer(k塩基の文字列)をシーケンスの分析の最小単位として使用する。例えば…

(メタゲノム向け)高効率なプロテインレベルのアセンブリツール PLASS

2019 6/25 twitter追記 メタゲノム研究の主な制限は、ショートリードの大部分(土壌で80% - 90%[1])を、遺伝子およびタンパク質配列の予測を可能にするのに十分な長さの連続した配列(contigs)にアセンブリすることができないことである。 低存在量のゲ…

リファレンスフリーで低メモリかつ高速にSNVとsmall indelを予測する DiscoSnp ++

次世代シーケンス(NGS)データは生命メカニズムへの前例のないアクセスを提供する。特に、これらのデータは染色体、個体または種間の遺伝的差異を評価することを可能にする。そのような多型は、農学、環境または医学における多数の用途を有する生物学の多く…

メタゲノムのraw fastqから高速なtaxonomy assignmentを行う FOCUS

微生物は他のどの細胞生物よりも豊富であり(Whitman、Coleman&Wiebe、1998年)、どの生物が存在し、それらが何をしているのかを理解することが重要である(Handelsman、2004)。多くの環境では、微生物群集の大多数は培養できず、メタゲノムは未培養のゲノ…

効率的なk-merカウンタ kmcEx

K-merは、それらの頻度と共に、エラー訂正、リピート検出、マルチプルシーケンスアラインメント、ゲノム構築などの基本的なビルディングブロックとして役立ち、k-merカウントにおける集中的な研究を引き付けた。ただし、k-merカウンタの出力自体は大きい。非…

SRAのRNA seqデータを素早く比較・分析する Digital expression explorer 2(手持ちのデータにも対応)

10年前の最初の記述以来、RNAシーケンス(RNA-seq)はトランスクリプトームにおける強力な方法となり、非常に正確な遺伝子発現の定量を可能にした[ref.1]。シークエンシングのコストが下がるにつれて、RNA seqのデータは科学文献でより一般的になりつつある…

スプライシングジャンクションを上手く処理できるエラーの多いロングリードRNA seqのアライナーdeSALT

RNAシークエンシングはトランスクリプトームを特徴付けるための基本的なアプローチとなっている。正確な遺伝子構造を明らかにし、遺伝子/転写産物の発現を定量できる[ref.1-5]、さらにバリアントコーリング[ref.6]、RNA edit/ng解析[ref.7 - 8]、遺伝子融合…

SRA Toolkitのfasta-dumpを高速化した fasterq-dump

2019 4/29 複数ファイルダウンロード例 2019 8/13 ダウンロード例のコード修正 タイトルの通りのコマンド。 使い方だけ簡単に紹介します。 fasterq-dumpに関するツイート worked all day on a bash scrip to fetch & convert all European and African @1000…

ラージゲノムにもスケールする高速なドラフトゲノム配列polishingツール ntEdit

2019 5/17 論文引用、タイトル修正 この10年間で、次世代シーケンシングテクノロジはスループットを大幅に向上させた。例えば、今日では、20 Gbpの針葉樹ゲノムの50倍のカバレッジシーケンシングもIllumina HiSeq-Xマシンなら8レーンフローセル1回で達成で…

ノイズを除去しながらsmall /large cohortsのgenotypingを行う smoove

smooveは既存のソフトウェアをラップし、構造変異のコールやジェノタイピングを簡単にするため、いくつかのフィルタリングを追加している。フィルタリングにより、smooveは低レベルのノイズを示すスプリアスなアライメントシグナルを削除し、recallを向上さ…

SRAのメタデータを取得したり、IDを変換するツールキット pysradb

いくつかのプロジェクトはDNA-seq [ref.1]とRNA-seq [ref.2、3]データセットの要約を分析して公表する努力をしている。 NCBIのSRA(Sequencing Read Archive)[ref.4]からメタデータと生データを入手することは、公開されている次世代のシークエンシングデー…

 高速なオルソログ推論ツール JustOrthologs

オルソログの同定は、多くの研究にとって長い間困難でありながら重要な、最初のステップであった。オルソログは、2つの種の最後の一般的な祖先に存在する同じ祖先遺伝子に由来する遺伝子配列であり、系統樹の再構築または遺伝子機能への洞察を支援することが…

高速なロングリードのアセンブリツール Redbean (旧wtdbg2)

2019 4/15 Githubリンクの誤り修正 2019 7/3 名前修正 デノボシーケンスアセンブリは、比較的短いシーケンシングリードからサンプルゲノムを再構築する。リファレンスゲノムは関心のある領域を欠いている可能性があるため、マッピングベースの分析に失敗する…

Nanoporeのオフィシャルコマンドラインbasecaller2 Guppy(GPU対応版もあり)

2019 3/12 タイトル修正 2019 3/12 コマンド追記、誤ったコメント削除 GuppyはOxford Nanoporeによって提供されているコマンドラインのbasecaller。 そしてポアを通過するDNAまたはRNAをbasecallingするために最新のリカレントニューラルネットワークアルゴ…