macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

高速なツール

スプライシングジャンクションを上手く処理できるエラーの多いロングリードRNA seqのアライナーdeSALT

RNAシークエンシングはトランスクリプトームを特徴付けるための基本的なアプローチとなっている。正確な遺伝子構造を明らかにし、遺伝子/転写産物の発現を定量できる[ref.1-5]、さらにバリアントコーリング[ref.6]、RNA edit/ng解析[ref.7 - 8]、遺伝子融合…

SRA Toolkitのfasta-dumpを高速化した fasterq-dump

タイトルの通りのコマンド。 使い方だけ簡単に紹介します。 fasterq-dumpに関するツイート worked all day on a bash scrip to fetch & convert all European and African @1000genomes SRA files. <for i in *.sra ; do fasterq-dump $i -O ./ -t $home/Desktop/fasterqdumptempfiles -e 12 -S -p ; done > mac is smoking now. — Phillip Buckhaults (@P_J_Bu…</for>

ラージゲノムにもスケールするドラフトゲノム配列polishingツール ntEdit

この10年間で、次世代シーケンシングテクノロジはスループットを大幅に向上させた。例えば、今日では、20 Gbpの針葉樹ゲノムの50倍のカバレッジシーケンシングもIllumina HiSeq-Xマシンなら8レーンフローセル1回で達成できる。しかし、この膨大なデータはバ…

ノイズを除去しながらsmall /large cohortsのgenotypingを行う smoove

smooveは既存のソフトウェアをラップし、構造変異のコールやジェノタイピングを簡単にするため、いくつかのフィルタリングを追加している。フィルタリングにより、smooveは低レベルのノイズを示すスプリアスなアライメントシグナルを削除し、recallを向上さ…

SRAのメタデータを取得したり、IDを変換するツールキット pysradb

いくつかのプロジェクトはDNA-seq [ref.1]とRNA-seq [ref.2、3]データセットの要約を分析して公表する努力をしている。 NCBIのSRA(Sequencing Read Archive)[ref.4]からメタデータと生データを入手することは、公開されている次世代のシークエンシングデー…

 高速なオルソログ推論ツール JustOrthologs

オルソログの同定は、多くの研究にとって長い間困難でありながら重要な、最初のステップであった。オルソログは、2つの種の最後の一般的な祖先に存在する同じ祖先遺伝子に由来する遺伝子配列であり、系統樹の再構築または遺伝子機能への洞察を支援することが…

高速なロングリードのアセンブリツール wtdbg2

2019 4/15 Githubリンクの誤り修正 デノボシーケンスアセンブリは、比較的短いシーケンシングリードからサンプルゲノムを再構築する。リファレンスゲノムは関心のある領域を欠いている可能性があるため、マッピングベースの分析に失敗することが多い、新種お…

Nanoporeのオフィシャルコマンドラインbasecaller2 Guppy(GPU対応版もあり)

2019 3/12 タイトル修正 2019 3/12 コマンド追記、誤ったコメント削除 GuppyはOxford Nanoporeによって提供されているコマンドラインのbasecaller。 そしてポアを通過するDNAまたはRNAをbasecallingするために最新のリカレントニューラルネットワークアルゴ…

高速かつ精度の高いオロソログ検索を行う SonicParanoid

3/8 誤字修正、ツイッターリンク追記 3/10 誤字修正 最近のDNAシーケンシング技術の進歩により、completeシーケンシングされたゲノムの数は急速に増加している。複数のゲノムにコードされているオルソログ遺伝子を正確に推論することが、これらのデータセッ…

高速かつ高効率にシーケンスデータを圧縮 / 解凍する NAF

2019 3/9 twitterコメント追記 Preprintより DNA配列データベースは、シーケンシング技術の継続的な進歩により、指数関数的に成長している。通常、データ圧縮は保存スペースを節約するためにすべての保存DNAシーケンシングデータに使用される。1993年に最初…

サンプルのコンタミネーションを見積もる Mash Screen

シーケンシング技術がスループットを高めそしてコストを下げ続けるにつれて、シーケンシングされたゲノムのデータベース(例えばNCBI RefSeq [ref.1])は指数関数的成長を続け、それらに対する検索をさらに複雑にしている[ref.2、3]。さらに、rawシーケンス…

効率的にペアエンドfastqを同期する Fastq-pair

2019 2/26 テストラン追加 Fastqフォーマットのファイルは、シーケンスと品質の両方の情報を1つのファイルにまとめて含むため、DNAシーケンスを共有するための主要なファイルフォーマットとなっている(ref.1)。さらに、オーバーラップするペアを結合するこ…

HyperLogLogを使って超高速にゲノム距離を計算する Dashing

2019 2/17 テスト環境の誤り修正 Mashツール[ref.1]のリリース以来、MinHashのようなデータスケッチは比較ゲノミクスにおいて有益になっている。それらは大規模データベースからのゲノムのクラスター化[ref.1]、特定のシーケンス内容を持つデータセットの検…

メタゲノムデータからrRNAをターゲットアセンブリし、系統アサイン、定量、比較する phyloFlash

ショットガンメタゲノミクスは、微生物群集の機能を調査し、それらの系統または分類学的な構成を決定するための強力なツールである(Preprintより ref.1、2)。プライマーバイアス(ref.3)やキメラ配列(ref.4、5)など、PCRベースのアンプリコンメソッドに…

ラップトップで大量のゲノム比較を可能にする BinHash

ゲノム(メタゲノムを含む)の数は急速に増加している。 近い将来、何百万ものゲノム間のペアワイズ距離を推定する必要があるかもしれない。 クラウドコンピューティングを使用しても、そのような推定を実行できるソフトウェアはほとんどない。マルチスレッ…

taxonomy ID、学名、系統情報など相互変換できるツール taxonkit

2019 1/24 リネージュコマンドのミス修正 NCBI taxonomy databaseは、公共のシーケンスデータベースに含まれるすべての生物の分類(以後taxonomy)および命名法をまとめたものである(NCBI、2018)。taxonomyデータベースの一般的な操作には、分類名からのta…

pblat: マルチスレッドに対応したblat

Blat [論文より ref.1 link]は、DNA、RNAおよびタンパク質配列をリファレンスゲノムにマッピングするように設計された配列アラインメントツールである。これは一般に、リファレンスゲノム内の配列の検索、closely relatedな種のゲノムからの相同配列の発見、…

KrakenUniq

2019 1/17 エラー修正 メタゲノミクス分類手法は、データセット内の各リードに taxonomic identityをアサインすることを試みる。メタゲノミクスデータにはしばしば何千万ものリードが含まれているため、分類は、通常、長さk(k-mers)の短いワードの正確な一…

bamからのリードの抽出とリアライメントを素早く実行する Bazam

2019 4/20 論文引用 過去10年間にわたるハイスループットゲノムシーケンシングマシンの大規模な採用は、巨大な可能性を有する膨大な量のゲノムデータを生み出してきた。ゲノムデータは、座標 (coordinate) ソートされたBAMまたはCRAMフォーマットでアライメ…

ロングリードのアセンブリツール Flye

2019 3/16 version2.4.1のヘルプに更新 2019 4/2 論文追記 2019 4/10 テストランのコマンドミス修正 ゲノムアセンブリの問題は、最終的には、リピートキャラクタライゼーション問題、すなわちリピートグラフとしてのゲノム中のすべてのリピートファミリーを…

RNA seqシーケンシングデータの包括的な前処理ツール FastqPuri

2018 12/3 図差し替え RNA-seq実験から正確な結果を得るには、前処理ステップでのクオリティチェック(QC)とシーケンスデータのフィルタリングが重要になる。ワークフローは通常、次のように進行する。最初にシーケンスクオリティチェックを行い、続いてア…

SRA Toolkitのfastq-dumpを並列実行して高速化する parallel-fastq-dump

NCBIのfastq-dumpはリソース(ネットワーク、IO、CPU)が速くても、時には非常に遅くなることがある(Githubのprotipを参照)。 fastq-dumpにはsraファイルの特定の範囲を照会するオプション(-Nと-X)があるため、このツールparallel-fastq-dumpは作業を要…

Minhashを使い、genomic DNA / proteinを高速比較する sourmash

sourmashは、ゲノムデータのMinHash sketchesを作成、比較、操作するためのツールボックスである。MinHash sketchは、大規模なDNAまたはRNAシーケンスコレクションの"signatures"を保存し、Jaccard indexを使用してそれらを比較または検索するための軽量な方…

(ウィルス) コドンを考慮し、フレームシフトエラーに強いアライメントツール VIRULIGN

多くのウイルス性病原体、特にRNAウイルスは、宿主内および宿主間で急速に進化しており、変化する状態への適応のマーカーがそれらのゲノムにおいて検出され得る(Lemeyら、2006)。ウイルス遺伝子型からの構造、機能および表現型予測は、ウイルス感染の薬物…

Structural Variation Engine (SVE)

先日紹介したFusoSVのSVコールパイプラインSVEを紹介する。 Core Frameworks and Extension. Githubより インストール 依存関係が多いためdockerコンテナを使ったランが推奨されている。 Github docker pull timothyjamesbecker/sve > docker run --rm timot…

複数のSVコーラーを動かし、結果を統合する Parliament2

2018 10/26 エラー修正 2018 10/28 エラー修正 2019 3/2 追記 構造変異(SV)は、ゲノムの大きな(50bp+)変異である[論文より ref.1,2]。これらのバリエーションは、個々のショート・リードのサイズに近いか、最も頻繁には、リードより大きいため、ショート…

大きなk-merも使うde Bruijn graph のアセンブリツール SKESA

2019 4/12 dockerリンク追加 NGSデータを分析するためのシーケンスアライメント、アセンブリ、変異検出、またはそれらのいくつかの組み合わせは、通常、バイオインフォマティクスパイプラインの主要なモジュールである[論文より ref.1,2,3,4,5,6]。微生物ゲ…

アダプタートリミングツール illumiprocessor

2018 10/11 コードの誤り修正 Illumiprocessorは、illuminaのSEとPEのシーケンシングリードからアダプターのコンタミネーションをトリミングするツール。 double-indexのリードのトリミングができる。 scytheとsickle(v1.xで使用)よりtrimmomatiを使った方…

webで動作する高速で軽量な分子系統樹可視化ツール IcyTree

系統樹の可視化は、計算系統学(computational phylogenetics)の極めて重要な側面である。確かに、よく知られているテキスト「Inferring Phylogenies」(Felsenstein、2003)(amazon) は、このトピックに全章を割いている。従って、系統樹可視化ソフトウェ…

LightAssembler

次世代シークエンシング(NGS)技術の出現はゲノム研究に革命をもたらしたが、シーケンスされた生物の全体像を提供することはできていない。なぜなら、数十億のフラグメント断片の相対位置はゲノムアセンブリなしでは分からず、それらは非常にあいまいな重複…