macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

Bioinformatics

ラップトップで大量のゲノム比較を可能にする BinHash

ゲノム(メタゲノムを含む)の数は急速に増加している。 近い将来、何百万ものゲノム間のペアワイズ距離を推定する必要があるかもしれない。 クラウドコンピューティングを使用しても、そのような推定を実行できるソフトウェアはほとんどない。マルチスレッ…

メタゲノムのphage contigからホスト原核生物ゲノムを予測する WIsH

ウイルスは、ほとんどすべての既知の生態系の重要な構成要素である(Edwards and Rohwer、2005)。それらは、優占種を枯渇させることによって海洋から人間の腸までの様々な環境における生物多様性を調節し(De Paepe et al、2014; Lehahn et al、2014)、海…

エラーの多いロングリードのハイブリッドエラーコレクションツール HG-CoLoR

2019 2/9 タイトル修正 最近のPacific Biosciences やOxford Nanoporeのようなロングリードシーケンシング技術は、ショートリード技術で許容されるより大きくて複雑なゲノムのアセンブリ問題を解決する。しかし、これらのロングリードは非常にノイジーで、Pa…

ONTのロングリードを自動でアセンブリして公開し、比較できるツール poreTally

ナノポアシークエンシングは、エラーが発生しやすいクオリティが一貫したロングリードを生成する第3世代のシークエンシング方法である。簡単に言うと、DNAまたはRNA鎖がタンパク質の細孔を通って引っ張られ、細孔を介して電気抵抗に影響を与えこれが記録され…

samtoolsのインストール

あけましておめでとうございます。今年もよろしくお願い致します。 samtoolsがどんどんアップデートしているので、久しぶりに更新します。ここではパッケージマネージャに頼らず、ソースからビルドします。自分の環境に合わせてビルドした方がチューニングが…

複数フローセル比較にも対応したONTの分析ツール MinIONQC

Oxford Nanopore Technologies(ONT)の小型で携帯可能な機器MinIONは、DNAシークエンシングに革命をもたらした。それはユーザーがサンプルから数時間でシーケンスまで進めることを可能にし、また非常に長いDNA分子をシーケンスすることができ、そして各フロ…

UMIタグつきraw シーケンシングリードをクラスタリングする calib

次世代シーケンシングにより、シーケンシングエラーの処理を含む多くの課題が発生する大規模なゲノムデータセットが利用可能になった。これは特にガンゲノミクスに関連する。循環腫瘍DNAからの低い対立遺伝子頻度変動を検出するために使用される。ユニークな…

lambda phageコントロールをONTなどのfastqから除く NanoLyse

支配的なsynthesis technology によるシーケンシングは、固定リード長の(50-300bp)の高精度(エラー率<1%)なシーケンシングとして特徴付けられる(Goodwin et al、2016)。対照的に、Oxford Nanopore Technologies(ONT)およびPacific Biosciencesのロ…

FASTQの圧縮/解凍を行う Spring

過去数年間に生産されたゲノムデータの量は、主に高スループットシーケンシング(HTS)技術の向上とゲノムのシーケンシングコストの削減によって大幅に増加した。ヒトに対する単一のゲノムシーケンシング実験は、典型的には数億のショートリード(長さ100〜1…

中間サイズのSVを検出する CLEVER

The International HapMap Consortium (2005) とThe 1000 Genomes Project Consortium (2010) は、世界的に協調した取り組みにより、ヒトゲノムのより大きなリアレンジメントを含む全領域の変異のバリエーションに関する最初の体系的な見解を提供した。驚く…

Linked readを使ってクロモソームスケールのアセンブリを行う ARKS

ARCSより 10×Genomics(10×G、Pleasanton、CA)のChromiumシークエンシングライブラリー調製プロトコルは、Illuminaシーケンシング(San Diego、CA)ベースで長いDNA断片上にショートリードとバーコード情報を提供しローカライズさせる。したがって、高スル…

ペアエンドfastqをマージする flash2

DNAシーケンシング技術の急速な低下に伴い、デノボ全ゲノムシーケンシング(WGS)プロジェクトは新しいゲノムについて非常に深いカバレッジを生み出している。しかし、これらの技術による高いカバレッジとゲノムアセンブリアルゴリズム(Gnerre et al、2011;…

アセンブリのグラフを可視化し、アセンブリの評価・分析を助ける SGTK

2018 11/27 誤字修正 Scaffoldingはすべてのゲノムアセンブリパイプラインの重要なステップである。scaffoldingにより、メイトペアライブラリやロングリードなどのさまざまなタイプのリンケージ情報を使用してコンティグをより長い配列にアラインできる。 こ…

バリアントコール結果を可視化して、素早くバリアントフィルタリングを行うVIPER

次世代シーケンシング(NGS)の開発により、ゲノムシーケンシングは多くの研究分野、特にがん研究に関連する分野(Shen et al。、2015)に適用可能となった。異なるスケールで変化を検出するため多くのツールが開発されている。例えば、GATK(McKenna et al…

非相同な領域をマスクしてアライメントの誤りを防ぐ PREQUAL

2018 12/02 mafftコマンドの誤り修正 系統的なデータセットには、品質の低い配列または誤った遺伝子モデルのために、常に、相同性のないストレッチが含まれる。大規模なデータセットでは、これらの手動によるキュレーションはできないが、この作業を自動化で…

アセンブリ配列を使って全ゲノムMLST (wgMLST) を行い、アレルプロファイルから系統を比較・再構成する fast-GeP

2018 11/16 tips追記 Multilocus sequence typing(MLST)などの遺伝子ベースのタイピング法は、バクテリアpopulationsのゲノム研究のための「ゴールドスタンダード」である(Maiden et al、2013; Sheppard et al、2012)。大量の全ゲノムシーケンシング(WG…

(ウィルス) コドンを考慮し、フレームシフトエラーに強いアライメントツール VIRULIGN

多くのウイルス性病原体、特にRNAウイルスは、宿主内および宿主間で急速に進化しており、変化する状態への適応のマーカーがそれらのゲノムにおいて検出され得る(Lemeyら、2006)。ウイルス遺伝子型からの構造、機能および表現型予測は、ウイルス感染の薬物…

HIVディープシーケンシングのマッピングとバリアントコールパイプライン hivmmer

現在、いくつかの次世代シーケンシングマシンが病原体およびウイルスの研究に使用されている(Chabria et al、2014; Quin ones-Mateu et al、2014)。過去20年間に開発された多くの次世代シーケンシングプラットフォームおよびアプローチのうち、イルミナの…

既知変異を保護しながらロングリードRNA seqのエラーを訂正する TranscriptClean

従来のショートリードRNAシークエンシングは、様々な用途における遺伝子発現を定量するために広く使用されている。ショートリードリードは正確で費用効果が高いが、一般に数キロベース長ある全長哺乳動物アイソフォームを解決する能力が欠けている(論文より…

GenomeUPlot

構造変化(SV)を有するサンプルの全ゲノムシーケンシング(WGS)データでは、そのような異常をシンプルなプロットで視覚化する必要性を生じさせる。 WGSデータの従来の2次元表現は、円形または線形レイアウトを頻繁に使用する。これらの表現にはいくつかの…

マッピングツール segemehl

2018 11/5 タイトル修正 近年、短いシーケンシングリードを大きなリファレンスゲノムにアライメントさせる問題はかなりの注目を集めており、これまで様々な異なるアルゴリズムアプローチに基づく、異なる多くのアラインメントツールが発表されている。 EBIの…

シーケンシングデータのハプロタイプを可視化し、リードを分類する HapFlow

11/3 誤字修正 ハイスループットシーケンシング技術の出現により、バクテリア集団のシーケンシングのような新しい実験的アプローチが可能になった。感染は、しばしば同じ種の複数の株を含んでおり(Darch et al、2015; Taylor et al、1995)、これは治療方法…

バクテリア間で保存されたシンテシーブロックを探す CSBFinder

ゲノミクス(ゲノム学、ゲノム科学)における重要な問題は、遺伝子がゲノム内でどのように構成されているか、どのような情報がコードされているかである(Rogozin et al、2004)。遺伝子の順序に対する選択圧がない場合、リアレンジメントの繰り返しにより遺…

非常に低いカバレッジのWGSデータからTEを推定する Transposome

ゲノムのリピートのアノテーションは、利用可能なツールが数多くあり、すべてが性能や精度に関して分析されていないという理由から、挑戦的な課題である(Leret、2010)。転移因子(TE)を同定するための現在のアプローチは、ゲノムアセンブリ(Ellinghaus e…

ホストゲノムや汚染配列を検出し、分離を助ける PhylOligo

シーケンシング技術の発展により、複雑な非モデル生物ゲノムおよび生物共同体のゲノムをシーケンシングの標的とすることが可能になった。これらの非モデル生物のいくつかは、それらの環境から単離することが困難だったりin vitroでクローン化ができなかった…

クラスタリングツール Starcode

すべてのシーケンシング技術はある程度の不正確さを持っている。例えば、Illuminaプラットフォーム(Margulies et al、2005)は、 主に置換からなる1〜2%のエラー率を有し(Dohm et al、2008; Nakamura et al、2011)、PacBioプラットフォームは挿入および…

webで動作する高速で軽量な分子系統樹可視化ツール IcyTree

系統樹の可視化は、計算系統学(computational phylogenetics)の極めて重要な側面である。確かに、よく知られているテキスト「Inferring Phylogenies」(Felsenstein、2003)(amazon) は、このトピックに全章を割いている。従って、系統樹可視化ソフトウェ…

LightAssembler

次世代シークエンシング(NGS)技術の出現はゲノム研究に革命をもたらしたが、シーケンスされた生物の全体像を提供することはできていない。なぜなら、数十億のフラグメント断片の相対位置はゲノムアセンブリなしでは分からず、それらは非常にあいまいな重複…

複数のBinnngツール結果を比較してbinning精度を上げる Binning_refiner

ハイスループットショットガンシーケンシングは、未知の微生物群集を研究する強力な方法を提供する(Eloe-Fadrosh et al、2016)。メタゲノミクスショットガンシーケンシングからゲノムビニングと呼ばれるプロセスによって完全または部分的な微生物ゲノムを…

バイオインフォマティクスのツールを再現性よく実行するためのコンテナ仮想化ツール群 BioContainers

2018 10/2 誤字修正 2018 11/4 追記 バイオインフォマティクスは、新しいアルゴリズムの開発、複雑なパイプラインへの様々なツールの接続(Perez-Riverol et al、2014)、それらの蓄積と普及により、システム生物学の機能と振る舞いの理解への重要な貢献をし…