macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

2016

メタゲノムを分類し、結果を可視化する Taxonomer

微生物集団のゲノム解析であるMetagenomicsは、環境と人体の微生物群集のプロファイリングを、これまでにない深みと幅で可能にする。その急速に拡大している用途は、自然環境や人工環境における微生物多様性の理解に革命をもたらしており、微生物の地域プロ…

メタゲノム分析ツール Pavian

メタゲノミクスシーケンスは、感染症における病原体の検出に革命を起こす可能性を秘めている。現在、ほとんどの感染症の診断は、時間がかかり労働集約的な伝統的な文化に基づく方法で行われ、オフターゲット病原体を逃す可能性がある。いくつかの最近の研究…

メタゲノムのリードの系統アサインメントを行う Centrifuge

2019 1/17 タイトル修正 2019 4/16 condaインストール 2019 4/19 ダウンロード方法追記 2019 5/9 パラメータ追記 2019 5/13 test追加 アーキアやバクテリアなどの微生物は、土壌や海洋から温泉や深海に至るまで、事実上あらゆる場所で発見されている(Keller…

高速なタンパク質検索ツール SWORD

タンパク質データベースの検索は、バイオインフォマティクスなどのライフサイエンス分野で非常に重要な課題となっている。データベースサイズの指数関数的増加と共に分析される新しいデータの量がますます大きくなってきているため、既存のツールを使用した…

タンパク質を使って高感度にメタゲノムのtaxonomy assignmentを行う kaiju

2018 10/7 タイトル修正 2018 11/20 conda追加 2018 12/12 テスト追記 2019 4/26 データベース追記 ランダムDNAショットガンシーケンシングを使用すると、実験室培養を必要とせずに環境サンプルから全ゲノムDNAを直接得ることができる。この「メタゲノミック…

高速かつ高感度なRNA/DNAのアライナー HPG Aligner

ハイスループットシーケンサーの最新世代は、前例のないスケールでデータを生成し、関連するシーケンシングコストが連続的に減少している。特に、トランスクリプトームの包括的なプロファイルを提供するRNAシーケンシング(RNA-seq)技術(論文より ref.1)…

ショートリードとロングリードのハイブリッドエラーコレクションツール Jabba

2019 7/26 追記 生物のDNA配列の正確な決定、すなわち、DNA分子中のヌクレオチドA、C、GおよびTの正確な順序を確立することは、生物学における基本的かつ挑戦的な問題である。本質的にこのプロセスは2つのステップから成っている:(1)ケミカルプロセスによ…

MinHashを使い高速にゲノムを比較する MASH

2019 4/12 dockerリンク追加 BLASTが1990年に初めてpublishされたとき、公開されたアーカイブには5000万塩基以下の塩基配列しか存在しなかった[論文より ref.2]。現在では、1つのシーケンシング機器1回の実行で1兆塩基を超えるシーケンス生成が可能である[re…

ロングリードのシミュレーター SiLiCO

2019 7/28コマンド追記 広範に使用されているPacBioプラットフォームおよびOxford Nanoporeプラットフォームを含む長いリード配列決定プラットフォームは、15〜20キロベースを超える配列断片を生成することを目的としており、構造変異の同定およびゲノムアセ…

germlineとsomaticの変異を検出する SNVSniffer

次世代シークエンシング(NGS)に基づいて、単一ヌクレオチド変異(SNV)または挿入 - または欠失(indel)突然変異を呼び出すための様々なアプローチが開発されている。しかし、それらの大部分は、特定のタイプの突然変異に捧げられている。正常細胞におけ…

メタゲノムデータ間の類似性を計算し可視化する metafast

最近、コンピュータ生命科学者たちは、利用可能なショットガンメタゲノミックデータセットの量が驚異的に増加するのを目の当たりにしている。データ分析の次元性を低下させるという課題は、メタゲノムの統計分析の第一の要求である。これには、分類学的およ…

FASTA分析に使えるpythonライブラリ Goldilocks

Goldilocksは基準を満たす領域のさらなる解析を行うために設計されたPythonパッケージである。パッケージをスタンドアロンスクリプトにインポートするか、コマンドラインツールを使用して使用できる。(一部略)Goldilocksはもともと、複数のサンプルにわた…

PacBioのロングリードのシミュレーター SimLoRD

2019 2/9 インストール手順修正 2019 7/23 コマンド修正 SMRT(single molecule real time)シーケンシングのような第3世代シークエンシング技術は、第2世代の方法よりもかなり長いリードを出力可能なため、ますます使用されててきている。 SMRTのエラー特性…

アセンブル結果をリファレンスと比較して構造変異などを可視化するAssemblytics

デノボゲノムアセンブリは、ロングリードシーケンシングおよびマッピングの進歩により、大きなゲノム上でますます扱いやすくなってきており、生物の系統樹全体にわたるより高品質でより数の多いリファレンスがもたらされている(Lee et al、2014; Roberts et…

PacBioのロングリードのアライナー rHAT

1分子リアルタイム(SMRT)シーケンシングでは、ノイズの多いロングリードをリファレンスゲノムにアライメントすることが依然としてコストのかかる作業になっている。 SMRTリードアライメントの効率性と有効性を改善するための新しいアプローチが求められてい…

   RNAシーケンスデータを使いアセンブルを改善する Rascaf

近年、配列決定されたゲノムの数と多様性が非常に増加している(論文より Reddy et al、2015)。 13,000以上の真核生物が配列決定されているか、配列決定の過程にあり、数百の植物や動物を含むより多くのものが計画されている。大部分のモデル生物は、高品質…

ロングリード単独またはNGSとの併用でコンセンサス配列を得る Sparc

以前の世代と比較して、第3世代シークエンシング(以後 3GS)は5〜120 kbのリードを得ることができる。しかし、現時点で報告されているエラー率はPacBioシークエンシング(論文より Koren et al、2012)で約15%、オックスフォードナノポア配列決定(Laver e…

高速なラージゲノムのハイブリッドアセンブルツール DGB2OLC

第3世代シークエンシング技術は、アセンブリの品質を大幅に向上させた。 しかしながら、効率的なゲノムアセンブリアルゴリズムが欠如していることは、間違いなく第3世代シーケンス技術の普及への最大の障害となっている。高い誤り率は、ロングリードのアセン…

ウィルスコミュニティを検出する viromescan

ウイルスは常にヒトの体に生息している [論文よりref.1]。細菌および真菌のように、ある種のウイルスは、ヒト免疫の調節にとって重要な低レベルの免疫応答を刺激し得るが、代謝ホメオスタシスもまた刺激し得る。これに関して、FoxmanとIwasaki [ref.4]は、一…

シングルセルのアセンブルツール HyDA

大部分の微生物は一般的な培地では培養不能で、シングルセルシーケンスは微生物の洞察を得るための重要な方法となっている。シングルセルシーケンスには、全ゲノム増幅によってDNAをランダム増幅させる必要があるが、シーケンスバイアスが非常に大きいという…

複数のリファレンスを使い精度を上げたReference-assisted assembly Multi-CAR

リファレンスを足場として使い、コンティグからドラフトゲノムを構築するツールがいくつか提案されているが、ターゲットと参照するゲノムとの間に再編成が起きていたり、系統関係が遠いと誤ったスキャッホールドを生成する可能性がある。これは、単一のリフ…

de novo transcriptome assembliesを評価する rnaQUAST

rnaQUASTはde novo transcriptomeのアセンブルパフォーマンスを比較するツール。リファレンスゲノムやtranscriptsのカタログにアセンブルした配列をアライメントし、様々な統計データをPDFで出力する。リファンレンスの遺伝子情報(gtf)がない時でも、ラン…

DNAでもRNAでも使える、複数サンプルのマッピングを同時比較できるGUIツール Qualimap2

2019 9/8 インストール追記 公式サイト http://qualimap.bioinfo.cipf.es ユーザーマニュアル http://qualimap.bioinfo.cipf.es/doc_html/index.html ワークフロー http://qualimap.bioinfo.cipf.es/doc_html/workflow.html CUI環境でのラン。 http://qualim…

TopHatのunmapped.bamを修復する TopHat-Recondition

tophatはスプライシングされた領域を跨ぐアライメントが可能なRNAのマッピングツールだが、他のアライメントユーツとは異なり、tophatのすべてのバージョンはアライメントされなかったリードを独自形式で別のbamに書き込む。このフォーマットが理由で、unmap…

TEなどのリピート配列をDe novoで検出し、マスクするphRAIDER

RepeatMaskerはTEなどの検索によく使われているが、プリコンパイルされたライブラリを必要とする。ゲノム解析された哺乳類では、このプリコンパイルされたライブラリを用いてTE検索が可能になるが、植物で近縁種のゲノムを使った場合、うまくいかないことが…

String graphとde Bruin graphを使ったアセンブルを行う StriDe

De Brujinのgraphを使うde novo assemblyの手法は、OLCのgraphを使った手法が苦手とするエラーが多い領域のアセンブルに強く、大量のリードの処理効率も優れている。しかしながら、リードをk-merサイズに分解するため、k-mer以上の繰り返し配列がある領域の…

ロングリードのハイブリッドエラーコレクションツール CoLoRMap

CoLoRMapはショートリードを使ったロングリードのエラー補正ツール。エラー補正によってPacbioのノイジーなロングリードのマッチ率が5~10%上昇する(blasrでアライメントして、マッチした領域内でリファレンスと一致した塩基の割合)。精度は他のツールと同…

BWAに近い精度でかつ数倍高速なマッピングツール FSVA

HiseqX10などの登場でシーケンススループットはますます高まっているが、ソフトの方が追いついていない。200GBのデータを処理するのに、BWA MEMだと1CPU使用で80時間程度かかる(20コアでようやく10-20時間)。解決には分散コンピューティング(e.g., pBWA、Sp…

バクテリアの保存されたgene clusterを探し、結果をビジュアル表示する Gecko3

Gecko3は複数ゲノムを比較して、保存された遺伝子クラスターを検出する方法論。ユーザーが指定した特定の遺伝子群について関連のある遺伝子や遺伝子クラスターを検索することができるSTRINGなどのデータベースと異なり、Gecko3は調べたい生物群の全遺伝子を…

指定した遺伝子のターゲットエンリッチメントを行う HybPiper

HybPiperは系統解析などを行うために遺伝子領域のエンリッチメントを行うことができるツール。NGSのリードを出発点として、準備した遺伝子配列セット(bait)にリードをアライメントし(BWA, BLAST)、spadesで個別にアセンブルを実行する。出力はcDNA配列と…