macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

2018-02-01から1ヶ月間の記事一覧

RNA seqのクオリティコントロールツール RSeQC

2019 12/2 インストール追記 2020 12/9 誤字修正, help追加 2022 インストール手順追記 RSeQCはクオリティ、GCバイアス、PCRバイアス、ヌクレオチド組成バイアス、シーケンスのデプス、strandの特異性、カバレッジ均一性およびゲノムのfeature上のカバレッジ…

バクテリアのRNA seq自動解析パイプライン SPARTA

RNA seq実験の分析フローには多くの工程が含まれる(クオリティチェック、マッピング、定量、統計を使った発現変動遺伝子の検出)。これら RNA-seq分析ワークフローには多数のツールが発表されているが、各ステップで選択できるツールが多数あるため、適した…

RNA seqのクオリティチェックツール QoRTs

2020 12/9 condaインストール追記、help更新 RNA-Seqは特定のバイアス、エラー、アーチファクトを受けやすく、堅牢で包括的なクオリティコントロールが必要である。QoRTsは幅広いクオリティ分析マトリクスを出力する多機能ソフトウェアパッケージ。様々な角…

BBtoolsを使い各クロモソームのカバレッジを計算する

様々な方法があるが、正確に出すのは意外に難しい(例えばsamtools mpileupは0カバレッジをカウントしない)。ここではBBtoolsのpileup.shを使い各クロモソームのカバレッジを個別に計算するコマンドを紹介する。 追記 2/26 コマンド修正 インストール BBtoo…

kallistoを動かしメタゲノムからウィルスゲノムを高速に検出・定量する FastViromeExplorer

伝統的なウイルス同定法は単離および培養に依存しており、時間がかかるだけでなく、多くのウイルスおよび宿主が培地で増えないため実行不可能なことも多い。 2004年に登場したNGSの技術により、ウイルスとその存在量を迅速に測定することが可能になった。ウ…

大量のサンガーシーケンスやfastqを自動でクオリティフィルタリングする臨床向けツール ClinQC

ClinQCは、SangerおよびNGSシーケンシングデータの品質管理、フィルタリングおよびトリミングの統合パイプライン。臨床研究で数百から数千のサンプル/患者に対する サンガーのシーケンシングとNGSデータを分析し、サンプル/患者ごとに統一された分析レポート…

fastqの処理ツール fqtools

fqtoolsは 無効なファイルを識別しながら、FASTQファイルを処理できる、高速で信頼性の高いFASTQファイル操作ツール。自動解析パイプラインでの使用も視野に設計されている。 インストール 依存 makezlib is required for processing compressed (.gz) data.…

エラーを除去しながらペアリードをマージする CASPER

ペアエンドシーケンスからのフォワードリードとリバースリードのマージは、ゲノムアセンブリやマッピングなどのダウンストリームタスクのパフォーマンスを大幅に向上させる(インサートサイズの問題には触れない)。しかしエラー率はシーケンス限界が近づく…

エラーコレクションツール Trowel

最も広く適用されてきたエラー訂正方法は、スペクトルアラインメントの手法で(Pevzner et al。、2001)、これはk -merスペクトルに依存したアルゴリズムとなる。すなわち、与えられた閾値よりも頻繁に発生するk -mer(solidまたは 'trusted')と頻度の低いk…

454のホモポリマーに対応したエラーコレクションツール HECTOR

多くの誤り訂正方法が開発・発表されているが、454のホモポリマーを明示的に対象としたエラー訂正ツールはほぼない(2014年時点)。 ホモポリマーのindelは454パイロシークエンシングの主要なシークエンシングエラーの1つで、ホモポリマーエラーが あるせい…

簡易なメタゲノムもシミュレートできるfastqのシミュレータ GemSIM

GemSIMは汎用フォーマットのSAMおよびFASTQ(IlluminaおよびRoche454を含む)と互換性のあるシングルエンドまたはペアエンドのリードを生成できるNGSのシミュレータ。ユーザーが比率を指定することで、簡単なメタゲノムのシミュレートを行うこともできる。 P…

FASTA/FASTQ関係のツールまとめ

随時更新 情報が増えてきたので、これまで紹介してきたfasta、fastqの分析、変換(圧縮)、修復ツールをまとめておく。 アダプタートリミング trimming / preprocessing カテゴリー seqkit fastq / fastaの操作ツール seqkit seqkitに最近追加されたコマンド…

FASTAやFASTQの塩基数をカウントする

インストール TECHOVERFLO((https://techoverflow.net)の公開しているpythonスクリプトを利用させてもらう。該当記事(リンク)からコピーして、ファイル名 fasta-stats.pyで保存。 "chmod u+x python fasta-stats.py"で実行権もつけておく。 > python fas…

k-merを高速にカウントする KCMBT

アセンブル、リピート検出、エラー検出などNGSの多くの方法論においてk-merカウンタが使用されている。大規模なデータのk-mersを数えるには、非常に高速で効率的なアルゴリズムが必要となる。KCMBTは、このk-merカウント問題のためのアルゴリズム。KMC2より…

置換、indel、ホモポリマーに対応したエラーコレクションツール Pollux

PolluxはIllumina、Ion Torrent、Roche 454のシーケンスエラーを訂正する汎用エラーコレクションツール。置換エラーのほかに、挿入、削除、およびホモポリマーのエラーを検出可能である。公開データでテストされており、Illumina MiSeqの94%、Ion Torrent …

de novo transcriptome assemblyの適切なk-merレンジを推定する KREATION

de Bruijn graphを使ったde novoトランスクリプトームのアセンブルでは、単一のk- merより異なるk merのアセンブル結果を統合した方が感度が増す。KREATIONは関連するアセンブリの比較クラスタリングを使用して、追加のkmerアセンブリの重要性を推定するツー…

germlineとsomaticのSNVとsmall indelを検出する Strelka2

2019 5/30 インストール追記 Strelkaは、マッピングされたbamから生殖細胞系列および体細胞系列の変異を検出する。体細胞突然変異の検出では、約5-10%の腫瘍の純度まで良好な結果を出せるとされる。 デフォルトでは49以下のサイズのindelも検出する。入力サ…

イルミナのランディレクトリを分析する CheckQC

CheckQCはイルミナのdemultiplexした後のランフォルダを分析し、これ以上の解析に意味が必要か、意味がないか素早く調べることができるツール。基準を満たさないメトリックについての警告を返し、ランパフォーマンスを迅速に評価する。既存のワークフローに…

シングルセルのアセンブルツール HyDA

大部分の微生物は一般的な培地では培養不能で、シングルセルシーケンスは微生物の洞察を得るための重要な方法となっている。シングルセルシーケンスには、全ゲノム増幅によってDNAをランダム増幅させる必要があるが、シーケンスバイアスが非常に大きいという…

シングルセルシーケンスのカバレッジバイアスを見積もる Preseq

単一細胞レベルで変異を調べるには、単一細胞のシーケンス決定技術が必要になる。このシングルセルシーケンスの技術は、腫瘍細胞のシーケンスや未培養の細菌集団の細胞の多様性を調べるような研究にも用いられてきた。また、着床前遺伝子診断などに利用して…

NGSのリード情報を使いスキャッホールドのギャップを埋める FGAP

FGAPはドラフトゲノムのギャップを埋めるためのツール。BLASTを使用して、複数のコンティグをドラフトゲノムアセンブリに対して整列させ、ギャップを埋めるために最良のシーケンスを検出する。ヒトchr14では、ギャップの数を35%減少させたと述べられている…

bamの分析に使うバイオインフォマティクスのツールキット goleft

2020 3/15 インストール追記、help更新 2020 4/19 追記 goleftはMIT licence下で提供されているバイオインフォマティクスのツールキット。GO言語で構築されている。 インストール Github リリース(リンク)からosx向けバイナリをダウンロードできる。パスの…

ペアエンドリードを使いミスアセンブリを検出する misFinder

ミスアセンブルを検出するツールにはQuest、GAGEなどがあるが、これらのツールはミスアセンブルとリファンレスの違いを区別せず全て報告する。そのため、ミスアセンブルのみを検出するには通常さらなる工夫が必要になる。 一方、CGALやALE、REAPRはDe novoの…

リファンレンスガイドのトランスクリプトのアセンブル TransComb

TransCombは、junction graphに基づいて開発されたゲノムガイドのアセンブルツール。ペアのショートリードとリファレンスゲノムを使い、RNA seqのシーケンスデータをアセンブルする。複数種のシミュレーションデータセットとリアルデータセットの両方でテス…

Reference-assisted assembly CSAR

次世代のシーケンシングの進歩により、膨大な量のショートリードが生成されている。しかしながら、ショートリードからゲノム配列を組み立てることは依然として困難な作業である。ゲノム中の大きなリピートのために、通常、現在のアセンブリツールの多くはシ…

複数のリファレンスを使い精度を上げたReference-assisted assembly Multi-CAR

リファレンスを足場として使い、コンティグからドラフトゲノムを構築するツールがいくつか提案されているが、ターゲットと参照するゲノムとの間に再編成が起きていたり、系統関係が遠いと誤ったスキャッホールドを生成する可能性がある。これは、単一のリフ…

原核生物のReference-assisted assembly CAR

CARは、近縁な生物のゲノムに基づいて、原核生物のゲノムのコンティグを精度よく並べ換えるアセンブリツール。論文中では、様々なリアルデータのコンティグと系統学的に近縁さが異なる20のゲノムを使い、正解と謝りの割合を調べており、競合ツールよりパフォ…

GC-skewと複数アセンブルデータを使ってバクテリアのゲノムアセンブリを改善するGUIツール GFinisher

GFinisherはゲノムのアセンブルで得たコンティグを、似たゲノムの情報と他のアセンブルツールのコンティグ情報を使い、contiguityを改善するツール。始めに似たゲノムにコンティグを貼り付け、他のコンティグ情報も使いターゲットのコンティグを並べ替える。…

ロングリードやcontig情報を使いスキャッホールドのギャップを埋める GMcloser

2019 9/4 インストール追記 NGSのリードやアセンブルしたコンティグを使い、スキャッホールドのギャップを埋めるツールがいくつか発表されているが、オーサーらは、これらのツールに起因するアセンブリのエラー率が、デノボアセンブルで起こるエラー率よりも…

アセンブルのギャップクローズを支援する GapBlaster

GapBlasterは、ゲノムのアセンブリで得られたコンティグを用いて、NNNで繋がったスキャフォールドのクローズを支援するjavaのツール。GUIで動作する。アセンブリで得られたコンティグをblast+/legacy blast/mummerの新井面ツールでスキャホールドにアライメ…