macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

RNA seq

高速かつ高感度なRNA/DNAのアライナー HPG Aligner

ハイスループットシーケンサーの最新世代は、前例のないスケールでデータを生成し、関連するシーケンシングコストが連続的に減少している。特に、トランスクリプトームの包括的なプロファイルを提供するRNAシーケンシング(RNA-seq)技術(論文より ref.1)…

RNA-seqのクロスコンタミを検出する Croco

核酸試料間の汚染は、分子生物学における潜在的な問題として長く認識されてきた。ポリメラーゼ連鎖反応(PCR)による増幅や、そして最近ではハイスループット配列決定でのPCR増幅は、ソースにかかわらず、また非常に低レベルの混入した核酸でさえ、十分な範…

RNA seqのシミュレータ polyester

RNA-seq実験は遺伝子発現を研究する手段としてますます普及が進んでいる。RNA-seqデータ(Oshlack et al、2010)の発現解析のための様々な統計的手法がある。 RNA-seqの統計的方法論の開発者は、ツールが正しく機能しているかどうかをテストする必要がある。…

低複雑度領域由来のリードを除去する RepeatSoaker

次世代シークエンシング(NGS)技術は、主に、DNA / RNAサンプルからの数百万回のリードの超並列シーケンシングに基づいており、リード長は増加している[論文より ref.1,2]。 NGSのコストは急速に低下し、その結果、転写を研究するためにマイクロアレイの使…

高速なRNA seqのマッピングツール DART

近年の次世代シーケンシング(NGS)プラットフォームの出現により、大量並列cDNAシークエンシング(RNA-Seq)技術は、発現の高分解能測定および低量の転写産物の検出における高感度を提供するもう一つの強力なツールとなっている。 RNA-Seqは、事前の遺伝子…

   高速なRNA seqのマッピングツール HISAT2

RNA-seqは、2008年に導入されて以来、遺伝子発現、転写体構造、長い非コード化RNAと融合転写物の同定のためのツールとして普及してきた(論文より ref.2-5) RNA-seq解析は、リードを参照ゲノムに対してアライメントさせ、リードの起点となる場所を決定する…

   RNAシーケンスデータを使いアセンンブルを改善する Rascaf

近年、配列決定されたゲノムの数と多様性が非常に増加している(論文より Reddy et al、2015)。 13,000以上の真核生物が配列決定されているか、配列決定の過程にあり、数百の植物や動物を含むより多くのものが計画されている。大部分のモデル生物は、高品質…

   ペアエンドRNAシーケンスを使いアセンブルを改善する P_RNA_scaffolder

ゲノムシークエンシングプロジェクトでは、遺伝子の同定は機能的研究と比較分析の基本である。メイトペアライブラリーおよびロングリードは高品質のアセンブリの生成を容易にするが、すべての遺伝子の完全な構造を回復することは困難であり、解決にはnovelな…

RNA seqのクオリティコントロールツール RSeQC

RSeQCはクオリティ、GCバイアス、PCRバイアス、ヌクレオチド組成バイアス、シーケンスのデプス、strandの特異性、カバレッジ均一性およびゲノムのfeature上のカバレッジ分布など、RNA-seq実験を総合的に評価するパッケージ。SAMとBAMを入力として利用できる…

バクテリアのRNA seq自動解析パイプライン SPARTA

RNA seq実験の分析フローには多くの工程が含まれる(クオリティチェック、マッピング、定量、統計を使った発現変動遺伝子の検出)。これら RNA-seq分析ワークフローには多数のツールが発表されているが、各ステップで選択できるツールが多数あるため、適した…

RNA seqのクオリティチェックツール QoRTs

RNA-Seqは特定のバイアス、エラー、アーチファクトを受けやすく、堅牢で包括的なクオリティコントロールが必要である。QoRTsは幅広いクオリティ分析マトリクスを出力する多機能ソフトウェアパッケージ。様々な角度からRNA seqデータの分析を行い、1つの図で…

de novo transcriptome assemblyの適切なk-merレンジを推定する KREATION

de Bruijn graphを使ったde novoトランスクリプトームのアセンブルでは、単一のk- merより異なるk merのアセンブル結果を統合した方が感度が増す。KREATIONは関連するアセンブリの比較クラスタリングを使用して、追加のkmerアセンブリの重要性を推定するツー…

リファンレンスガイドのトランスクリプトのアセンブル TransComb

TransCombは、junction graphに基づいて開発されたゲノムガイドのアセンブルツール。ペアのショートリードとリファレンスゲノムを使い、RNA seqのシーケンスデータをアセンブルする。複数種のシミュレーションデータセットとリアルデータセットの両方でテス…

リファンレンスガイドのトランスクリプトのアセンブル strawberry

ゲノムガイドのRNAのアセンブル法は、遺伝子アノテーション情報を使わず、RNA-Seqデータから転写物の再構成を行う方法である。 Strawberryは ゲノムガイドのアセンブリと定量の2つのモジュールで構成されており、ゲノムガイドのアセンブルではbamをスプライ…

リファンレンスガイドのトランスクリプトのアセンブル Scallop

Scallopは、リファンレンスガイドのトランスクリプトのアセンブルツール。 マルチエキソンの転写物や低発現の転写物を組み立てる際の高い精度を特徴とする。ヒトRNA-seqサンプルでは、ScallopはStringTieおよびTransCombよりも34.5%および36.3%正確なマル…

真核生物のRNAのコード領域を予測するGeneMarkS-T

GeneMarkS-T は教師なし学習でトレーニングされたRNAのタンパク質コード領域を予測ツール。原核生物向けのGeneMarkSを真核生物向けに拡張して作られた。データサイズに寄らず一定の検出率を示すため、データが莫大になるメタトランスクリプトーム解析のコー…

de novo transcriptome assembliesを評価する rnaQUAST

rnaQUASTはde novo transcriptomeのアセンブルパフォーマンスを比較するツール。リファレンスゲノムやtranscriptsのカタログにアセンブルした配列をアライメントし、様々な統計データをPDFで出力する。リファンレンスの遺伝子情報(gtf)がない時でも、ラン…

トランスクリプトームから主要なtrasncriptsを選抜する EvidentialGene

EvidentialGeneのtr2aacds.plは、de novo アセンブルツールの結果から生物学的に有用な最良のmRNAセットにクラスタリングするパイプライン。論文は準備中で不明な点もあるが、ポスターによると以下の流れで冗長なtranscirptsを減らすらしい。fastanrdbとcd-h…

複数のトランスクリプトームをマージするtransfuse

transfuseは、フィルターを満たすtranscriptsをクラスタリングし、融合したtranscriptsを作るツール。複数のRNA のアセンブルツールで合成されたtranscriptsをマージし、よりハイグレードなtranscriptsを作るために用いられる。現在、論文準備中とされる。 …

超高速にRNA seqのリードカウント(定量)を行う salmon

salmonは豊富なbiasモデルを取り込み、高速、高精度、堅牢なRNAseqの発現定量を行う方法論。 kallistoやeXpressと比べて、同じFDRで2倍以上精度が高い(DEG判定された遺伝子が2倍以上少ない=false positiveが少ない)というデータを出している。 Supplement…

rRNAのコンタミを除く SortMeRNA

SortMeRNAはメタトランスクリプトームやメタゲノムのシーケンスデータからrRNAを高感度に検出し、フィルタリングするツール。出力はfasta、fastq、アライメントのsam、またblastライクな出力も可能である。Illumina, 454, Ion Torrent and PacBioのシーケン…

RNA seqのクオリティチェックツール QoRTs

RNA-Seqは特定のバイアス、アーティファクトを受けやすく、 堅牢で包括的なクオリティチェックが重要になる。とくにサンプル調製、ライブラリー作成、またはシークエンシングのエラーは、 予期せぬアーティファクト、バイアスを引き起こす。適切に処理できる…

様々なバイオインフォマティクスツールの分析結果を1つに集約して分析できる MulitiQC

今まで様々なNGSの評価ツールが発表されてきたが、それらは特定のデータを評価するものであり、プロジェクト全体で品質評価(クオリティチェック)するためのツールがなかった。プロジェクト全体で一貫した品質評価ができないと、チェック漏れが出てしまう恐…

DNAでもRNAでも使える、複数サンプルのマッピングを同時比較できるGUIツール Qualimap2

公式サイト http://qualimap.bioinfo.cipf.es ユーザーマニュアル http://qualimap.bioinfo.cipf.es/doc_html/index.html ワークフロー http://qualimap.bioinfo.cipf.es/doc_html/workflow.html CUI環境でのラン。 http://qualimap.bioinfo.cipf.es/doc_htm…

de novo transcriptome 解析を行うためのRNAのアセンブルツール

RNAの発現は分子によって大きな差があるため、どのようなデータセットでも万能なRNAのアセンブルツールというのは存在しない。そのため単一のアセンブルツールでアセンブルするより、複数のアセンブルツールでかつ複数のk-merサイズでアセンブルして、そのプ…

リファレンスを使わないRNA seqのアセンブル評価ツール RSEM-EVAL

contigの豊富さや、N50のような測定法は、アセンブルの精度を反映していない点が問題となる。RSEM-EVALは、アセンブリのコンパクトさやRNA-Seqのシーケンスデータからアセンブリの質を調べるなどして、複数の要因から単一の評価スコアを算出する方法論。デー…

RNAのリファレンスガイドアセンブリを行いDe novo RNA seqの精度を上げる BRANCH

非モデル生物のDe novo RNA seq解析は断片化したRNAしかできないので、DEG解析が困難となる。BRANCHはそういった不完全なRNAに対して使う方法論で、近縁種のゲノム、またはcontigの情報をRNAのガイドとして利用し、アセンブルの精度を高める方法論。ゲノムの…

de novo assemblyで得たRNAのコンティグをクラスター化して、非モデル生物のDEG解析を可能にする Corset

RNA seqデータをde novoでアセンブルすると、一般に同じ遺伝子のアイソフォームが区別され、それぞれを別々にアセンブルするため、似た複数のコンティグが生じてしまう( SNPまたはindelだけが異なるコンティグを繰り返し報告する)。付け加えて、こうしてで…

シングルコアでも高速なRNA seqのアライナー RapMap

RapMapはRNAのアライナー。非常に高速で、ほかのツールと比較すると、Bowtie2より数十倍高速で、高速なSTARと比べても2倍以上高速にアライメントできる(Figure2参照)。アライメントが 具体的には7500万のリードをヒトトランスクリプトームに10分程度でア…

SNVやRNA edittingに適した高精度なRNA seqのアライナー RASER

RNAのシーケンスデータをゲノムにアライメントする場合、イントロンを跨いでリードをアライメントする必要があるため、リードをsplitしてアライメントできるアライナーが使われる(真核生物のRNA seq)。イントロンは数十kbもある可能性があるので、split-al…