macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

配列のクラスタリング

SuperTranscripts 其の1

ハイスループットシークエンシングは、cDNA配列のシーケンスを可能にし、単一の手頃なアッセイを用いて発現レベルを定量化することができるため、トランスクリプトミクスに革命をもたらした[論文より ref.1,2]。 RNAシークエンシング(RNA-seq)は、遺伝子レ…

(RNA seq) 複数のde novoアセンブリ結果をマージし、冗長なcontigを除く DRAP

第二世代シークエンシングプラットフォームは、多種多様な種および条件の遺伝子発現を分析することを可能にする、多量の転写産物のシーケンスデータの生成を可能にした。リファレンスゲノム配列を欠く種については、現在の古典的なプロセシングパイプライン…

de novo transcriptomeのcontigクラスタリングツール Corset

RNA-seqは、トランスクリプトームの様々な側面を研究するための強力な技術である。それは、遺伝子発見、選択的スプライシングイベントの検出、継時的発現分析、融合の検出、SNPおよび転写後エディティングなどの変異の同定を含む広範囲の用途を有する[ref.1]…

fastqをクラスタリングする QCluster

次世代シーケンシング(NGS)技術によって生成されるデータ量は、現在のコンピュータシステムのストレージおよびデータ処理能力に挑戦しているペースで増加している[ref.1]。現在の技術は1回の実行で5千億本以上のDNAを生産し(論文執筆時点)、今後のシーケ…

メタゲノムのgene-targeted assembler: MegaGTA

次世代シーケンシングは、近年のメタゲノミクスの研究を大きく促進してきた。これらの研究は、しばしば何百万から数十億のリードをde novoでアセンブリし、コンティグにして遺伝子アノテーションすることを含む。これは、メタゲノムのアセンブリ効率を大幅に…

トランスクリプトームから主要なtrasncriptsを選抜する EvidentialGene

EvidentialGeneのtr2aacds.plは、de novo アセンブルツールの結果から生物学的に有用な最良のmRNAセットにクラスタリングするパイプライン。論文は準備中で不明な点もあるが、ポスターによると以下の流れで冗長なtranscirptsを減らすらしい。fastanrdbとcd-h…

複数のトランスクリプトームをマージするtransfuse

transfuseは、フィルターを満たすtranscriptsをクラスタリングし、融合したtranscriptsを作るツール。複数のRNA のアセンブルツールで合成されたtranscriptsをマージし、よりハイグレードなtranscriptsを作るために用いられる。現在、論文準備中とされる。 …

UCLUSTでクラスタリングする

相同な配列をクラスタリングするツール。相同性の下限値を指定してランすると、閾値以上の相同性を持った塩基配列をまとめてくれる。CD-HIT-ESTより高速に動作するとされる。 ダウンロード http://www.drive5.com/uclust/downloads1_2_22q.html マニュアル h…

cd-hitで似た配列をクラスタリングする

似た塩基配列やアミノ酸配列をクラスタリングできるツール。例えば、de novo transcriptome解析でアセンブルを行った後、95%以上似た配列をまとめてlongestのものだけ残しunigeneにする、というような作業を行うことができる。 cd-hit-user-guideより転載。 …