macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

RNA seq解析

diginormによるシーケンスデータの軽量化

"digital normalization"という名で発表されたこの手法は、k-merを指標にリードを間引いて、データサイズを軽量化する方法論。データサイズが大きすぎてアセンブルできないサンプルの軽量化に使えるとされる。トリミングターゲットは、低/高のk-merカバレッ…

cd-hitで似た配列をクラスタリングする

似た塩基配列やアミノ酸配列をクラスタリングできるツール。例えば、de novo transcriptome解析でアセンブルを行った後、95%以上似た配列をまとめてlongestのものだけ残しunigeneにする、というような作業を行うことができる。 ただしde nobo transcritomeに…

アセンブル結果をリードのアライメントパターンから評価する TransRate

Translateはde novo transcriptomeの精度をリードのアライメントのされ方などから評価するツール。発表は2016年だが、すでにいくつかのペーパーに引用されている。BUSCOとTransRateでcore gene数とエラー率を見積もり、アセンブルの精度を担保した上で進める…

de novo transcriptome向けのアノテーションツール; Trinotate  <準備編>

de novo transcriptomeのアノテーションツールとしてblast2GOがよく知られているが、Trinotateというツールが発表された(論文はまだ)。Trinotateは非モデル生物のデータにも対応したde novo transcriptome向けアノテーションツールである。解析・付与でき…

RNAMMERでrRNAを探す。

fastaからrRNA配列を探すツール。アノテーションに使えるのはもちろんだが、それだけでなく、de novo transcriptome解析などで、rRNAにマッピングされるリードを排除するため、rRNAをもれなく検索したい時などにも使えると思われる。 webサーバー版 http://w…

TransDecoderでタンパク質のコード領域を推定する

TransDecoderはアセンブリなどで作ったcDNA配列からコード領域を見つけるツール。 RNA seq実験でdo novo assemblyした配列や、cuflinksなどのgenome guide assemblyなツールで作った配列からコード領域を探す時などに使われる。trinityや Trinotateにも取り…

ゲノム情報はないが、モデル生物と近縁な生物のRNA seq 解析

ゲノム情報はないが近縁種のゲノムが解読されているような生物でRNA seqを行うと決まったら、どんなワークフローで進めるべきだろうか?マイクロアレイと違い、RNA seqならde novoでも解析は不可能ではない。ゲノムがモデル生物とほぼ同じならば、深く考えな…

オオムギのRNA seq解析

勉強会用資料 時系列データ publishされた論文 http://www.sciencedirect.com/science/article/pii/S1631069115000888?via=ihub 利用するシーケンスデータ https://www.ncbi.nlm.nih.gov/Traces/study/?acc=SRP032854 fastaとgtf http://plants.ensembl.org/…

アセンブル結果をCore gene setの検出数で評価する BUSCO

ゲノムのアセンブルやde novo transcriptomeの評価手法の1つに、Core gene setがアセンブルされた配列の中にどれだけあるか調べる方法がある(core genesは構成的に発現していると考える)。そのようなツールとしてCEGMAがよく知られている。CEGMAはversion…

シロイヌナズナのRNA seq解析

勉強会用資料。 論文 https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3566969/ シーケンスデータ https://www.ncbi.nlm.nih.gov/Traces/study/?acc=SRP010481 シロイヌナズナのfastaファイルとgtfファイル http://plants.ensembl.org/info/website/ftp/index…

RNA seqのリードカウント featureCounts

RNA reqのリードカウントツールを紹介する。 featureCounts ダウンロード sourceforgeリンク https://sourceforge.net/projects/subread/files/subread-1.5.2/ インストール ソースコードをダウンロードして解凍し、/srcに移動。macでは以下のようにしてビル…

edgeR

発現が負の二項分布に従うと仮定した検定法。正規化はTMMで行う。FPKM/RPKM補正のcufflinksより正しくDEGの検出ができる検定法とされる。詳細は門多先生のスライドやdry本の序章の正規化の話を読んでください。以下のマニュアルも大変参考になります。後半で…

RNA seqのワークフロー タキシードプロトコル

2012年にnatureでtophatとcufflinksを使ったRNA-seq解析の手法が発表されている。 http://www.nature.com/nprot/journal/v7/n3/full/nprot.2012.016.html tophat、bowtie、cufflinksなどを使ったいわゆるタキシードプロトコルはRNA seqの1つのワークフロー…

CLC genomics workbench (7.0)でRNA seq解析

CLCで行う前提でワークフローを書いてみる。 アダプター配列の確認 アダプター配列はシーケンス->画像からのシグナル取得 -> ベースコールファイル(.bcl) -> FASTQ変換の過程で自動除去されるようだが、インサートが短いペアリードファイルなどでは3'側にア…

RNA seq 非モデル生物の解析

ゲノム情報がない場合、まず最初にアセンブリから始めることになる。RNAのアセンブリはTrinityが有名なのでtrinityを使ってみる。練習データとして、SRAに登録されているレタスのRNA seqデータを使う。 http://trace.ddbj.nig.ac.jp/DRASearch/submission?ac…

RNA seq 其の4 おかしなデータを除いて再挑戦

30hのデータがおかしいので、それ以外の時間で分析を行う。tophatでのマッピングは其の2で行ったので、cuffdiffの定量だけやり直せばよい。これだけでかなり時間を短縮できる。 cuffdiff -o cuffdiff_except-_for_30h -p 20 Chlamydomonas_reinhardtii.v3.1…

RNA seq 其の3 ヒートマップ作成

前回k-means法でクラスタリングするところまでやった。 k=9の結果が以下の通り。 k=9の結果についてヒートマップを書いて見る。 全部を1つのヒートマップに書くとしんどいので、分けて書く。まずは1、2、3のデータパターンが似たものをヒートマップ化す…

RNA seq 其の2 マッピングから統計処理まで

基本的な流れは以下のリンクが参考になる。 github.com 今回はSRAに登録されているクラミドモナスのtime courseデータを使う。クラミドモナスはEnsemblにドラフトだがfastaもgtfも登録されているので非モデル生物より解析は楽になる。 クラミドモナスゲノム…

RNA seq 其の1 クオリティチェック

1、クオリティチェック 変なリードが混じっていると、本来シーケンスされた領域以外の遺伝子にマッピングされたりして解析結果を歪める恐れがある。そのため、シーケンスが終わりBCLからfastqデータが出力されたら、一度クオリティをチェックする。 クオリテ…

真核生物のRNA-seqデータ解析

今回はhumanのデータを使う。重いのでchromosome19に限定して解析する。 ------------準備------------ 1、データ fastaファイル。 FTP Downloadからhumanのfastaファイルをダウンロードする。 Homo_sapiens.GRCh38.dna_rm.chromosome.19.fa rRNAのfastaファ…