macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

2017-03-01から1ヶ月間の記事一覧

RNA seq 非モデル生物の解析

ゲノム情報がない場合、まず最初にアセンブリから始めることになる。RNAのアセンブリはTrinityが有名なのでtrinityを使ってみる。練習データとして、SRAに登録されているレタスのRNA seqデータを使う。 http://trace.ddbj.nig.ac.jp/DRASearch/submission?ac…

Rの基本的なコマンド 忘備録

オブジェクトはgenediffという名前とする。 nrow(genediff) #nrowは行数をカウント [1] 796785 ncol(genediff) #ncolは列数をカウント [1] 11 genediff$gene_id # ”data$列名” で参照したい列を取り出す。 table(genediff$gene_id) #要素の数をカウントするt…

RNA seq 其の4 おかしなデータを除いて再挑戦

30hのデータがおかしいので、それ以外の時間で分析を行う。tophatでのマッピングは其の2で行ったので、cuffdiffの定量だけやり直せばよい。これだけでかなり時間を短縮できる。 cuffdiff -o cuffdiff_except-_for_30h -p 20 Chlamydomonas_reinhardtii.v3.1…

RNA seq 其の3 ヒートマップ作成

前回k-means法でクラスタリングするところまでやった。 k=9の結果が以下の通り。 k=9の結果についてヒートマップを書いて見る。 全部を1つのヒートマップに書くとしんどいので、分けて書く。まずは1、2、3のデータパターンが似たものをヒートマップ化す…

RNA seq 其の2 マッピングから統計処理まで

基本的な流れは以下のリンクが参考になる。 github.com 今回はSRAに登録されているクラミドモナスのtime courseデータを使う。クラミドモナスはEnsemblにドラフトだがfastaもgtfも登録されているので非モデル生物より解析は楽になる。 クラミドモナスゲノム…

RNA seq 其の1 クオリティチェック

追記 1、クオリティチェック 変なリードが混じっていると、本来シーケンスされた領域以外の遺伝子にマッピングされたりして解析結果を歪める恐れがある。そのため、シーケンスが終わりBCLからfastqデータが出力されたら、一度クオリティをチェックする。 ク…

CIRCOS トレーニング2

バクテリアのアセンブルデータをCIRCOSで描画してみる。 最初に、ゲノムサイズが小さいのでメモリのサイズを小さくする必要がある。main.confファイルの中のchromosomes_unitsを10万に変更。 chromosomes_units = 100000 main.confファイルの内容は以下の通…

CIRCOS トレーニング

circosは多様な機能を備えたゲノムのビジュアル化ツールである。類似ソフトにDNA plotter、genome diagram、snap geneなどがあるが、機能の豊富さではcircosが抜きん出てる。circos独自の機能として、遺伝子の相関や相同性を線で表現してlinkageを表す機能が…

large indel(structural variations)の検出ツールまとめ

随時更新 2017 PindelとPlatypusのフローを修正。 2018 brew tap 修正 ,reebayes、lumpyの誤りを修正。誤字修正。 lumpyの流れを見やすく修正。 2019インストール追記, lumpy -svのdockerイメージリンク追加, breseq dockerイメージの使用例追加, 誤字修正と…

IGVのtips 分割表示やGC変化の表示

banファイルを読み込んでリード情報を可視化できるフリーソフト。多様なオプションが用意されており、使いこなすにはかなり勉強が必要。 例を挙げて説明する。 1、Split view 表示 下のようにウィンドウを分けて表示できる。本来はmate-pairの相方リード表示…

InDel_Hunterのマッピングソフト検討

ARTで250bpでカバレッジ100のシングルfastqを生成。マッピングソフトによるカバレッジの差を調べる。 まずはfastqのジェネレート。 art_illumina -ss MSv3 -sam -i input.fasta -p -l 250 -f 100 -s 10 -o single-read マッピングソフトデフォルト条件での平…

ゲノム比較ビューア Artemis comparison tool (ACT)

2019 2/13 condaインストール追記 2020 2/25 コメント追加、3/9 インストール方法変更、5/1 使用例追記 2021 1/8 インストール方法変更(blastを追加)、5/23 インストール手順の誤字修正 2023/10/24 biopythonのインストール方法変更 Artemis comparison tool…

Artemis使用法

2020 3/1 リンク追加 Artemisはサンガー研で開発されたゲノムデータをビジュアルで見れるソフト。ゲノムのデータ(genebakファイルなど)を読み込ませると、遺伝子単位まで拡大して確認できる。ダウンロードはここから http://www.sanger.ac.uk/science/tool…

真核生物のRNA-seqデータ解析

今回はhumanのデータを使う。重いのでchromosome19に限定して解析する。 ------------準備------------ 1、データ fastaファイル。 FTP Downloadからhumanのfastaファイルをダウンロードする。 Homo_sapiens.GRCh38.dna_rm.chromosome.19.fa rRNAのfastaファ…

ggplot2によるグラフ作成

Contig_Hunter_version_0.1.plで解析すると、-R_ggplot2というフォルダの中に4つのファイルが出力される。それをRに読み込ませる。*1 coverage.txt GC.txt length.txt name.txt Rのワーキングディレクトリに4つのファイルをコピーし、Rのターミナル環境で…