読者です 読者をやめる 読者になる 読者になる

BLAST2GOでアノテーションをつける

basic版をここからダウンロード。インストールが終わったら立ち上げる。 統合TVの説明を参考にした。 リンク BLAST2GOを起動したら、上のメニューからSTART -> Load Sequences -> Broseを選択し読み込むFASTAファイルを選択 -> Openボタンで読み込み。 基本…

Waifuで拡大時の画質劣化を抑える

sudo apt update sudo apt install cmake git libgtk2.0-dev pkg-config libavcodec-dev libavformat-dev libswscale-dev sudo apt install python-dev python-numpy libtbb2 libtbb-dev libjpeg-dev libpng-dev libtiff-dev libjasper-dev libdc1394-22-dev…

CLC genomics workbench (7.0)でRNA seq解析

CLCで行う前提でワークフローを書いてみる。 アダプター配列の確認 アダプター配列はシーケンス->画像からのシグナル取得 -> ベースコールファイル(.bcl) -> FASTQ変換の過程で自動除去されるようだが、インサートが短いペアリードファイルなどでは3'側にア…

chainer-goghで画風を取り入れる

怒涛の勢いで機械学習ツールが発表されてきている。化石にならないようにするには、手を動かしてやってみるのが一番なので、勉強を兼ねて有名ツールの実行環境を構築する。 画風を変換するアルゴリズム | Preferred Research これを入れて動かしてみる。 sud…

ubuntuのインストール

機械学習系を利用した様々な手法が公開されているが、以下のツールが興味を引いた。 gigazine.net 写真のピクセルは変化させず色合いを大きく変えることができるみたい。従来のphoshop系の手法でもできるには違いないけど、フィルターをかけたり選択範囲を手…

RNA seq 非モデル生物の解析

ゲノム情報がない場合、まず最初にアセンブリから始めることになる。RNAのアセンブリはTrinityが有名なのでtrinityを使ってみる。データとして、SRAに登録されているレタスのRNA seqデータを使う。 http://trace.ddbj.nig.ac.jp/DRASearch/submission?acc=DR…

Rの基本的なコマンド 忘備録

オブジェクトはgenediffという名前とする。 nrow(genediff) #nrowは行数をカウント [1] 796785 ncol(genediff) #ncolは列数をカウント [1] 11 genediff$gene_id # ”data$列名” で参照したい列を取り出す。 table(genediff$gene_id) #要素の数をカウントするt…

RNA seq 其の4 おかしなデータを除いて再挑戦

30hのデータがおかしいので、それ以外の時間で分析を行う。tophatでのマッピングは其の2で行ったので、cuffdiffの定量だけやり直せばよい。これだけでかなり時間を短縮できる。 cuffdiff -o cuffdiff_except-_for_30h -p 20 Chlamydomonas_reinhardtii.v3.1…

RNA seq 其の3 ヒートマップ作成

前回k-means法でクラスタリングするところまでやった。 k=9の結果が以下の通り。 k=9の結果についてヒートマップを書いて見る。 全部を1つのヒートマップに書くとしんどいので、分けて書く。まずは1、2、3のデータパターンが似たものをヒートマップ化す…

RNA seq 其の2 マッピングから統計処理まで

基本的な流れは以下のリンクが参考になる。 github.com 今回はSRAに登録されているクラミドモナスのtime courseデータを使う。クラミドモナスはEnsemblにドラフトだがfastaもgtfも登録されているので非モデル生物より解析は楽になる。 2、rRNAリードの除去 …

RNA seq 其の1 クオリティチェック

1、クオリティチェック 変なリードが混じっていると、本来シーケンスされた領域以外の遺伝子にマッピングされたりして解析結果を歪める恐れがある。そのため、シーケンスが終わりBCLからfastqデータが出力されたら、一度クオリティをチェックする。 クオリテ…

CIRCOS トレーニング2

バクテリアのアセンブルデータをCIRCOSで描画してみる。 最初に、ゲノムサイズが小さいのでメモリのサイズを小さくする必要がある。main.confファイルの中のchromosomes_unitsを10万に変更。 chromosomes_units = 100000 main.confファイルの内容は以下の通…

CIRCOS トレーニング

類似ソフトにDNA plotter、genome diagram、snap geneなどがあるが、機能の豊富さではcircosが抜きん出てる。ユーザー数も多く、フィードバックも得やすい。難点として、機能が豊富な分使いこなすにはかなり勉強が必要。 幸い、素晴らしく丁寧に解説されたト…

indelの検出ツール

バクテリアでパフォーマンス比較したペーパーが出ている。 The challenge of detecting indels in bacterial genomes from short-read sequencing data 実際に導入して、パフォーマンスを比較してみる。 Break-dancer-max Chen et al. (2009) PEM法 macOSX環…

IGVの使い方

banファイルを読み込んでリード情報を可視化できるフリーソフト。多様なオプションが用意されており、使いこなすにはかなり勉強が必要。 例を挙げて説明する。 1、Split view 表示 下のようにウィンドウを分けて表示できる。本来はmate-pairの相方リード表示…

InDel_Hunterのマッピングソフト検討

ARTで250bpでカバレッジ100のシングルfastqを生成。マッピングソフトによるカバレッジの差を調べる。 まずはfastqのジェネレート。 art_illumina -ss MSv3 -sam -i input.fasta -p -l 250 -f 100 -s 10 -o single-read マッピングソフトデフォルト条件での平…

Artemis comparison tool (ACT)の使用法

2つ以上のゲノムを比較して、塩基配列同一性の高い領域を描画するソフト。3つ以上のゲノムを同時に比較することも可能。必要なのは比較する生物種ごとのfastaファイルと遺伝子のアノテーションファイル(genebankフォーマットなど)。 1、ブラスト解析 は…

Artemis使用法

Artemisはサンガー研で開発されたゲノムビューアソフト。genebakファイルなどを読み込ませて遺伝子情報を可視化できる。ダウンロードはここから http://www.sanger.ac.uk/science/tools/artemis Macなら、写真のMac OSをクリック。自動的にダウンロードが開…

真核生物のRNA-seqデータ解析

今回はhumanのデータを使う。重いのでchromosome19に限定して解析する。 ------------準備------------ 1、データ fastaファイル。 FTP Downloadからhumanのfastaファイルをダウンロードする。 Homo_sapiens.GRCh38.dna_rm.chromosome.19.fa rRNAのfastaファ…

ggplot2によるグラフ作成

Contig_Hunter_version_0.1.plで解析すると、-R_ggplot2というフォルダの中に4つのファイルが出力される。それをRに読み込ませる。*1 coverage.txt GC.txt length.txt name.txt Rのワーキングディレクトリに4つのファイルをコピーし、Rのターミナル環境で…