macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

その他

NCBIからvirusゲノムをダウンロードする

Accession IDを使い、virusのゲノム配列(FASTA)をダウンロードする。 NCBIのvirus Genomesに移動する。 左下の方の"Accession list of all viral genomes"をクリックしてvirusのリストをダウンロードする。 このようなリストが入手できる。 user$ head taxid…

bamファイルの分離とマージ

複数回シーケンスしたデータを統合するため、bamファイルをmergeすることがある。 gatkのチームもこの話題を取り上げており、以下のURLで見ることができる。 https://software.broadinstitute.org/gatk/documentation/article.php?id=3060 mergeするにはsamt…

必要なツールへのナビゲート

以下のサイトが利用できる。 http://iseqtools.org

BLAST2GOでアノテーションをつける

basic版をここからダウンロード。インストールが終わったら立ち上げる。 統合TVの説明を参考にした。 リンク BLAST2GOを起動したら、上のメニューからSTART -> Load Sequences -> Broseを選択し読み込むFASTAファイルを選択 -> Openボタンで読み込み。 基本…

CLC genomics workbench (7.0)でRNA seq解析

CLCで行う前提でワークフローを書いてみる。 アダプター配列の確認 アダプター配列はシーケンス->画像からのシグナル取得 -> ベースコールファイル(.bcl) -> FASTQ変換の過程で自動除去されるようだが、インサートが短いペアリードファイルなどでは3'側にア…

Rの基本的なコマンド 忘備録

オブジェクトはgenediffという名前とする。 nrow(genediff) #nrowは行数をカウント [1] 796785 ncol(genediff) #ncolは列数をカウント [1] 11 genediff$gene_id # ”data$列名” で参照したい列を取り出す。 table(genediff$gene_id) #要素の数をカウントするt…

ggplot2によるグラフ作成

Contig_Hunter_version_0.1.plで解析すると、-R_ggplot2というフォルダの中に4つのファイルが出力される。それをRに読み込ませる。*1 coverage.txt GC.txt length.txt name.txt Rのワーキングディレクトリに4つのファイルをコピーし、Rのターミナル環境で…