macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

other

塩基をハッシング(ハッシュ化)する ntHash

ハッシングは、配列アラインメント、ゲノムおよびトランスクリプトームアセンブリ、 k -mer計数および誤り訂正を含む、多くのバイオインフォマティクスアプリケーションにおける索引付け、照会および迅速類似性検索に広く使用されている。 したがって、ハッ…

様々なインフォマティクスツールを簡単に実行できるサイバー環境 CyVerse

2019 1/10 追記 Cyberinfrastructureは、直訳するとサイバー空間のインフラとなる。計算科学の分野では大規模な計算化学の課題に対する解決策を提供するもの、というような意味で使われている(wiki)。CyVerseはこのCyberinfrastructureを提供する、様々な…

NGSデータ解析マシンのスペックによるデータ解析時間の違い

あけましておめでとうございます。今年もよろしくお願いします。 NGSのデータ解析で時折聞かれるのが、解析マシンのスペックはどれくらいあれば十分かというような質問である。一般的にはメモリリッチで、I/Oが高速で、CPUのマルチスレッドに対応したマシン…

NCBIからvirusゲノムをダウンロードする

Accession IDを使い、virusのゲノム配列(FASTA)をダウンロードする。 NCBIのvirus Genomesに移動する。 左下の方の"Accession list of all viral genomes"をクリックしてvirusのリストをダウンロードする。 このようなリストが入手できる。 user$ head taxid…

bamファイルの分離とマージ

複数回シーケンスしたデータを統合するため、bamファイルをmergeすることがある。 gatkのチームもこの話題を取り上げており、以下のURLで見ることができる。 https://software.broadinstitute.org/gatk/documentation/article.php?id=3060 mergeするにはsamt…

必要なツールへのナビゲート

以下のサイトが利用できる。 http://iseqtools.org

BLAST2GOでアノテーションをつける

basic版をここからダウンロード。インストールが終わったら立ち上げる。 統合TVの説明を参考にした。 BLAST2GOを起動したら、上のメニューからSTART -> Load Sequences -> Broseを選択し読み込むFASTAファイルを選択 -> Openボタンで読み込み。 基本的に左の…

CLC genomics workbench (7.0)でRNA seq解析

CLCで行う前提でワークフローを書いてみる。 アダプター配列の確認 アダプター配列はシーケンス->画像からのシグナル取得 -> ベースコールファイル(.bcl) -> FASTQ変換の過程で自動除去されるようだが、インサートが短いペアリードファイルなどでは3'側にア…

Rの基本的なコマンド 忘備録

オブジェクトはgenediffという名前とする。 nrow(genediff) #nrowは行数をカウント [1] 796785 ncol(genediff) #ncolは列数をカウント [1] 11 genediff$gene_id # ”data$列名” で参照したい列を取り出す。 table(genediff$gene_id) #要素の数をカウントするt…

IGVのtips 分割表示やGC変化の表示

banファイルを読み込んでリード情報を可視化できるフリーソフト。多様なオプションが用意されており、使いこなすにはかなり勉強が必要。 例を挙げて説明する。 1、Split view 表示 下のようにウィンドウを分けて表示できる。本来はmate-pairの相方リード表示…

ggplot2によるグラフ作成

Contig_Hunter_version_0.1.plで解析すると、-R_ggplot2というフォルダの中に4つのファイルが出力される。それをRに読み込ませる。*1 coverage.txt GC.txt length.txt name.txt Rのワーキングディレクトリに4つのファイルをコピーし、Rのターミナル環境で…