macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

samblasterでduplicationリードにタグをつける

samblasterは、samファイルのduplicationのリードにタグをつけたり、構造変化の指標となるsplit-alingment readやdiscordant read pairを別ファイルに出力できるツール。samの時点でデータをより分けることで、discordant read pairやsplit-alingment readを…

FastQValidatorでfastqデータを検証する。

FastQValidatorは、fastqのフォーマットを検証しておかしなリードが含まれるのか調べることができるツール。具体的には、1つだけファイル名がおかしかったり(ヘッダーが@で始まっていないとか短すぎるとか)、数塩基しかないようなリードが混じっているか…

変異のフィルタリングを行うSnpSift

以前SnpEffという変異のアノテーションを行うことができるツールを紹介した(リンク)。このツールにはもう一つSnpSiftというツールが同梱されている。SnpSiftは変異コール結果のVCFファイルを扱うツールで、クオリティやp値など様々な指標に基づいて変異を…

ユーザー定義の変異を再現可能なfastqのシミュレーター NEAT-genReads

NEAT-genReadsは2016年に発表されたfastqをシミュレートできるツール。変異のVCFファイルなどの情報も与えて現実に近いfastqを発生させることができる。fastq以外にポジコンとして使えるbamやVCFファイルも生成されるため、indel検出ツールの妥当性をポジコ…

ナノポアのONTリードのシミュレーター NanoSim

NanoSImは2017年に発表されたOxford nanoporeのロングリードのシミュレーター。ユーザーが指定したONTリードからプロファイルを作成し、それに基づいてロングリードを発生させることができる。 インストール Github https://github.com/bcgsc/NanoSim 依存 L…

SNVやindel変異を再現できるfastqのシミュレーターwgsim

wgsimはfastqをシミュレートできるツールである。シーケンスエラーを再現したり、diploidゲノムの多型を想定して、一定の確率で変異を入れることができる(indelシーケンスエラーは再現されない)。 wgsimはARTなどのツールでは不可能な300bp以上の配列を発…

NCBIで全データを一度にblast解析し、得られたリストをEntrez Directでアノテーションに変換する。

複数の配列のblast解析を行う場合、ローカルでデータベースなどを構築して進めるのが一つの手である。しかしローカルだとデータベースの更新や、データサイズが問題になる(例えばnrのデータも2015年にダウンロードすると200GBを超えていた)。 ネットワーク…

fastq / fastaの操作ツール seqkit

2016年に発表されたfastqの操作ツール。競合ツールより多機能とされる。seqtkと同様、動作は非常に早い。メモリ使用量はseqtkより少ないとされる。 マニュアル Usage - SeqKit - Ultrafast FASTA/Q kit チュートリアル Tutorial - SeqKit - Ultrafast FASTA/…

MetaPhlAn2によるメタゲノムデータの解析

MetaPhlAn2は、メタゲノムシーケンスデータから、どのような生物がどのくらいの割合でいるのか評価するツールである。種の同定が可能なのは、著者らが要した100万以上のマーカー遺伝子が生物と紐付けされていて、そのデータベースの配列にアライメントを行う…

PanPhlAnによるメタゲノムのプロファイリング

PanPhlAnはメタゲノムをstrainレベルで解析するツール。調べるのは遺伝子の有り/無しで、データベースのゲノムと比較することでメタゲムシーケンスしたバクテリアの特定の種に、実際にはどれくらいの多様性があるか(どれくらいのstrainが混じっているか)を…

ウィルスゲノムのアセンブルツール IVA (Iterative Virus Assembler)

IVA (Iterative Virus Assembler)はウィルス用のDNAアセンブラ。2015年に発表された。カバレッジが大きく変動するウィルスゲノムのアセンブルに対応しているとされる。入力データはilluminaのペーアドエンドである。前もって作ったcontigからscaffoldを作っ…

diginormによるシーケンスデータの軽量化

"digital normalization"という名で発表されたこの手法は、k-merを指標にリードを間引いて、データサイズを軽量化する方法論。データサイズが大きすぎてアセンブルできないサンプルの軽量化に使えるとされる。トリミングターゲットは、低/高のk-merカバレッ…

cd-hitで似た配列をクラスタリングする

似た塩基配列やアミノ酸配列をクラスタリングできるツール。例えば、de novo transcriptome解析でアセンブルを行った後、95%以上似た配列をまとめてlongestのものだけ残しunigeneにする、というような作業を行うことができる。 ただしde nobo transcritomeに…

fastq / fastaの操作ツール seqtk

seqtkはfastqをfastaに変換したり、相補鎖に変換できるツール。ランダムサンプリング機能ももち、de novo transcriptome解析でアセンブルに有利なリードデプスに間引くツールとして用いられることもある(ペーパー)。動作が非常に高速のため使いやすい。似…

OrthoFinderでオルソロググループを探索する

リファレンスのタンパク質情報を元に、オーソロガスなタンパク質を見つけたり、その系統樹を描いてくれるツール。 de novo transcriptome解析のアノテーション時にも用いられている。 公式のGithubにとても丁寧な説明があるので、そちらをご覧ください。 Ort…

アセンブル結果をリードのアライメントパターンから評価する TransRate

Translateはde novo transcriptomeの精度をリードのアライメントのされ方などから評価するツール。発表は2016年だが、すでにいくつかのペーパーに引用されている。BUSCOとTransRateでcore gene数とエラー率を見積もり、アセンブルの精度を担保した上で進める…

de novo transcriptome向けのアノテーションツール; Trinotate  <準備編>

de novo transcriptomeのアノテーションツールとしてblast2GOがよく知られているが、Trinotateというツールが発表された(論文はまだ)。Trinotateは非モデル生物のデータにも対応したde novo transcriptome向けアノテーションツールである。解析・付与でき…

TMHMMで膜貫通領域を予測する

TMHMMは膜貫通領域を予測するツール。膜タンパク質であるかどうかの判定にも用いられる。 webサーバー版 http://www.cbs.dtu.dk/services/TMHMM/ マニュアル 解凍したディレクトリにユーザーガイド(TMHMM2.0.html)あり。 TMHMM2.0 インストール 依存 perl …

HMMERでタンパク質ドメインを検索する

HMMERはタンパク質のドメイン検索に使われるツール。Pfamなどのタンパク質ドメインのデータベースを使い、ドメインの検索を行ってアノテーションをつけることができる。ここではhmmscanを試す。 webサーバー https://www.ebi.ac.uk/Tools/hmmer/ マニュアル …

RNAMMERでrRNAを探す。

fastaからrRNA配列を探すツール。アノテーションに使えるのはもちろんだが、それだけでなく、de novo transcriptome解析などで、rRNAにマッピングされるリードを排除するため、rRNAをもれなく検索したい時などにも使えると思われる。 webサーバー版 http://w…

TransDecoderでタンパク質のコード領域を推定する

TransDecoderはアセンブリなどで作ったcDNA配列からコード領域を見つけるツール。 RNA seq実験でdo novo assemblyした配列や、cuflinksなどのgenome guide assemblyなツールで作った配列からコード領域を探す時などに使われる。trinityや Trinotateにも取り…

signalPでシグナルペプチド切断部位を予測する

SignalPは、タンパク質のシグナル配列の切断部位を予測するツール。商用の解析ソフトCLCにも導入されている。 web server版とローカル版がある。 signalIP4.1 webサーバー http://www.cbs.dtu.dk/services/SignalP/ web server版は統合TVを参考にしてくださ…

ゲノム情報はないが、モデル生物と近縁な生物のRNA seq 解析

ゲノム情報はないが近縁種のゲノムが解読されているような生物でRNA seqを行うと決まったら、どんなワークフローで進めるべきだろうか?マイクロアレイと違い、RNA seqならde novoでも解析は不可能ではない。ゲノムがモデル生物とほぼ同じならば、深く考えな…

フォーマット変換 FASTA => BED

fasta.faiから作る。 samtools faidx input.fasta awk '{print $1 "\t0\t" $2}' input.fasta.fai > output.bed またはpythonのスクリプトを使う。 pip install pyfaidx faidx --transform bed input.fasta > output.bed ヒトゲノムhg19ならこのようなbedがで…

BEDフォーマット

UCSCのゲノムブラウザーなどで使うフォーマットである。最初の3列が必須で、オプションでさらに9列情報がつく場合がある、BED形式は、最近ではインフォマティクスツールに使われる事もある。 最初の3列に記載する情報 クロモソームの名前(e.g., chr1) リ…

フォーマット変換 VCF, GTF, GFF => BED

BEDヘの変換はawkやperlやpythonのスクリプトで簡単にできるが、BEDOPSのvcf2nedを使うと、indelの種類などによってフィルタリングしながら分類することができ便利である。 BEDOPSがない人はbrewで入れておく。 brew install BEDOPS 公式マニュアル http://b…

bedtoolsでpromoter配列を抽出する。

Biostarとbedtoolsの公式サイトに、bedtoolsを使ったpromoter配列の抽出の仕方がまとめられている(How To Use Bedtools To Extract Promoters From A Mouse Bed File)。試してみる。 このようなbedファイルの各featureの上流を抽出する。 user$ head -5 ge…

オオムギのRNA seq解析

勉強会用資料 時系列データ publishされた論文 http://www.sciencedirect.com/science/article/pii/S1631069115000888?via=ihub 利用するシーケンスデータ https://www.ncbi.nlm.nih.gov/Traces/study/?acc=SRP032854 fastaとgtf http://plants.ensembl.org/…

bedtools

BEDファイルのオーバーラップ領域を抽出したり、マージしたりできるツール。BED以外にGFF、VCFも扱うことができる。bedtools <command> -a .bed -b .bedという使い方が基本。-aで指定したbedを-bで指定したbedと比較する。出力はリダイレクト(>)で指定しないと標準</command>…

IGVが重い時のtips

IGV

IGVにbamファイルを読み込むと重くて困ることがある。表示を軽くするためのtipsを書いておく。 bamを読み込んでリードが見えるまで拡大した状態。 view -> Preference 赤枠部分を以下のように修正。 リードがダウンサンプリングされ、動作が軽くなった。 ま…

bamからbigWigとWiggle Formatに変換するツール

bamからwiggleファイルに変換してカバレッジのtrackをviewerのトラックに取り込みことができる。ただしそれにはsamtoolsのpileupを使いbamからwiggleファイルを作る必要があり、作り方がやや面倒だった。現在では、ありがたいことにコマンド一発でwiggleファ…

eukaryotesのアノテーションツール; Augustus

Augustusはblast2goでも使われているeukaryotesのアノテーションツール。既存の他の手法と比較しても精度が高い手法と述べられている(検証リンク)。高速なwebサーバー版と、RNA-seqのbamファイルを指定してexon-intron情報を与え、予測精度を上げるlocal版…

アセンブル結果をCore gene setの検出数で評価する BUSCO

ゲノムのアセンブルやde novo transcriptomeの評価手法の1つに、Core gene setがアセンブルされた配列の中にどれだけあるか調べる方法がある(core genesは構成的に発現していると考える)。そのようなツールとしてCEGMAがよく知られている。CEGMAはversion…

シロイヌナズナのRNA seq解析

勉強会用資料。 論文 https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3566969/ シーケンスデータ https://www.ncbi.nlm.nih.gov/Traces/study/?acc=SRP010481 シロイヌナズナのfastaファイルとgtfファイル http://plants.ensembl.org/info/website/ftp/index…

RNA seqのリードカウント featureCounts

RNA reqのリードカウントツールを紹介する。 featureCounts ダウンロード sourceforgeリンク https://sourceforge.net/projects/subread/files/subread-1.5.2/ インストール ソースコードをダウンロードして解凍し、/srcに移動。macでは以下のようにしてビル…

edgeR

発現が負の二項分布に従うと仮定した検定法。正規化はTMMで行う。FPKM/RPKM補正のcufflinksより正しくDEGの検出ができる検定法とされる。詳細は門多先生のスライドやdry本の序章の正規化の話を読んでください。以下のマニュアルも大変参考になります。後半で…

IGVをコマンドラインから起動する

IGV

IGVはいくつかのバージョンが提供されいる。デスクトップにショートカットを作ってjavaのwebスタート版を使っている人もいるかもしれないが、コマンドラインから叩くやり方も知っておくと便利である。 まずigvをbrewで導入しておく。igvtoolsも入れておくと…

RNA seqのワークフロー タキシードプロトコル

2012年にnatureでtophatとcufflinksを使ったRNA-seq解析の手法が発表されている。 http://www.nature.com/nprot/journal/v7/n3/full/nprot.2012.016.html tophat、bowtie、cufflinksなどを使ったいわゆるタキシードプロトコルはRNA seqの1つのワークフロー…

複数のトランスポゾン検出ツールをまとめてインストールして、ランするスクリプト

Githubで公開されているmcclintockは複数のトランスポゾン検出ツールをまとめて走らせることができるツールである。以下の6つのツールを走らせてくれる。 ngs_te_mapper - Linheiro and Bergman (2012) RelocaTE - Robb et al. (2013) TEMP - Zhuang et al.…

トランスポゾン検出ツール5 RelocaTEとRelocaTE2

RelocaTE RelocaTEはゲノム中のトランスポゾンを検出する手法。トランスポゾンの配列を入力してランする。 検出するトランスポゾンの配列、ターゲット配列、などがわかっていないと正しく機能しない。 依存するもの Blat Bowtie 1 BioPerl SAMtools BWA Reco…

トランスポゾン検出ツール4 IS_mapper

見つけたいIS配列や抗生物質耐性カセット配列をあらかじめ入力することで、ペアエンド情報を使いISの位置を検出してくれるツール。バクテリア用に設計されており、macbook airなどのlaptopでも高速に動作する。トランスポゾンやマーカー遺伝子でタギングした…

トランスポゾン検出ツール3 Jitterbug

ショートリードのアライメントデータから、トランスポゾン挿入位置を検出するツール。入力はリファレンスにアライメントしたbamファイルで、トランスポゾン配列を準備してアライメントする必要はない。配列の位置がgff3で入力されていればよい。その代わりに…

トランスポゾン検出ツール2 ngs_te_mapper

ショートリードをリファレンスゲノムにアライメントし、de novoでトランスポゾン挿入部位を検出する。論文ではBLATをアライメントに使っていたが、gitでダウンロードできる現バージョンはbwaでアライメントを行うようになっている。トランスポゾン挿入時にト…

インフォマティクス解析に使えるコマンドの紹介1 excelからのデータ抽出

バイオインフォマティクス解析の初心者の方が、ターミナル環境を扱う際に知ってると便利そうなコマンド、tipsなどを紹介していきます。 Excelの重たい解析データも、ターミナルで操作すればサクサク扱うことができます。ということで、最初は 1、Excelファ…

トランスポゾン検出ツール1 MELT

MELTは、iiluminaのペアエンドデータを使いリファレンスに存在しないmobile elementを検出するツール。以前1000 genomeで使われていたが、その後バージョンアップにより様々なゲノムに対応するようになった。SGEの分散コンピュータ環境から、SGEを使わない環…

Reference-assisted assembly3 ABACAS

ABACASはサンガー研の開発したReference-assisted assemblyなアセンブル法である。2009年に論文が発表された。サンガー研のACTやMummerの機能と連携しており、ランと結果の分析にはこの2つがインストールされている必要がある。その他の特徴として、primer3…

フォーマット変換 bam=> Fastq

いくつか方法があるが、例えばbam2fastqを使う。ただし、公式サイトでは今後は使用非推奨で、代わりにpicardを使ってと記載されています。これまでのデータであれば問題ないと思われますが、注意して使ってください。 ダウンロード 公式サイト Genomic Servi…

フォーマット変換 genebank => fasta

以前紹介したラッパーツールbwastを使うと楽にできる。 bwast.py sample1.gbk sample2.gbk 正規表現をサポートしているので、うまくワイルドカードを使えば大量のgenebakファイルから同時にfastaを抜き出すこともできる(正し*gbkと打っても受け付けない)。…

Reference-assisted assembly 2 RACA

RACA Reference-assisted assembly を行うツール。解析にはリファレンスとアウトグループが必要である。 論文では、RACAを使いGAGEのゴールデンデータセットをアセンブルしたデータや、Tibetan antelope(ウシ科のチルー)のアセンブルデータが使われている…

Reference-assisted assembly1 ragout

近縁種の既知のゲノム情報を使い、アセンブルを助ける手法がいくつか報告されている。いくつかインストールして使い勝手を検証してみる。 ragout small genomeとlarge genomeいずれにも使えるツール。2014年に発表された(ref.1)。複数の近縁ゲノムを使うこ…