macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

ゲノムの相同性の高い領域の網羅的な検索 MUMmer

MUMmerはゲノム全体を高速にアライメントするオープンソースのツールである。MUMmerは、Finisihしたゲノムだけでなくドラフトゲノムでも使用でき、容易に何百あるcontigのアライメントを行うことができる。最初の論文が発表されたのは1999年であるが(ref.1…

ゲノム比較のmurasakiと結果を表示するGMV

murasakiは複数ゲノムの相同性ある領域の探索を高速に行うツールで、GMVはその比較結果を見るためのビューアソフトである。領域によってカラフルな色がつくので、ゲノムリアレンジメントなどの構造変化をわかりやすく示すことができる。 公式サイト murasaki…

ゲノム比較 x 変異コール x ビューア を統合したソフト Mauve

mauveはよく似たゲノムのアライメントを行い、その結果を見やすいビューアで表示して比較できるソフトである。Mac、windows、Linux版が用意されており、無償でダウンロードできる。 ダウンロードは公式サイトから行う。 the Darling lab | computational (me…

Oxford NanoporeリードのFAST5 => FASTA / FASTQ変換

MNIONのシーケンスデータはFAST5というフォーマットで出力される。FAST5はHDF5という時系列データ関係でよく使われる形式に乗っ取っているらしい。塩基配列になっていないバイナリーなデータのため、ビューアソフトで開いても文字化けしてしまう。 このデー…

Oxford Nanoporeリードのアセンブリ パフォーマンス比較

S. cerevisiaeとE.coli K12をilluminaとnanoporeで読んだ論文のデータ が公開されている。 http://schatzlab.cshl.edu/data/nanocorr/ このデータを使い、2017年6月現在のナノポアリードのパフォーマンスを調べてみる。 上記URLからMinionとilluminaのシーケ…

ショートリードのアダプタートリミングツール

これまで様々なアダプタートリミングツールが報告されてきた。OMIC toolsで検索すると、2017年6月で35件ヒットする(OMIC toolリンク)。ただしFastQC、cutadapt、Fastx-toolkitなどよく使われるツールは限定されている。Trim Galore!はFastQCとcutadaptを内…

ナノポアのアセンブルデータのキュレーション及び変異の検出 nanopolish

ナノポアリードでアセンブルしたcontigのエラー修復と、変異のコールを行うツール。 インストールから動作まで見ていく。 ダウンロード Github HP GitHub - jts/nanopolish: Signal-level algorithms for MinION data インストール mac ではビルドできないと…

Oxford Nanoporeリードのアセンブリ smartdenovo

Githubリンク smartdenovo/README.md at master · ruanjue/smartdenovo · GitHub インストールからランまでの流れを見ていく。 git clone https://github.com/ruanjue/smartdenovo.git && (cd smartdenovo; make) gitでダウンロードし、カレントディレクトリ…

ナノポアのアダプタートリミングツール Porechop

PorechopはOXford Nanoporeのリードのアダプタートリミングツール。データベースを保持しており、自動でアダプター配列を認識し除去してくれる。マルチプレックスのidnex配列を除く機能も持つ。 ダウンロードリンク GitHub - rrwick/Porechop: Adapter trimm…

sam/bamファイルを変換、編集したり分析するためのツール

とにかく色々なツールがあり混乱するが、データ処理するため、使えると便利なものもある。代表的なツールの機能を紹介する。 bcftools 非常にたくさんのコマンドがある。よく使うだろうコマンドを紹介する。 brewでインストールできる。 brew install bcftoo…

contigからscaffoldを作るツールの検証

アセンブルして作ったcontigをペアリード情報やロングリード情報を使って統合し、Scaffoldを作るツールがいくつか発表されている。代表的なものをインストールしてテストした。 ツールのインストール テストには2種のバクテリア、Nostoc pcc 7120(Taxonomy …

フォーマット変換 Fastq=> Fasta

awkのコマンドで一発でできる。 awk '(NR - 1) % 4 < 2' test.fq | sed 's/@/>/' > test.fa

バクテリア、ウィルス、アーキアのアノテーションツール; Prokka

Prokkaは、バクテリア、アーキア、ウィルスのアノテーションツール。はじめにblast+でcore geneを特定し、それからHMMER3を使ってより精度の高い分析が行われる。 インストールはbrewで簡単にできる。公式サイトに従い、まずperlのモジュールをインストール…

Oxford Nanoporeリードのアセンブリ MiniasmとNanopolish

MiniasmはPacbioのロングリードやナノポアのロングリードのアセンブルツールで2015年に論文が発表された (ref.1)。アルゴリズムはオーバーラップ法になる。アセンブル時間が非常に短いのが特徴で、ナノポアリードのアセンブルの比較ペーパーでは、競合アセン…

Pacbioロングリードのシミュレーター

PBSIMはPacbioリードのシミュレーションを行うツールである。ユーザーの持っているPacbioデータをもとにリードの長さやクオリティをシミュレートすることもできるため、実際の解析に適用しやすい。 GitHub - pfaucon/PBSIM-PacBio-Simulator: This is an upd…

contigからScaffoldを作るツール

contigからScaffoldを作るツールがいくつか発表されているので試してみる。 SSPACE-LONGREAD ダウンロードリンク https://www.baseclear.com/genomics/bioinformatics/basetools/SSPACE-longread ダウンロードには上記リンクから名前や所属の入力が必要。登…

Oxford Nanoporeリードのアセンブリ canu

セレラのアセンブラのforkとして派生してできたCanuというアセンブラが良さげである。CanuはPacbioやnanoporeなどの1分子シーケンス用のアセンブラとして開発された。 下記にはCanuを使ってヒトゲノムのアセンブリを行った例が紹介されている。 canuはPBcR…

ナノポアリードの分析ツール

2017年現在、すでにOXford nanoporeの分析ツールは色々発表されている。いくつかインストールとして実際に使ってみた結果を紹介する。 NanoOK インストール マニュアルページ https://documentation.tgac.ac.uk/display/NANOOK/NanoOK+tutorial 本体以外に必…

ゲノムの相同性の高い領域の網羅的な検索 LAST

マニュアル http://last.cbrc.jp/doc/last-tutorial.html brewで導入可能。 brew install LAST 相同性の高い領域を検索するには、はじめに比較するリファンレスゲノム(ref.fa)のインデックスを作る必要がある。 lastdb -cR01 db ref.fa いくつか.dbファイ…

Oxford Nanoporeリードのマッピング

bwa memとLASTがナノポア向けにチューニングされたとナノポア公式ページでアナウンスされている。 https://nanoporetech.com/publications/bwa-and-last-have-been-tuned-work-nanopore-reads bwa memはショートリード時代から1Mbpのリードのマッピングに対…

genebankファイルのblast解析を簡単に行い、比較ツール起動までをサポートするラッパースクリプト

ローカルblastは通常genebankファイルを扱えない。そのため、ACTのようなツールでゲノム比較を行うためには以下のような面倒な流れを取る必要がある。 gbkファイルの入手。 ↓ fastaファイルの抽出(またはgenebankと同じfaファイルの入手) ↓ ローカルblast…

CGView Comparison Toolによるゲノム比較 実践編 -大量のバクテリアゲノムの同時比較

インストールは以下で説明しています。 チュートリアルの総仕上げとして、CCTのコマンドfetch_all_refseq_bacterial_genomes.shを使って、登録されているバクテリアのrefseq配列全てを自動ダウンロードして、リファレンスゲノムと比較してみることにする。リ…

CGView Comparison Toolによるバクテリアのゲノム比較7 -大量のミトコンドリアゲノムの同時比較

インストールは以下で説明しています。 公式ページのチュートリアル7を実践していく。 人のミトコンドリアゲノムを、他の生物のミトコンドリアゲノムと比較する。 ミトコンドリアゲノムNC_012920をダウンロードする。 fetch_genome_by_accession.sh -a NC_01…

CGView Comparison Toolによるバクテリアのゲノム比較6 -次世代リードのアライメント

次はCCTを使って次世代データをリファレンスに当てて、リードの張り付きをビジュアル化するチュートリアルを見ていく(公式ページチュートリアル6)。 CCTのインストールは以下で説明しています。 francisellaプロジェクトをビルドする。 cgview_comparison_…

CGView Comparison Toolによるバクテリアのゲノム比較5 - ゲノム比較とモニタージュ合成

葉緑体、ミトコンドリアの次は、CCTを使って複数ゲノムを比較するチュートリアルを見ていく(公式ページチュートリアル5)。 CCTのインストールは以下で説明しています。 全体比較は手順が異なる。まずbuild_blast_atlas_all_vs_all.shコマンドを使い、新し…

CGView Comparison Toolによるバクテリアのゲノム比較4 - ミトコンドリアゲノムの比較

葉緑体ゲノムに続き、CCTを使ってミトコンドリアゲノムを比較するチュートリアルを見ていく(公式ページチュートリアル4)。 CCTのインストールは以下で説明しています。 前半は以前のクロモソーム、プラスミドと同じなので簡潔に説明する。 まずはドブネズ…

CGView Comparison Toolによるバクテリアのゲノム比較3 - 葉緑体ゲノムの比較

プラスミド、クロモソームに続き、CCTを使って葉緑体ゲノムを比較するチュートリアルを見ていく(公式ページチュートリアル3)。 CCTのインストールは以下で説明しています。 前半は以前のクロモソーム、プラスミドと同じなので簡潔に説明する。 まずはPorph…

CGView Comparison Toolによるバクテリアのゲノム比較2 - クロモソームの比較

インストールは以下で説明しています。 プラスミドに続き、E.coliのゲノムを他のE.coliゲノムと比較してみる(公式ページのチュートリアル2)。 ゲノムをダウンロード。 fetch_genome_by_accession.sh -a CP001855 -o ./ CP001855.gbkがダウンロードされる。…

CGView Comparison Toolによるバクテリアのゲノム比較1 - プラスミド

インストールは以下で説明しています。 チュートリアル1なので、やや丁寧に説明していく。 インストールが終わったら、CCTのチュートリアルにある図の描画を実践していく。初めての人は下のコマンドを順にコピペしていけばよい。 初回はE.coliのプラスミドE…

CGView Comparison Toolによるバクテリアのゲノム比較 インストール編

CGView Comparison ToolはStothardの研究グループが公開しているバクテリアやプラスミドのゲノム比較ツール(以下CCT)である。複数ゲノムを比較して描画する機能を持つ。以下のような美しい図が簡単なコマンド指定だけで描ける。 比較ゲノム結果をビジュア…

GTFとGFFフォーマット

GTFはgeneのアノテーション専用のフォーマットと定義されている。それに対してGFF3はtranscriptなどにも使えるよりジェネラルなフォーマットとなっている。この違いのため、例えばUCSC genomeではgeneアノテーションファイルはgtfフォーマットでのみダウンロ…

Tandem duplicationの検出テスト

最後はtandem duplicationのテスト結果についてまとめる。 検証 逆位の場合と同じようにシミュレーションデータを使って検証した(read-pairは除く)。結果だけ箇条書きする。 read-pair法のBreakdancerは100 bp以上のtandem duplicationを全て検出した。 Sp…

Inversionの検出テスト

・検証 リアルデータでは既知の逆位変異がなかったので、シミュレーションデータだけ使って3手法のパフォーマンスを検証した。箇条書きで記す。 read-pair法のBreakdancerは、100 bp以上の逆位を100%検出した。 Split-read法のPindelは10bp -10 kbの逆位を10…

large insertionの検出テスト

欠損に続き挿入も検出できるかテストしたので報告する。 検証 deletionと同じようにシミュレーションとリアルデータ両方を使って、read-pair以外の手法を検証した。論文化がまだなので、結果だけ箇条書きする。 read-pair法のBreakdancerはシミュレーション…

large deletionの検出テスト

以前、構造変化を検出する4つの方法を紹介した。 4つの原理を利用したツールは論文もソースコードも探せば無償で入手できるので、興味があればインストールして自分のデータを解析することも可能である(このブログでも紹介している)。ただしペーパーでは…

bamファイルの分離とマージ

複数回シーケンスしたデータを統合するため、bamファイルをmergeすることがある。 gatkのチームもこの話題を取り上げており、以下のURLで見ることができる。 https://software.broadinstitute.org/gatk/documentation/article.php?id=3060 mergeするにはsamt…

サンプル間で共通する変異と固有の変異を抽出する

以前ショートリードからindelとSNVを検出するワークフローを紹介した。 複数サンプルがある場合、上記のような方法でVCFファイルを出力した後、サンプル間で共通のSNPs、サンプルごとに固有のSNPsなどを絞り込む必要が出てくるシチュエーションは多いと思わ…

small indelとSNV検出のワークフロー 準備編

この投稿はSNVとindel検出に必要なツールの準備編です。 実際の検出のワークフローは以下のエントリーを確認してください。 --準備するもの-- 解析に必要なソフト GATK BWA Picard Samtools Bedtools SnpEff R (解析の途中で読み込まれ画像ファイルなどを出…

GATKでの変異のフィルタリング条件の分析

前回、ニューヨーク大のindel検出のワークフローを紹介したが、その中で Haplotypercallerの検出結果のフィルタリングを以下のような条件で行なった。 java -jar GenomeAnalysisTK.jar -T VariantFiltration -R ref.fa -V raw_snps.vcf --filterExpression '…

バリアントコール結果のVCFフォーマット

詳細はsamtoolsのVCFフォーマットオフィシャルページに書いてあるが、ここでもう少し噛み砕いて説明する。 以下はGATK haplotypecallerで変異検出して出力されたVCFファイルのコメント1行と変異コールの1行を表示したものである。 #CHROM POS ID REF ALT Q…

small indelとSNV検出のワークフロー

SNVやsmall indel検出については精度の高いワークフローがすでに確立されている。例えば下記のニューヨーク大のHP https://gencore.bio.nyu.edu/variant-calling-pipeline/ には、SNVとsmall indel検出ワークフローが記載されている。流れを説明すると bam作…

SnpEffを使ってindel検出結果のアノテーションを行う

多くのindel検出ツールは変異のポジションしか出力しないため、その変異がどのようなアミノ酸変化を引き起こすか、サイレントなのかは別途調べる必要がある。ただし手動でやるのはしんどいし、間違いの元になる。snpEffはこうした作業をサポートするプログラ…

必要なツールへのナビゲート

以下のサイトが利用できる。 http://iseqtools.org

ショートリードからの構造変化検出4, Tandem duplication

・検出原理 他にも構造変化の種類はあるが、4回目の今回で最後とする。図はTandem duplicationを 捉える例を示している。 Tandem duplicationは配列の挿入が起きているので、広義では挿入の1種と考えられる。ただし、1つ目の配列の隣に挿入されるため、ペ…

ショートリードからの構造変化検出3, Inversion

欠損、挿入に続き、逆位の構造変化を捉える3つの手法についてまとめる。 ・原理 図は逆位 (Inversion) を捉える例を示している。 ・Aのread-count方法ではInversion変異を検出することはできない。 ・read-pair法 (B) ではリファレンスに異常な向き(--> -->…

ショートリードからの構造変化検出2, large Insertion

ショートリードを使った4つの手法による挿入の検出原理を簡潔に説明する。 ・検出原理 次の図は挿入変異を4つの手法で捉える例を示している。 Aのresd-count方法ではリードの増減がないので、挿入変異を検出することはできない。 read-pair法 (B) ではリフ…

ショートリードからの構造変化検出1, large deletion

ショートリードから大きなindelを検出する手法は、大きく4つに分けられる。手法の詳細は論文にまとめられている。 Genome structural variation discovery and genotyping http://www.nature.com/nrg/journal/v12/n5/full/nrg2958.html Detection of genomic…

マッピングソフト(アライナー)のパラメータ設定

日付は古いが、Biostarsにアライナー比較のディスカッションがあった。 When and why is bwa aln better then bwa mem? 質問はbwa alnの優位点は何かということみたいだが、回答者がエボラゲノムをシミュレートして10%の高いエラー率で配列を合成し、そのゲ…

メタゲノム解析ツール

使ってみて便利だったツールを紹介する。 Genome sequences of rare, uncultured bacteria obtained by differential coverage binning of multiple metagenomes Albertsen et al. (2013) メタゲノムデータから、各生物ごとのデータを大まかに仕分け、その後…

Indel検出ツールまとめ

250bp x 2のペアリードでテストした時の結果をツールごとにまとめた。 インストール編はこちら Pindel Ye et al. (2009) split-read approaches. splitリード法はいくつか報告されているが、その中でおそらく最もよく知られたツール。原理はインストール編に…