2017-06-01から1ヶ月間の記事一覧
ローカルblastは通常genbankファイルを扱えない。そのため、ACTのようなツールでゲノム比較を行うためには以下のような面倒な流れを取る必要がある。 gbkファイルの入手。 ↓ fastaファイルの抽出(またはgenbankと同じfaファイルの入手) ↓ ローカルblast、…
インストールは以下で説明しています。 チュートリアルの総仕上げとして、CCTのコマンドfetch_all_refseq_bacterial_genomes.shを使って、登録されているバクテリアのrefseq配列全てを自動ダウンロードして、リファレンスゲノムと比較してみることにする。リ…
インストールは以下で説明しています。 公式ページのチュートリアル7を実践していく。 人のミトコンドリアゲノムを、他の生物のミトコンドリアゲノムと比較する。 ミトコンドリアゲノムNC_012920をダウンロードする。 fetch_genome_by_accession.sh -a NC_01…
次はCCTを使って次世代データをリファレンスに当てて、リードの張り付きをビジュアル化するチュートリアルを見ていく(公式ページチュートリアル6)。 CCTのインストールは以下で説明しています。 今までと流れが微妙に異なっているので注意する。 francisel…
葉緑体、ミトコンドリアの次は、CCTを使って複数ゲノムを比較するチュートリアルを見ていく(公式ページチュートリアル5)。 CCTのインストールは以下で説明しています。 全体比較は手順が異なる。まずbuild_blast_atlas_all_vs_all.shコマンドを使い、新し…
葉緑体ゲノムに続き、CCTを使ってミトコンドリアゲノムを比較するチュートリアルを見ていく(公式ページチュートリアル4)。 CCTのインストールは以下で説明しています。 前半は以前のクロモソーム、プラスミドと同じなので簡潔に説明する。 まずはドブネズ…
プラスミド、クロモソームに続き、CCTを使って葉緑体ゲノムを比較するチュートリアルを見ていく(公式ページチュートリアル3)。 CCTのインストールは以下で説明しています。 前半は以前のクロモソーム、プラスミドと同じなので簡潔に説明する。 まずはPorph…
インストールは以下で説明しています。 プラスミドに続き、E.coliのゲノムを他のE.coliゲノムと比較してみる(公式ページのチュートリアル2)。 ゲノムをダウンロード。 fetch_genome_by_accession.sh -a CP001855 -o ./ CP001855.gbkがダウンロードされる。…
インストールは以下で説明しています。 チュートリアル1なので、やや丁寧に説明していく。 インストールが終わったら、CCTのチュートリアルにある図の描画を実践していく。初めての人は下のコマンドを順にコピペしていけばよい。 初回はE.coliのプラスミドE…
2020 6/18 インストール追記 CGView Comparison ToolはStothardの研究グループが公開しているバクテリアやプラスミドのゲノム比較ツール(以下CCT)である。複数ゲノムを比較して描画する機能を持つ。以下のような美しい図が簡単なコマンド指定だけで描ける…
2019 10/15追記 2020 10/13 リンク削除 GTF(General Transfer Format))はgeneのアノテーション専用のフォーマットと定義されている。それに対してGFF(General Feature Format)はtranscriptなどにも使えるよりジェネラルなフォーマットとなっている。この…
最後はtandem duplicationのテスト結果についてまとめる。 検証 逆位の場合と同じようにシミュレーションデータを使って検証した(read-pairは除く)。結果だけ箇条書きする。 read-pair法のBreakdancerは100 bp以上のtandem duplicationを全て検出した。 Sp…
・検証 リアルデータでは既知の逆位変異がなかったので、シミュレーションデータだけ使って3手法のパフォーマンスを検証した。箇条書きで記す。 read-pair法のBreakdancerは、100 bp以上の逆位を100%検出した。 Split-read法のPindelは10bp -10 kbの逆位を10…
欠損に続き挿入も検出できるかテストしたので報告する。 検証 deletionと同じようにシミュレーションとリアルデータ両方を使って、read-pair以外の手法を検証した。論文化がまだなので、結果だけ箇条書きする。 read-pair法のBreakdancerはシミュレーション…
以前、構造変化を検出する4つの方法を紹介した。 4つの原理を利用したツールは論文もソースコードも探せば無償で入手できるので、興味があればインストールして自分のデータを解析することも可能である(このブログでも紹介している)。ただしペーパーでは…
複数回シーケンスしたデータを統合するため、bamファイルをmergeすることがある。 gatkのチームもこの話題を取り上げており、以下のURLで見ることができる。 https://software.broadinstitute.org/gatk/documentation/article.php?id=3060 mergeするにはsamt…
2019 11/19 コマンドエラー修正(A、Bの比較なのにCの表記がある) 2020 10/20 インストール追記 以前ショートリードからindelとSNVを検出するワークフローを紹介した。 複数サンプルがある場合、上記のような方法でVCFファイルを出力した後、サンプル間で共…
2020 9/2 追記 インストール追記 2020 9/4 コメントいただいた部分を修正 この投稿はSNVとindel検出に必要なツールの準備編です。 実際の検出のワークフローは以下のエントリーを確認してください。 --準備するもの-- 解析に必要なソフト GATK BWA Picard Sa…
以前ニューヨーク大のindel検出のワークフローを紹介したが、その中で Haplotypercallerの検出結果のフィルタリングを以下のような条件で行なった。 java -jar GenomeAnalysisTK.jar -T VariantFiltration -R ref.fa -V raw_snps.vcf --filterExpression 'QD …
2018 10/25 追記 2019 8/9 コマンド追記 2020 10/14 vcflibのインストールコマンドを最後に追記 2021 5/15 誤字修正 次世代データからリファンレンスゲノムの変異検出を行うと、Variant Call Format(VCF)という形式で出力されることが多い。VCFの詳細はsam…