macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

VCF

バリアントのコールと可視化のパイプライン MutScan

次世代シーケンシング(NGS)は何千もの突然変異を検出することができる。しかし、一部のアプリケーションでは、これらのうちのほんのわずかなものが対象のターゲットである。 NGS技術によるがんの個人化された医療検査のようなアプリケーションでは、臨床医…

構造変化が起きた部位のマッピング状況を出力する samplot

samplotはbamやcramを入力として、SVの起こった領域の図を出力してくれるツール。vcfからの一括描画にも対応しているため、variant call format(VCF)を出力したら、そのままsamplotに送るようなスクリプトを書くことで、推定SV全てを目視で簡単に確認でき…

indelコールの冗長性を調べる Vindel

ゲノムDNAの変異は、一塩基多型(SNP)、挿入および欠失(indels)、逆位、大規模な複製/欠失、および転座などの構造変異を含む。最近の大規模なヒトゲノムシークエンシングプロジェクト[論文より ref.1]で示されているように、これらのタイプの変異の中で、…

生物学的に同等な可能性があるindelのフィルタリングを行う UPS-indel

Indelは、DNA配列中の塩基の挿入または欠失を意味する。2番目に主要な変異であるindelsはゲノムおよびタンパク質の進化において重要な役割を果たす。シーケンシングエラー、リードのあいまいなアライメント、異なるツールによる同じバリアントの一貫性のな…

VCFのコンセンサスコーラー CGES

Whole-exome sequencing(WES)は、疾患に寄与する稀少変異を同定するための手頃なアプローチとなった。過去5年間で、PubMedのキーワード「exome sequencing」で索引付けされた論文の数は200倍に増加し、ヒトの遺伝学の明確な傾向を表している。生物学的メカ…

VCFのフィルタリングを行うGUIツール FMFilter

遺伝病研究における次世代技術の使用が普及している。 exomeおよび全ゲノムシーケンシングが利用可能になると、データの解析と解釈が必要になる。遺伝病の研究に使えるVarSifter [論文より ref.1]、GEMINI [ref.2]、GeneTalk [ref.3]、CanvasDB [ref.4]、Exo…

ノーマライズしてVCF間の比較時のバイアスを減らす BAN

Variant Call Format(VCF)は、遺伝的変異および遺伝子型に関する情報を格納するためのタブ区切りのテキスト形式である(論文より Petr et al、2011)。 VCFファイル中の変異のレコードは、リファレンスDNA配列を試料DNAのシーケンスに変換する情報を記憶す…

フェージングを行ってハプロタイプを組み立てる whatshap

ヒトゲノムは二倍体であり、すなわち、その常染色体の各々は2コピーである。これらの親のコピーは、異なる一塩基多型(SNPs)の影響を受ける。変異がどちらの染色体由来かアサインすることは進化遺伝学の助けになり、例えばpopulation研究(論文より The 100…

GUIで操作できるVCFのフィルタリング・分析ツール VCF.Filter

次世代シークエンシングは疾患関連遺伝子変異体の発見を容易にし、ルーチンの臨床診療における遺伝子診断に広く使用されている。Variant call format(VCF)は、医療遺伝学の研究および診断からの遺伝子変異データを報告するためのコミュニティ標準となって…

VCFのユーティリティツール VCF-kit

集団および量的遺伝学は、集団内の個体がどのように異なるかを調べる。これらの違いを特定することにより、様々な分析を行うことができる。例えば、遺伝子変異は、表現型の基礎を特定し、進化論的な質問に答えるために、または法医学を促進するために使用さ…

VCF / BCFの高速なパーサ cyvcf2

VCF形式(論文より Danecek et al、2011)は、DNAシーケンスの研究で観察された遺伝的変異を表すためのスタンダードである。 VCF形式の強みは、変異の位置、各遺伝子座におけるシーケンスされた個体の遺伝子型、ならびに広範な変異体メタデータを表す能力で…

mergeSVcallersでSV検出結果のVCFファイルを統合する

構造変化検出結果はツールによって得手不得手があるため、網羅的にSVを検出するためには、現状複数ツールを並行して走らせるのが理想とされる。そのため、複数のツール結果を統合して弱点を無くすような方法論も出て来たりしている。しかし、ツールによって…

VCFtoolsでVCFを管理、編集する

VCFtoolsは、バリアントコールフォーマットのVCFファイルのマージ、ソートやフィルタリング、固有変異の抽出などができるツール。 よく使いそうなコマンドに限って紹介する。 マニュアル https://vcftools.github.io/perl_module.html インストール git clon…

変異のフィルタリングを行うSnpSift

以前SnpEffという変異のアノテーションを行うことができるツールを紹介した(リンク)。このツールにはもう一つSnpSiftというツールが同梱されている。SnpSiftは変異コール結果のVCFファイルを扱うツールで、クオリティやp値など様々な指標に基づいて変異を…

BEDOPSを使いVCF, GTF, GFF などを BED に変換 する。

BEDヘの変換はawkやperlやpythonのスクリプトで簡単にできるが、BEDOPSのvcf2nedを使うと、indelの種類などによってフィルタリングしながら分類することができ便利である。 BEDOPSがない人はbrewで入れておく。 brew install BEDOPS 公式マニュアル http://b…

サンプル間で共通する変異と固有の変異を抽出する

以前ショートリードからindelとSNVを検出するワークフローを紹介した。 複数サンプルがある場合、上記のような方法でVCFファイルを出力した後、サンプル間で共通のSNPs、サンプルごとに固有のSNPsなどを絞り込む必要が出てくるシチュエーションは多いと思わ…

バリアントコール結果のVCFフォーマット

次世代データからリファンレンスゲノムの変異検出を行うと、Variant Call Format(VCF)という形式で出力されることが多い。VCFの詳細はsamtoolsのVCFフォーマットオフィシャルページに書いてあるが、そのフォーマットについてもう少し噛み砕いて説明を残し…

small indelとSNV検出のワークフロー

SNVやsmall indel検出については精度の高いワークフローがすでに確立されている。例えば下記のニューヨーク大のHP https://gencore.bio.nyu.edu/variant-calling-pipeline/ には、SNVとsmall indel検出ワークフローが記載されている。流れを説明すると bam作…

変異はどんな遺伝子に起きているのか? SnpEffを使ってindel検出結果のアノテーションを行う

多くのindel検出ツールは変異のポジションしか出力しないため、その変異がどのようなアミノ酸変化を引き起こすか、サイレントなのかは別途調べる必要がある。ただし手動でやるのはしんどいし、間違いの元になる。snpEffはこうした作業をサポートするプログラ…