macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

フォーマット

FastQValidatorでfastqデータを検証する。

FastQValidatorは、fastqのフォーマットを検証しておかしなリードが含まれるのか調べることができるツール。具体的には、1つだけファイル名がおかしかったり(ヘッダーが@で始まっていないとか短すぎるとか)、数塩基しかないようなリードが混じっているか…

BEDフォーマット

UCSCのゲノムブラウザーなどで使うフォーマットである。最初の3列が必須で、オプションでさらに9列情報がつく場合がある、BED形式は、最近ではインフォマティクスツールに使われる事もある。 最初の3列に記載する情報 クロモソームの名前(e.g., chr1) リ…

GTFとGFFフォーマット

GTFはgeneのアノテーション専用のフォーマットと定義されている。それに対してGFF3はtranscriptなどにも使えるよりジェネラルなフォーマットとなっている。この違いのため、例えばUCSC genomeではgeneアノテーションファイルはgtfフォーマットでのみダウンロ…

バリアントコール結果のVCFフォーマット

次世代データからリファンレンスゲノムの変異検出を行うと、Variant Call Format(VCF)という形式で出力されることが多い。VCFの詳細はsamtoolsのVCFフォーマットオフィシャルページに書いてあるが、そのフォーマットについてもう少し噛み砕いて説明を残し…