macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

BEDフォーマット

 

UCSCのゲノムブラウザーなどで使うフォーマットである。最初の3列が必須で、オプションでさらに9列情報がつく場合がある、BED形式は、最近ではインフォマティクスツールに使われる事もある。

 

最初の3列に記載する情報

  1. クロモソームの名前(e.g., chr1)
  2. リードや遺伝子のスタートポジション(ポジションは1でなく0スタート
  3. リードや遺伝子のエンドポジション

 

追加の9列

  1. 名前
  2. 1-1000のスコア。スコアに応じて以下のようなカラー情報を持たせる事も可能である。f:id:kazumaxneo:20170703222731j:plain
  3. リードや遺伝子の向き(+/-)
  4. CDSのスタートポジション。リードなら2の座標と同じになる。
  5. CDSのエンドポジション。
  6. exonの数
  7. 各exonのサイズ(数値をコンマで区切り全て記載する)
  8. exonのスタート位置。

 

 

 BAMから変換したり、bed同士のオーバラップなどを分析するにはbedtoolsを使います。bedtoolsは以下で紹介しています。


 

 

 

 

引用

フォーマット一覧(UCSC

https://genome.ucsc.edu/FAQ/FAQformat.html

 

アメリエフのブログ(旧)

http://blog.amelieff.jp/?eid=195350