macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

補足資料1

作成中

 

章末補足資料

 

1、データのアップロード 

同じE.coliと言っても、数百以上の様々なゲノムが登録されている。また同じ系統の株でもGene IDなどは統一されていない。そのため、100%塩基配列が同じゲノムと考えてわずかに違う株のアノテーション情報を使ったりすると、DEG検出後の二次解析がうまく行えない可能性がある。例えば、K-12系統のsubstrain MG1655を使っているとして、MG1655の代わりにK-12のアノテーション情報を使って定量を行うと、データを読み込んでもうまく動作しない。理由は単純で、stringdb由来のMG1655のアノテーション情報だけ取り込まれており、IDが合致しないからである。

 

以下に、gene IDの認識が正しく行われ、二次解析がうまくいくことを確認した例を載せておく。 

例1、E.coli

ENsembl bacteriaのE.coliゲノム- Escherichia coli str. K-12 substr. MG1655(https://bacteria.ensembl.org/Escherichia_coli_str_k_12_substr_mg1655/Info/Index)からゲノムのfastaとgff3ファイルを ダウンロードした。

 

 例2、S.cerevisiae

対応するゲノムのリストに Saccharomyces cerevisiae (R64-1-1)が記載されている。EnsemblSaccharomyces cerevisiae - Ensembl genome browser 97 からゲノムのfastaとgff3ファイルを ダウンロードした。

 

例3、Zebrafish (danio rerio)

対応するゲノムのリストに Zebrafish (GRCz11) が記載されている。Ensembl

Danio rerio - Ensembl genome browser 97 からゲノムのfastaとgff3ファイルを ダウンロードした。

 

例4、Mouse (mus musculus)

対応するゲノムのリストにMouse (GRCm38.p6) が記載されている。Ensembl

Mus musculus - Ensembl genome browser 97からゲノムのfastaとgff3ファイルを ダウンロードした。

 

例5、 C.elegans

対応するゲノムのリストにCaenorhabditis elegans (WBcel235)  が記載されている。Ensembl

Caenorhabditis elegans - Ensembl genome browser 97 からゲノムのfastaとgff3ファイルを ダウンロードした。 

 

例6、A.thaliana

対応するゲノムのリストにArabidopsis thaliana (TAIR10) が記載されている。Ensembl

Arabidopsis thaliana - Ensembl Genomes 44からゲノムのfastaとgff3ファイルを ダウンロードした。 

 

例7、Oryza sativa Japonica Group

対応するゲノムのリストにOryza sativa Japonica Group (IRGSP-1.0)が記載されている。Ensemblの Oryza sativa Japonica Group - Ensembl Genomes 44 からゲノムのfastaとgff3ファイルを ダウンロードした。 

 

 

 

補足資料2

データリストにないゲノムを使用する

リストにない生物について、DEGs以後のGOエンリッチメント解析やパスウェイ解析を行いたければ、新規にアノテーションをつけるか、よく研究されたモデル生物のアノテーション情報を移してこなければならない。新規にアノテーションをつける場合、カウントファイルアップロード時にGO termとpathway IDを紐付けたGMTフォーマットのファイルをアップロードする。一方でモデル生物のアノテーション情報をそのまま使う場合、blastなどでベストヒットのプロテインを決め、そのアノテーション情報を移す。どちらの手段に頼るかは、ユーザーが使っている生物のゲノムがモデル生物との距離や、研究目的によって変わる。

A、モデル生物ゲノムのバージョン変更

モデル生物のゲノム情報は不定期に更新され、座標やアノテーションに修正が入る。このようなゲノムのバージョン変更に伴うgenomic featureの変更は手動で行わなくても、liftoverツールで座標をずらすだけで対応できる。この機能を使うことで、例えばGRCh37のGTFファイルをGRCh38ゲノムの座標に簡単に変更できる。liftoverは、UCSCを始め、NCBIEnsemblなどが提供している。以下にまとめた。

特にNCBIのRemapは、(blastを事前に行なって)別のよく似た生物のゲノムにもアノテーション情報を移すことができる。

 

B、少し距離がある時

 

 

 

C、モデル生物とは距離がある時

 

 

GO term

Gene Ontologyのデータベースとして、EMBL-EBIのQuickGO、AmiGOなどがよくリンクされている。


 

DEG2からはSTRINGを使ったタンパク質ータンパク質相互作用を調べることができるようになっている。


 

Gene ID

Gene ID変換にはDAVIDもよく使われる。以下に変換の流れをまとめた。DAVIDはGeneIDリストの詳細を調べるビューアとしても使えます。

 

その他 

統合TV 

発現制御解析・可視化のチャンネルリスト