macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

昆虫の包括的遺伝子リソース InsectBase 2.0

 

 昆虫は地球上で最大の動物群であり、資源の提供、病気の媒介、農作物生産の被害など、人間の生活に大きな影響を及ぼしている。近年、昆虫のゲノムや遺伝子のデータが大量に生成されている。これらのリソースを管理、共有、マイニングするためには、包括的なデータベースが非常に望まれる。ここでは、昆虫ゲノム815種、トランスクリプトーム25805種、遺伝子数1600万以上、コード配列15045111、3′UTRs 3436022,  5′UTRs 4345664, miRNAs 112162,  lncRNAs 1293430を網羅したデータベース、InsectBase 2.0 (http://v2.insect-genome.com/) の更新版を紹介する。さらに、in house標準パイプラインを使用して、164の遺伝子ファミリーに属する1434653の遺伝子、215986の潜在的水平移動遺伝子、および419のKEGGパスウェイを注釈した。検索や可視化のために、BLAST、JBrowse2、Synteny Viewerなどのウェブサービスが提供されている。InsectBase 2.0は、昆虫学者や動物進化学や無脊椎動物比較ゲノム学の関連コミュニティの研究者にとって貴重なプラットフォームとして機能する。

 

Help

http://v2.insect-genome.com/help


webサービス

http://v2.insect-genome.com/にアクセスする。

InsectBase2.0には、18目、138科、322属ゲノム、540種の昆虫からの転写産物、タンパク質コード遺伝子、miRNA、lncRNA、ウィルスが含まれている。

 

Genomeを見てみる。収録されている815個のゲノムのリストが表示されている。

ゲノムサイズ、N50、データソース(NCBIなど)、BUSCO v4などの基本的な統計が示されている。

 

1つ見てみる。

Abrostola tripartita

 分類にはどのような分類か表示される。クリックすると分類ページにジャンプする。その他、種やゲノムの詳細も表示される。「NCBI Taxonomy ID」と「Data Source」をクリックするとそのリファレンスページにアクセスできる。

DownloadのところのGenome、GFF3、CDS、Protein、TSV形式のアノテーションノンコーディングRNAはクリックするとダウンロードできる。

 

Chromosomeでは207個の染色体レベルゲノムアセンブリを閲覧できる。

ゲノムサイズ、N50、配列数、Chr数、染色体情報など。染色体配列もダウンロードできる。

 

Transcriptome

25,805データ収録している。Fastqデータはfastpで前処理が行われ、HISAT2によりリファレンスゲノムにマッピングされている。また、StringTie2により転写産物のアセンブリが行われている。

右端の列のSRA Assemblyをクリックすると、アセンブルされた転写産物のGTFファイルをダウンロードできる。

 

種、性、組織、発生のステージなどで絞り込むことができる。

ただし何も情報が書かれていないデータも多く見られる。

 

Geneでは、遺伝子を遺伝子シンボル、UniProt ID、KEGGのKO ID、Pfam domainなどで検索できる。ワードクラウドをクリックすると、その単語が入力ボックスに貼り付けられる。

 

検索結果の例

 

Gene familyでは、収録されている遺伝子ファミリー164個を閲覧できる。

 

1つ見てみる。

14-3-3タンパク質。その種での個数がインタラクティブなバーグラフで表示される(アルファベット順)。

 

特定の種を選び、そのファミリーを構成する遺伝子の配列をfasta形式で出力できる。

 

Potential Horizontal Gene Transfer (HGT) Genes

細菌、菌類、メタゾア(昆虫を除く)、ウイルス、ウイルスのHGT遺伝子候補を表示する。

bacteriaをクリックした。

 

種ごとにbacteria由来推定HGT遺伝子のリストが表示されている。種は左のメニューから切り替える。種ごとのHGTの個数はインタラクティブなバーグラフに示されている。

 

KEGG pathway

昆虫713種の419個のKEGGパスウェイの遺伝子を表示。

 

種とパスウェイを選択してそのKEGG pathwayの遺伝子リストを表示できる。



Insect Virus

1,542の昆虫ウイルスのゲノムを表示する。ゲノムはNCBIのAssemblyにリンクしている。

 

他にもBLAST機能やゲノムブラウザが利用できる。

JBrowse2

 

引用

InsectBase 2.0: a comprehensive gene resource for insects 
Yang Mei,  Dong Jing,  Shenyang Tang,  Xi Chen,  Hao Chen,  Haonan Duanmu,  Yuyang Cong, Mengyao Chen,  Xinhai Ye,  Hang Zhou,  Kang He,  Fei Li
Nucleic Acids Research, Volume 50, Issue D1, 7 January 2022, Pages D1040–D1045