macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

祖先タンパク質コード遺伝子を探す AnABlast

2021 4/13 誤字修正

 

 2015年のペーパーより

 ゲノム配列中のタンパク質をコードする遺伝子および偽遺伝子を同定するための新しい方法の開発は、ゲノム時代における主要なチャレンジの一つである。実験的アプローチによってもたらされた並外れた支持に加えて、現在のゲノム生物学におけるタンパク質分析のためのコンピュータ分析による遺伝子同定は必須の課題である。しかし、遺伝子予測およびアノテーションソフトウェアの効率が高まっても、小さなタンパク質をコードする遺伝子および複雑なイントロンを持つ遺伝子は、依然として標準的なインシリコ分析で検出することが難しい。

 分裂酵母Schizosaccharomyces pombeはモデル生物の1つである。12.5Mb のS. pombeゲノムは最初のゲノムの1つであった。標準的な計算予測と実験データに基づいて、最初に4,824個の遺伝子と31個の偽遺伝子にアノテーションが付けられた(ref.12)。しかし、ゲノムの95%以上が転写されるのに対して、ゲノムのわずか55%がアノテーションがつけられたコーディング配列に対応しており、より多くのタンパク質コーディング遺伝子が発見される可能性が高まっている。したがって、ハイスループットcDNAシークエンシング(RNA-Seq)および質量分析ベースのプロテオームアプローチは、現在PomBaseでアノテーションが付けられている5,123のタンパク質コード遺伝子の初期数を増加させた(http://www.pombase.org)。いくつかの偽遺伝子も遺伝子として再アサインされ、現在29の偽遺伝子がアノテーションされている。最近になって(論文執筆時点)、減数分裂の翻訳を調べるためのリボソームプロファイリング(Ribo-Seq)の使用により、さらに46の新規タンパク質コード遺伝子が分裂酵母ゲノムに追加された(ref.18)。データベース中で有意なアラインメントを欠いているコード配列は、コード配列のインシリコ同定が依然としてゲノムアノテーションにおいてチャレンジングであることを強調している。

  BLAST分析による類似タンパク質の同定は、アノテーション付け作業において最も有用な戦略の1つである。有意なアラインメントを見出すことは、アミノ酸配列を問い合わせデータベース中の関連タンパク質の同定を通して推定機能をアサインすることを容易にする。興味深いことに、(有意な閾値未満の)有意でないアラインメントがしばしば従来のBLAST検索において見出される。非コードDNAの電子翻訳(electronic translation)に由来するポリペプチドでそのようなアラインメントは偶然に起こる。しかし、DNAをコードするポリペプチドでは、ランダムマッチに加えて、重要でないアラインメントも共通の祖先のランダムなフットプリントを表す小さなアミノ酸パターンの根底にある可能性がある(ref.21,22)。異なるコード配列は、データベースで利用可能な何百万ものタンパク質の中に見いだされるべき共通の祖先タンパク質の古代の足跡を抱いているかもしれない。このように、予測アミノ酸配列に蓄積されたアラインメントは、非コードDNAからコード化を識別するための方法を提供する可能性があり、これは現在のインシリコアルゴリズムの限界を克服するかもしれない。

 ゲノムレベルでのコード領域の同定のためにこの戦略を使用するために、本著者らは低ストリンジェントなBLAST戦略を使用してクエリーのアミノ酸配列における蓄積アラインメントのプロファイルを生成する、AnABlastという名前のコンピュータープログラムを開発した。遺伝子発見アルゴリズムとしてのその潜在的な使用をテストするために、ゲノム全体にわたるコード配列の検索が分裂酵母で行われ、タンパク質コード領域を検証するために使用されるRibo-SeqデータがAnABlastプロファイルによって強調された。非常によくアノテーションが付けられているS. pombeゲノムにAnABlastを使用することによって、遺伝子および古代のコード配列が効率的に同定された。この戦略は、線虫Caenorhabditis elegansのゲノム領域にも首尾よく適用され、この新規なツールが他の任意のシーケンシングれたゲノムのインシリコ分析に適用可能であり得ることを示唆した。

簡単に言えば、ゲノム中の新しいコード領域を検索するために、ゲノムのすべてのエキソン間DNA配列(遺伝子間およびイントロン領域)を6フレームすべてで翻訳し、終止コドンを「X」文字でマスキングした。このようにして、分析は従来のORFシグナルから独立したものになる。次に、アルゴリズムは、6つの結果として得られたアミノ酸配列およびUniRef50データベース(2014_02バージョン)を使用してBLASTP検索を実行する。 UniProt Reference Clusters(UniRef)は、公表されているほぼすべてのタンパク質配列からのクラスター化された配列のセットを提供する。 AnABlastは各UniRef50クラスターからの代表メンバーのみを使用し、それ故、50%の同一性閾値で非類似の配列のみを考慮する(配列の冗長性から生じるバイアスを回避する)。

(以下略)

 2019年のペーパーより

 AnABlastは、標準的な遺伝子予測アルゴリズムによる検出を回避する遺伝子間およびイントロンDNA配列内のタンパク質コード領域を強調する計算ツールである。 小さなタンパク質をコードする遺伝子またはエクソン、複雑なイントロンを含む遺伝子、または変性したDNA断片を含むDNA配列は、AnABlastにより効率的なターゲットになる。 さらに、このアルゴリズムは、データベース中のnonsignificant なホモログタンパク質コード配列を検出するのに特に有用である。 AnABlastは http://www.bioinfocabd.upo.es/anablast/にてオンラインで実行できる。

 

  

使い方

  AnABlastは、ゲノム領域内のタンパク質コード配列のシグナルを発見するためのアルゴリズムである。 短いヌクレオチド配列(最大で25Kb、またはBlastレポートをアップロードした場合は最大1Mb)を分析できる。AnABlastは 現在または古代のタンパク質コード配列を表すであろう積み重ねられた重要でないアラインメント(プロトモチーフ)を有するゲノム領域を強調する。 真核生物、バクテリアエクソンの新しい遺伝子を発見することができる。

 

http://www.bioinfocabd.upo.es/anablast/ にアクセスする。塩基配列をペースとして実行する。

f:id:kazumaxneo:20190522185034j:plain

 テスト時、macos10.14と10.12のSafariでは正常動作しなかった。

 

結果はJBrowse (pubmed) で可視化される。フレームごとにヒットしたプロテインが表示される。

f:id:kazumaxneo:20190525165537j:plain

クリックするとヒットしたプロテインをクリックすると詳細が表示される。

f:id:kazumaxneo:20190525165621j:plain

 

 AnABlastを短時間で達成するには、BLAST出力ファイルをアップロードして利用する。 これを行うには、ローカルでBlast +プログラムを以下のように実行しておく。

$ wget ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/uniref/uniref50/uniref50.fasta.gz

$ gzip -d uniref50.fasta.gz

$ makeblastdb -in uniref50.fasta -dbtype prot

$ blastx -db uniref50.fasta -query sequence.fasta -evalue 50000 -outfmt '6 sseqid qseqid qstart qend evalue bitscore qframe' -matrix BLOSUM90 -seg no -max_target_seqs 10000000

 

 

引用
AnABlast: Re-searching for Protein-Coding Sequences in Genomic Regions
Rubio A, Casimiro-Soriguer CS, Mier P, Andrade-Navarro MA, Garzón A, Jimenez J, Pérez-Pulido AJ

Methods Mol Biol. 2019;1962:207-214


AnABlast: a new in silico strategy for the genome-wide search おfsagasusagasu novel genes and fossil regions
Jimenez J, Duncan CD, Gallardo M, Mata J, Perez-Pulido AJ

DNA Res. 2015 Dec;22(6):439-49