現在、多くのゲノムが解読され、ある分類群の遺伝子のかなりの割合が他の分類群にオルソログ配列を持っていないことが示されている。これらの配列は、通常、1つの種にのみ存在する場合はorphans/ORFansと呼ばれ、より高い分類学上のランクで見つかった場合は分類学的に制限された遺伝子(TRG)と呼ばれる。そのため、これらの遺伝子の生物学的起源を理解するためには、定量的かつ集団的な研究が必要である。現在、オーファン遺伝子を同定するソフトウェアは限られており、これまで利用可能だったものは、機能がない、データベースの検索範囲が限定されている、アルゴリズムが複雑すぎる、などの問題がある。そのため、オーファン遺伝子を研究する研究者は、多くの異質なソースからデータを採取しなければならない。ORFanIDは、NCBIデータベース群やその他の大規模バイオインフォマティクスリポジトリにあるDNAまたはアミノ酸配列から、あらゆる分類レベルのオーファン遺伝子やTRGを効率的に見つけ出す、グラフィカルなウェブベースの検索エンジンである。著者らの知る限り、これは、対象となるあらゆる生物種の塩基配列とタンパク質配列の両方を用いてオーファン遺伝子を同定することができる最初のプログラムである。
ORFanIDは、標準的なNCBIの系統的分類法を用いて、種からドメインまで、あらゆる分類学的ランクに固有の遺伝子を同定する。このソフトウェアでは、NCBIデータベースの検索パラメータをユーザーが制御することができる。検索結果は、グラフ表示だけでなく、スプレッドシートでも提供される。本ソフトウェアのすべての表は列ごとにソート可能であり、ファジー検索機能により結果を容易にフィルタリングすることができる。また、視覚的な表示は分類ごとに展開・折りたたみできる。
instructions
http://orfangenes.com/#/instructions
http://orfangenes.com/#/にアクセスする。
Get startedをクリック。
右下のアイコンをクリックするとexample dataが読み込まれる。
ヒトのexample dataを読み込んだ。タンパク質配列となっている。プログラムはPSI-BLAST(デフォルトでは2回繰り返し)、生物はHomo sapiensを指定している(実際にはfasta形式の配列ファイルをアップロードする)。もし目的の生物がORFanIDデータベースにない場合は、NCBI Taxonomy Databaseで完全な学名を括弧内に追加しなければならない。
fasta形式の配列には、各遺伝子の gene ID(NCBIかUniprot)が含まれている必要がある。遺伝子配列の検索では5,000文字まで入力でき、それ以上入力すると無視される。多数の遺伝子またはタンパク質配列も受け付ける。
右下のほうにあるadvanced optionをクリックすると検索の閾値などを変更できる。E-Valueのデフォルトはe-3、BLASTのMaximum Target Sequencesのデフォルトは1000、配列同一性のデフォルトは60%となっている。
任意でメールアドレスを記載してサブミットする。
クエリのキューが追加される。完了するまで10 分以上かかる。他のユーザーのキューリクエストも見えている(結果も閲覧可能)。
完了したら右端の棒グラフをクリックする。
出力例
上には解析のメタデータをまとめた図が表示され(TRG遺伝子かオーファン遺伝子などの分類)、下のテーブルには発見された遺伝子の分類レベルが表示される。
引用
ORFanID: A Web-Based Search Engine for the Discovery and Identification of Orphan and Taxonomically Restricted Genes
Richard S. Gunasekera, Komal K. B. Raja, Suresh Hewapathirana, Thushara Galbadage, Emanuel Tundrea, Vinodh Gunasekera, Paul A. Nelson
bioRxiv, Posted February 04, 2022