入力された DNA 配列からオープンリーディングフレームを検索する ORF finder

原核生物のオープンリディングフレーム（ORF）予測ツールは繊細で、頻度は少ないものの、配列のわずかな違いで遺伝子予測されなことが起きることがある。遺伝子予測精度がゲノム配列によって異なると、比較ゲノム解析で遺伝子の有無を調べる際に問題となる。そのため、たくさんの原核生物のゲノムを使った比較ゲノム解析を行う際には、ORF予測ツールとそのパラメータの選択について慎重に進める必要がある。

NCBIが提供しているORF finderは、ユーザーが提供した配列について、6フレームでORFを予測し、結果を可視化するwebサービスである。予測されたアミノ酸配列をクエリにして、そのままBLASTP検索することができ、ユーザーフレンドリーなサービスになっている。繊細なフィルタリング工程が無いため、ORFが予測されていない領域に本当にORFが予測されないか先入観無く調査したり、ORF予測ツールとの違いを調べるためにも役立つ。使い方を簡単に確認してみます。

webサービス

https://www.ncbi.nlm.nih.gov/orffinder/にアクセスする。

DNA配列を貼り付けるか、アクセッションIDを指定する。

開始コドンの指定もできる。submitをクリック。

出力例

下の表で関心のあるORFをクリックすると、そのORF領域がハイライトされる。

選択されたORFのアミノ酸配列は左の表に表示されている。そのまま、BLASTPにジョブを投げることが可能。データベースは、swissprot、refseq protein、nrから選べる。

Web版ORF finderは、クエリー配列の長さが50kbまでに制限されている。スタンドアロン版（Linux x64版）はこの制限がない。NCBIからダウンロードできる。

https://ftp.ncbi.nlm.nih.gov/genomes/TOOLS/ORFfinder/linux-i64/

引用

https://www.ncbi.nlm.nih.gov/orffinder/

参考

SmartBLASTについて

”SmartBLASTはタンパク質クエリを処理し、ランドマークデータベース内のよく研究されている参照種から、最もよくマッチする5つのタンパク質の簡潔な要約を提示します。可能であれば、異なる生物からのマッチングを行います。もしSmartBLASTがlandmarkデータベースから5つのマッチを見つけられない場合は、protein non-redundant（nr）データベースからのマッチを使用します。SmartBLASTレポートの上部（"Summary"）には、クエリと5つのマッチング配列が、系統樹とグラフを組み合わせたユニークな表示で表示されます。ランドマークデータベースは、幅広い分類群にまたがる27のゲノムのプロテオームが収録されています（リンク先下のLandmark Database参照）。”

https://blast.ncbi.nlm.nih.gov/smartblast/smartBlast.cgi?CMD=Web&PAGE_TYPE=BlastDocs