macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

 高速なオルソログ推論ツール JustOrthologs

 

  オルソログの同定は、多くの研究にとって長い間困難でありながら重要な、最初のステップであった。オルソログは、2つの種の最後の一般的な祖先に存在する同じ祖先遺伝子に由来する遺伝子配列であり、系統樹の再構築または遺伝子機能への洞察を支援することができる(Koonin、2005)。

 当然のことながら、多くのオルソログ同定アルゴリズムが現在利用可能である。残念ながら、既存のアルゴリズムは複雑で、パフォーマンスが低いために妨げられている。 OrthoMCLはall versus allのBLAST比較、マルコフクラスタリング(MCL)アルゴリズム、およびオルソロググループを識別するためのMySQLデータベースの構築を含む複雑な13ステップのプロセスを必要とする(Li et al、2003)。 OrthAgogueは、MCLを1つのステップにまとめることによってプロセスを単純化し、OrthoMCL解析に必要なステップ数を13から8に減らしている(Ekseth et al、2014)。しかし、8段階のプロセスは、平均的な生物学研究者にとって依然として圧倒的なものである。異なるアプローチを使用して、OrthoFinderはBLASTスコアに関連する遺伝子長の偏りを考慮に入れることによってオルソログの精度を高める(Emms and Kelly、2015)。 OrthoFinder(紹介)はシングルステップのプロセスだが、それでもいくつかのソフトウェア依存関係をインストールする必要があり、実行に時間がかかる。 OMAは、追加のWebインターフェースとそれらのデータベースを照会するためのツールを用いて、ペアワイズ比較を通してプロテオーム間の進化的関係を評価する(Altenhoff et al、2015)。 OMAは1ダース以上のメジャーリリースを持ち、そのそれぞれがデータベース内のプロテオームの数を増やした。ただし、独立したオーソログの識別には厳密なディレクトリ構造が必要で、簡単には記述できない。

(一部略)

各方法は初期スコアリングを時間集約型all versus all BLAST比較に基づいており、これによりデータセットを興味のある少数の特定の遺伝子に限定する。さらに、外部の依存関係、複雑な段階的なプロセス、または厳密なディレクトリ構造がしばしば必要とされ、経験の浅い研究者がこれらのプログラムを使用してオルソログを識別することを妨げる。したがって、アルゴリズム間の包括的な比較には、精度の分析だけでなく、実行時の複雑さとユーザーエクスペリエンスの容易さの評価も必要となる。比較に使用された3つのアルゴリズムのそれぞれの長所と短所の比較は論文補足表S1に示した。

  JustOrthologsは他のどのオルソログ識別アルゴリズムとも異なる。それは遺伝子 - 遺伝子配列比較の数を減らすためにコーディング配列(CDS)領域長の保存を利用する。各FASTAファイルを各遺伝子中のCDS領域の数(すなわち、コーディングエクソンの数)によって分類することで、直接比較がより少なくなる。さらに、全配列を比較するのではなく(すなわちBLAST比較)、2つのCDS領域間の配列同一性のレベルを決定するためにJustOrthologsはジヌクレオチドパーセンテージを比較する。これらの革新的技術は、他の一般的なオルソログ識別アルゴリズムと比較してランタイムを少なくとも96%削減する。さらに、JustOrthologsには外部の依存関係はなく、ドキュメント化されたパラメータはわずかしかなく、実行時に必要な手順は1つだけである。

 

解説

http://ke7gts.com/justorthologs.html

JustOrthologsに関するツイート

 

インストール

依存

Python libraries that must be installed include:

  • sys
  • os
  • multiprocessing
  • argparse

If any of those libraries is not currently in your Python Path, use the following command:
pip install --user [library_name]
to install the library in your path.

Github

git clone https://github.com/ridgelab/JustOrthologs.git
cd JustOrthologs/

 > ./justOrthologs.py -h

$ ./justOrthologs.py -h

usage: justOrthologs.py [-h] -q QUERY -s SUBJECT [-o OUTPUT] [-t THREADS] [-d]

                        [-c] [-r CORRELATION]

 

Find Orthologs in Two Files.

 

optional arguments:

  -h, --help      show this help message and exit

  -q QUERY        Query Fasta File

  -s SUBJECT      Subject Fasta File

  -o OUTPUT       Output File

  -t THREADS      Number of Cores

  -d              For More Distantly Related Species

  -c              Combine Both Algorithms For Best Accuracy

  -r CORRELATION  Correlation value

> ./wrapper.py -h

$ ./wrapper.py -h

usage: wrapper.py [-h] [-g1 GFF3_ONE] [-g2 GFF3_TWO] [-r1 REF_ONE]

                  [-r2 REF_TWO] [-fa1 FASTA1] [-fa2 FASTA2] [-e] [-r] [-f]

                  [-s] [-k] [-d] [-c] [-o OUTPUT] [-t THREADS] [-all]

 

Provides a variety of tools which allows you to 1. Extract CDS regions from a

reference genome and fasta file 2. Filter genes by choosing the longest

isoform and ing filters based on annotations 3. Sort genes based on the number

of CDS regions 4. Run JustOrthologs (an ortholog finding algorithm) between

two species

 

optional arguments:

  -h, --help    show this help message and exit

  -g1 GFF3_ONE  1st GFF3 (gzip allowed with .gz)

  -g2 GFF3_TWO  2nd GFF3 fasta file (gzip allowed with .gz)

  -r1 REF_ONE   1st Reference Genome (gzip allowed with .gz)

  -r2 REF_TWO   2nd Reference Genome (gzip allowed with .gz)

  -fa1 FASTA1   1st Fasta file (only used without --e)

  -fa2 FASTA2   2nd Fasta file (only used without --e)

  -e            Extract CDS regions from genomes

  -r            Run JustOrthologs

  -f            Filters genes based on annotations

  -s            Sort FASTA file for running JustOrthologs

  -k            Keep All Temporary Files

  -d            For Distantly Related Species (only with --r)

  -c            Combine Both Algorithms In JustOrthologs For Best Accuracy

  -o OUTPUT     Output File for --r

  -t THREADS    Number of Cores (only affects -r option)

  -all          Run --e, --f, --s, and --r

 

 

テストラン

python justOrthologs.py -q smallTest/orthologTest/bonobo.fa -s smallTest/orthologTest/human.fa -o output -c -t 16

 

引用

JustOrthologs: a fast, accurate and user-friendly ortholog identification algorithm
Justin B Miller Brandon D Pickett Perry G Ridge

Bioinformatics, Volume 35, Issue 4, 15 February 2019, Pages 546–552