macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

FINDER

 

 真核生物の遺伝子アノテーションは、蓄積された転写産物のデータを緻密に解析する必要があり、簡単な作業ではない。真核生物の遺伝子アノテーションには、重複する遺伝子を含むゲノムの転写活性領域、多数の転写産物を産生する遺伝子、トランスポサブルエレメント、多数の多様な配列反復などの課題がある。現在市販されている遺伝子アノテーションソフトウェアは、あらかじめ構築された完全長の遺伝子配列アセンブリに依存しており、エラーがないことは保証されていない。また、これらの配列の起源は不確かなことが多く、配列中のエラーを特定して修正することが困難である。そのため、複数の組織や実験条件におけるトランスクリプトームの状況を、正確かつ全体的に表現することができない。そのため、遺伝子構造の多様性を把握するためには、ゲノムワイドな発現データの包括的な解析が不可欠である。

 ここでは、遺伝子と転写産物の構造をアノテーションするプロセス全体を最適化する完全自動化の計算ツール、FINDERを発表する。現在の最新のパイプラインとは異なり、FINDERは生のシーケンスリードを直接扱うことでRNA-Seqの前処理ステップを自動化し、これらのリードに関連するタンパク質を補足することでBRAKER2からの遺伝子予測を最適化する。FINDERパイプラインは、(1)転写産物を報告し、特定の条件下で発現している遺伝子を認識する、(2)発現しているRNA-Seqデータから可能性のあるすべての代替スプライス転写産物を生成する、(3)リードカバレッジパターンを分析して既存の転写産物モデルを修正し、新しいモデルを作成する、(4)複数のデータセットにわたる利用可能な証拠に基づいて、遺伝子を高信頼度または低信頼度としてスコアリングする、というものである。FINDERは、8種の多様なゲノムを自動的にアノテーションできることを実証した。FINDERは、完全に自動化されたアプローチで、生の発現データから直接遺伝子をアノテーションすることができる。FINDERは、あらゆるサイズの真核生物のゲノムを処理することができ、手動による監督を必要としないため、計算機ツールの取り扱い経験が少ないベンチ研究者にとって理想的である。

 

インストール

Github

git clone https://github.com/sagnikbanerjee15/finder.git
cd Finder
mamba env create -f environment.yml
conda activate finder_conda_env
cd dep


#GeneMark-ESとGeneMarkS/Tが必要、ダウンロードしたgmes_linux_64.tar.gzとkeyのgmes_linux_64.gzをカレントに置いてインストールスクリプトを実行(もしくは手動でパスをを通す)
./install.sh

cd gmes_linux_64/
perl change_path_in_perl_scripts.pl /usr/bin/perl

> finder

Please use the --help option to get usage information

usage: finder [-h] --metadatafile METADATAFILE --output_directory

OUTPUT_DIRECTORY --genome GENOME [--cpu CPU]

[--genome_dir_star GENOME_DIR_STAR]

[--genome_dir_olego GENOME_DIR_OLEGO] [--verbose VERBOSE]

[--protein PROTEIN] [--no_cleanup] [--preserve_raw_input_data]

[--checkpoint CHECKPOINT]

[--perform_post_completion_data_cleanup]

finder: error: the following arguments are required: --metadatafile/-mf, --output_directory/-out_dir, --genome/-g

 

 

テストラン

FINDERは大量のRNA-Seqサンプルを扱うことを想定して設計されている。アノテーションファイルをダウンロードし、続いて raw fastqを準備する。

cd example
wget ftp://ftp.ensemblgenomes.org/pub/plants/release-49/fasta/arabidopsis_thaliana/dna/Arabidopsis_thaliana.TAIR10.dna_sm.toplevel.fa.gz
gunzip Arabidopsis_thaliana.TAIR10.dna_sm.toplevel.fa.gz


mkdir star_index_without_transcriptome
STAR --runMode genomeGenerate --runThreadN 20 --genomeDir star_index_without_transcriptome --genomeSAindexNbases 12 --genomeFastaFiles Arabidopsis_thaliana.TAIR10.dna_sm.toplevel.fa]

../dep/olego/olegoindex -p olego_index Arabidopsis_thaliana.TAIR10.dna_sm.toplevel.fa

raw wfastq

f:id:kazumaxneo:20210406094429p:plain

 

FINDERを実行する。

finder -no_cleanup -mf Arabidopsis_thaliana_metadata.csv -n $CPU -gdir_star $PWD/star_index_without_transcriptome -out_dir $PWD/FINDER_test_ARATH -g $PWD/Arabidopsis_thaliana.TAIR10.dna_sm.toplevel.fa -p $PWD/uniprot_ARATH.fasta -gdir_olego olego_index -preserve 1> $PWD/FINDER_test_ARATH.output 2> $PWD/FINDER_test_ARATH.error 

テストランで不明なエラーが起きる。

 

引用

FINDER: An automated software package to annotate eukaryotic genes from RNA-Seq data and associated protein sequences
Sagnik Banerjee, Priyanka Bhandary, Margaret Woodhouse, Taner Z. Sen, Roger P. Wise, Carson M. Andorf

bioRxiv, Posted February 06, 2021