macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

tombo

 

Tomboは、主にナノポアシーケンスデータから修飾されたヌクレオチドを同定するためのツールスイートである。 Tomboは、生のナノポア信号の分析と可視化のためのツールも提供する。Tomboのre-squiggleアルゴリズムは、Tomboフレームワークの基礎である。 Re-squiggleアルゴリズムは、生の信号と関連するベースコールを含むリードファイル(FAST5形式)を入力として受け取る。 ベースコールはゲノムまたはトランスクリプトームリファレンスにマッピングされ、生の信号は予想される現在のレベルモデルに基づいてリファレンスシーケンスに割り当てられる。

 

特徴

  • 修正された塩基の検出
  • DNAと直接RNAの両方をサポート
  • RNAプロセシングの詳細
  • 幅広いアプリケーションをサポートする3つの検出アルゴリズムAlternative model (preferred), Sample comparison, De novo)
  • 参照アンカーされた生の信号の視覚化
  • Python APIを使った生の信号の解析
  • チュートリアルを使用したユーザーフレンドリーなモデル推定メソッド

 

ONT Resource Centre

Documentation

Welcome to Tombo’s documentation! — Tombo 1.5 documentation

 

 

インストール

Github

#bioconda (link)
conda create -n tombo -y
conda activate tombo
conda install -c bioconda ont-tombo

> tombo -h

$ tombo -h

usage: tombo [-h] [-v]

             {resquiggle,preprocess,filter,detect_modifications,text_output,build_model,plot}

             ...

 

********** Tombo *********

 

Tombo is a suite of tools primarily for the identification of modified nucleotides from nanopore sequencing data.

 

Tombo also provides tools for the analysis and visualization of raw nanopore signal.

 

Tombo command groups (additional help available within each command group):

resquiggle               Re-annotate raw signal with genomic alignment from existing basecalls.

preprocess               Pre-process nanopore reads for Tombo processing.

filter                   Apply filter to Tombo index file for specified criterion.

detect_modifications     Perform statistical testing to detect non-standard nucleotides.

text_output              Output Tombo results in text files.

build_model              Create canonical and alternative base Tombo models.

plot                     Save plots to visualize raw nanopore signal or testing results.

 

optional arguments:

  -h, --help            show this help message and exit

  -v, --version         show Tombo version and exit.

 

 

実行方法

1、

tombo resquiggle fast5_dir/ ref_genome.fa \
--processes 4 \
--num-most-common-errors 5

2、 

tombo detect_modifications alternative_model \
--fast5-basedirs fast5_dir/ \
--statistics-file-basename native.e_coli_sample \
--alternate-bases dam dcm \
--processes 4

 

3、plot raw signal at most significant dcm locations

tombo plot most_significant --fast5-basedirs fast5_dir/ \
--statistics-filename native.e_coli_sample.dcm.tombo.stats \
--plot-standard-model \
--plot-alternate-model dcm \
--pdf-filename most_significant_dcm_sites.pdf

 

4、produces wig file with estimated fraction of modified reads at each valid reference site

tombo text_output browser_files \
--statistics-filename native.e_coli_sample.dam.tombo.stats \
--file-types dampened_fraction \
--browser-file-basename native.e_coli_sample.dam

  

5、also produce successfully processed reads coverage file for reference

tombo text_output browser_files --fast5-basedirs fast5_dir/ \
--file-types coverage \
--browser-file-basename native.e_coli_sample

 

 

作成中

 

引用

GitHub - nanoporetech/tombo: Tombo is a suite of tools primarily for the identification of modified nucleotides from raw nanopore sequencing data.

 

 

 

MPI Bioinformatics ToolkitのHHpredとMODELLER webサービス

 

MPI Bioinformatics Toolkit(https://toolkit.tuebingen.mpg.de)は、タンパク質バイオインフォマティクス分析のための無料のワンストップWebサービスである。現在、相互接続された34の外部ツールと内性ツールを提供しており、その機能には、配列類似性検索、アライメント構築、配列の特徴検出、構造予測、配列分類が含まれる。この幅広い機能により、このツールキットは、実験生物学および生物情報の探究を教えるための重要なリソースとなっている。2005年にリリースされた約250万件のクエリに対応したツールキットの最初のバージョンを、最近、タンパク質の包括的な分析の改善された機能と教育の促進に焦点を当てたまったく新しいバージョンに置き換えた。たとえば、人気のあるリモート相同性検出サーバーであるHHpredは、2つの配列またはアライメントのペアワイズ比較を可能にし、いくつかのモデル生物およびドメインデータベースの追加プロファイルHMMを提供する。

 

アカウントとキーの準備

1、MPI Bioinformatics Toolkitのwebサービスはlog inしていないと使えない。HP (https://toolkit.tuebingen.mpg.de)の右上から登録する。

 

2、modellerのオンラインサービスを使うには、modellerのHPでアカウントキーも発行しておく必要がある。

https://salilab.org/modeller/registration.html

f:id:kazumaxneo:20200125205449p:plain

登録後すぐにメールが届く。キーはそのメールに記載されている。

 

 

webサービス

HHpred webサービス - HH-suiteの相同性情報を使用するタンパク質構造予測のオンラインサービス。隠れマルコフモデル(HMM)プロファイルの類似性に基づくペアワイズ相同性検索を、既知の機能または構造を持つタンパク質データベースを対象に行うことができる。

https://toolkit.tuebingen.mpg.de/tools/hhpred にアクセスする。HHpredの右側をクリックするとヘルプを表示できる。

f:id:kazumaxneo:20200125210051p:plain

HHpredの検索をローカルで行うならデータベースを準備する必要がある。こちら(Qiitaリンク)とこちら(ブログリンク)の解説記事がわかりやすい。

 

 

アミノ酸配列をペーストする。

f:id:kazumaxneo:20200125211632p:plain

 

パラメータ

f:id:kazumaxneo:20200125212930p:plain

 

データベース、プロテオームを指定して実行する。メールアドレスも記載しておけば、ジョブ完了時にメールが届く。

f:id:kazumaxneo:20200125211744p:plain



1つのタンパク質配列の検索でもそれなりの時間がかかる。

f:id:kazumaxneo:20200125213043p:plain

 

ジョブは左のジョブID一覧から切り替えできる。黄色がラン中のジョブ、緑がランが終わったジョブになる。

f:id:kazumaxneo:20200125213157p:plain

 

検索結果

f:id:kazumaxneo:20200125213116p:plain

 

結果の説明は省略する。ここでは、modellerのランのために、PIRフォーマット(解説HP)のアラインメントファイルを出力する。

 

PIRのアラインメントファイルを出力する対象を選択し、Model using selectionを選択。

f:id:kazumaxneo:20200125213455p:plain

出力には数分かかる。

f:id:kazumaxneo:20200125213807p:plain

 

PIRフォーマットのアラインメントファイルが出力された。右下のボタンから、このまままmodeller(解説HP)のジョブを実行できる。

f:id:kazumaxneo:20200125213954p:plain


modellerの出力。os10.14のsafariブラウザでは構造が表示されなかった。PDBファイル(PDBフォーマット)をダウンロードする。

f:id:kazumaxneo:20200125231021p:plain

 

PDBはPyMOLや他のビューアで表示できる。modellerで出力したPDBファイルをUGENE(紹介)で読み込んだ。

f:id:kazumaxneo:20200125231311p:plain

引用

A Completely Reimplemented MPI Bioinformatics Toolkit With a New HHpred Server at Its Core

Lukas Zimmermann, Andrew Stephens, Seung-Zin Nam, David Rau, Jonas Kübler, Marko Lozajic, Felix Gabler, Johannes Söding, Andrei N Lupas, Vikram Alva

J Mol Biol,  2018 430 (15), 2237-2243


Fast and Accurate Automatic Structure Prediction With HHpred

Andrea Hildebrand , Michael Remmert, Andreas Biegert, Johannes Söding

Proteins, 77 Suppl 9, 128-32 2009


The HHpred Interactive Server for Protein Homology Detection and Structure Prediction

Johannes Söding, Andreas Biegert, Andrei N Lupas

Nucleic Acids Res, 33, W244-8 2005 Jul 1

 

A Completely Reimplemented MPI Bioinformatics Toolkit with a New HHpred Server at its Core

Zimmermann L, Stephens A, Nam SZ, Rau D, Kübler J, Lozajic M, Gabler F, Söding J, Lupas AN, Alva V

J Mol Biol. 2018 Jul 20;430(15):2237-2243

 

bioinformatics

bioinformatics | バイオインフォマティクス | 生物情報科学

ローカルBLASTをGUI環境で実行できる Sequenceserver

2020 1/25 タイトル修正、統合TVリンク追加

 

 シーケンシングコストの劇的な低下により、個人や研究者グループが以前に研究されていない生物からゲノムまたはトランスクリプトーム配列を生成する多くの機会が生まれている。多くの研究の疑問には、小規模または大規模な配列比較が必要であり、BLAST(Basic Local Alignment Search Tool)は、このような多くの分析で最も確立されたツールである(Altschul et al、1990; Camacho et al、2009)。残念ながら、新しいデータのBLAST分析は困難な場合がある。 NCBI(National Center for Biotechnology Information)などのセントラルBLASTリポジトリに新しいデータが送信されて公開されるまでに遅延があり、そのようなリポジトリで実行できるクエリはごくわずかである。 BLASTはローカルにダウンロードしてインストールできるが、コマンドラインインターフェイスの経験のない研究者にとっては使用が難しい場合がある。最後に、このようなハードルを克服するための商用ソフトウェアは、多くの研究所にとって費用がかかりすぎる。

 ここでは、カスタムデータセットでBLAST検索を実行および解釈する生物学者の研究者、および共有ラボまたはコミュニティデータベースを設定する生物情報学者の生産性を高めるために設計されたBLASTの無料のグラフィカルインターフェイスであるSequenceserverを紹介する。(一部略)

 通常、macOSまたはLinuxを実行しているコンピューターへのSequenceserverのインストールは迅速で、必要なコマンドは1つまたは少数である(オンラインドキュメント参照)。

 

HP

http://sequenceserver.com/#installation

help

http://sequenceserver.com/#support

 

統合TV

 

インストール

依存

  • standard Unix build tools (e.g., gcc, make) are required to install SequenceServer.
  • Ruby
sudo gem install sequenceserver

> sequenceserver -h

$ sequenceserver -h

SUMMARY

 

custom, local, BLAST server

 

USAGE

 

sequenceserver [options]

 

EXAMPLE

 

  # Launch SequenceServer. This will read configuration from

  # ~/.sequenceserver.conf, if present.

  $ sequenceserver

 

  # Use a different config file.

  $ sequenceserver -c ~/.sequenceserver.ants.conf

 

  # Set number of threads to use. This will save the number

  # of threads to use in config file.

  $ sequenceserver -s -n 16

 

  # See if you have FASTA files in database dir that haven't

  # been converted into BLAST database.

  $ sequenceserver -u

 

  # Search for FASTA files in database dir that haven't been

  # converted into BLAST database yet, and convert them.

  $ sequenceserver -m

 

DESCRIPTION

 

SequenceServer lets you rapidly set up a BLAST+ server with an intuitive user

interface for use locally or over the web. If BLAST+ is not installed on your

system, SequenceServer will offer to install BLAST+ for you.  You should only

ever have to point it to a directory of FASTA files / BLAST+ databases.

 

In a given directory, SequenceServer is able to tell FASTA files that are yet

to be formatted for use with BLAST+ and format them, and FASTA files that are

already formatted for use with BLAST+, heuristically skipping all other files

in the directory. Directories are scanned recursively. Type of sequences in a

FASTA file is detected automagically. `parse_seqids` and `hash_index` options

of `makeblastdb` are used to create BLAST+ databases.

 

    -c, --config_file                  Use the given configuration file

        --config                       Same as --config_file (deprecated)

    -b, --bin                          Load BLAST+ binaries from this directory

    -d, --database_dir                 Read FASTA and BLAST database from this directory

    -n, --num_threads                  Number of threads to use to run a BLAST search

    -r, --require                      Load extension from this file

    -H, --host                         Host to run SequenceServer on

    -p, --port                         Port to run SequenceServer on

    -s, --set                          Set configuration value in default or given config file

    -m, --make-blast-databases         Create BLAST databases

        --download-taxdb               Download the taxdb files

    -l, --list_databases               List BLAST databases

    -u, --list-unformatted-fastas      List unformatted FASTA files

    -i, --interactive                  Run SequenceServer in interactive mode

    -D, --devel                        Start SequenceServer in development mode

    -v, --version                      Print version number of SequenceServer that will be loaded

    -h, --help                         Display this help message.

 

 

使い方

データベースのfasta配列があるディレクトリに移動して、sequenceserverを立ち上げる。データベースとする配列をグループごとにサブディレクトリにまとめておくと、ラン時にそのデータベースを指定できる。

cd path/to/database_fasta/
sequenceserver

データベースのパスを聞かれる。カレントにあるなら空白のままエンターキーを押して確定する。

f:id:kazumaxneo:20191122023516p:plain

http://localhost:4567にアクセスする。

 

カレントのfastaとサブフォルダにあるfasta配列が自動で認識され、データベースとなる。配列をウィンドウに貼り付け、データベース(カレントにあるfastaごとにデータベースになっている)を指定して実行する。

f:id:kazumaxneo:20191122025617p:plain

 

f:id:kazumaxneo:20191122025458p:plain

 

e-valueとblastn/tblastxかを選択して実行する。

f:id:kazumaxneo:20200125085450p:plain

実行結果

f:id:kazumaxneo:20200125085136p:plain

f:id:kazumaxneo:20200125085556p:plain

引用

Sequenceserver: A Modern Graphical User Interface for Custom BLAST Databases
Anurag Priyam, Ben J Woodcroft, Vivek Rai, Ismail Moghul, Alekhya Munagala, Filip Ter, Hiten Chowdhary, Iwo Pieniak, Lawrence J Maynard, Mark Anthony Gibbins, HongKee Moon, Austin Davis-Richardson, Mahmut Uludag, Nathan S Watson-Haigh, Richard Challis, Hiroyuki Nakamura, Emeline Favreau, Esteban A Gómez, Tomás Pluskal, Guy Leonard, Wolfgang Rumpf, Yannick Wurm

Molecular Biology and Evolution, Published: 14 August 2019

 

関連


 

 

バクテリアゲノムの自動アセンブリ、アノテーション付けツール asqcan

 

 

asqcanは、細菌ゲノム配列の自動アセンブリ、品質管理、アノテーション付けのためのワークフローパイプラインである。 最新のバクテリアシーケンシングプロジェクトには、かなりの数の単離株が含まれる場合があり、必要なQCとアノテーションの作成、実行に時間がかかる場合がある。 asqcanパイプラインは、これを可能な限り自動化しようと試みる。 asqcanの現在の手順は次の通りである。

  1. FastQCによる生のシーケンシングリードの品質分析
  2. SPAdesを使用したゲノムアセンブリ
  3. quastを使用したアセンブリ品質分析
  4. blobtoolsによるアセンブリの汚染と品質の分析
  5. prokkaを使用したアセンブリアノテーション

 asqcanが完了すると、パイプライン各ステップの成功または失敗に関するレポートが生成される。 成功したステップは、後続で再実行はされない。

 

インストール

依存が多いため、dockerを使い、ubuntu18.04のpython2.7環境でテストした(ホストmacos10.14)。

依存

  • python (2.7)
  • GNU parallel (>=20170422)
  • FastQC (>=0.11.7)
  • spades (>=3.11.1)
  • quast (>=4.6.3)
  • blobtools (>=1.0)
  • blast (>=2.7.1)
  • prokka (>=1.13)

本体 Github

#condaで導入可能 (bioconda link)
conda create -n asqcan -c bioconda -y asqcan python=2.7
conda activate asqcan

#pipの場合
pip install git+https://github.com/bogemad/asqcan.git

asqcan -h

# asqcan -h

usage: asqcan [-h] -q READS_DIR -o OUTDIR [-b DB] [-t THREADS] [-m MEM] [-f]

              [--version] [-v]

 

asqcan - A combined pipeline for bacterial genome ASsembly, Quality Control,

and ANnotation.

 

required arguments:

  -q READS_DIR, --fastq-dir READS_DIR

                        Path to a directory with your interleaved fastq files.

  -o OUTDIR, --output-directory OUTDIR

                        Path to the output directory. A directory will be

                        created if one does not exist.

 

optional arguments:

  -h, --help            show this help message and exit

  -b DB, --blast_database DB

                        Path to the local nt blast database. This pipeline

                        does not require you to have a local copy of the nt

                        database but without it you will not be able to use

                        similarity data for blobtools. Similarity data adds

                        significantly to the blobplot and blobtools table

                        outputs of this pipeline. See https://blast.ncbi.nlm.n

                        ih.gov/Blast.cgi?CMD=Web&PAGE_TYPE=BlastDocs&DOC_TYPE=

                        Download to install a local nt database.

  -t THREADS, --threads THREADS

                        Number of threads to use for multiprocessing.

  -m MEM, --max_memory MEM

                        Maximum amount of RAM to assign to the pipeline in GB

                        (Just the number).

  -f, --force           Overwrite files in the output directories.

  --version             show program's version number and exit

  -v, --verbose         Increase verbosity on command line output (n.b.

                        verbose output is always saved to asqcan.log in the

                        output directory).

 

 

実行方法

各菌のinterleave fastqを含むディレクトリと、準備したblastデータベースを指定する。blastデータベースを指定しない場合、local blastは実行されない。

asqcan -q fastq_dir/ -o output -b blast_database
  •  -q    Path to a directory with your interleaved fastq

 

引用

GitHub - bogemad/asqcan: Pipeline for bacterial genome assembly, quality control and annotation

 

blast databaesのダウンロード

https://blast.ncbi.nlm.nih.gov/Blast.cgi?PAGE_TYPE=BlastDocs&DOC_TYPE=Download

ダウンロードツール


 

 

ターゲット配列とその近傍領域をアセンブリする mapsembler2

 

Mapsembler2は、ターゲットを絞ったアセンブリソフトウェアである。Mapsembler2は、入力として任意のNGSのrawリードセットとスターター配列を取り、ユーザーの選択に応じて、そのスターター配列近傍を線形シーケンスまたはグラフとして出力する。

 

以下のような用途で使うことが提案されている。

1、アセンブルした配列を検証する(SNV、SVsがあるかどうか)。

2、特定の酵素をコードする塩基配列がメタゲノムのリードセット内に存在するか調べる。

3、配列をextendする。

 

紹介

https://www.biostars.org/p/109189/

解説

https://www.biostars.org/p/109189/

HP

https://colibread.inria.fr/software/mapsembler2/

 

音が出ます。

 

 

 インストール

#bioconda(link)
conda create -n mapsembler2 -y
conda activate mapsembler2
conda install -c bioconda -y mapsembler2

mapsembler2_extend

$ mapsembler2_extend 

NAME

mapsembler_extend, version 1.0.0 - Copyright INRIA - CeCILL License

 

SYNOPSIS

mapsembler2_extend <extrem_kmers.fasta> <readsC1.fasta> [<readsC2.fasta> [<readsC3.fasta] ...] [-t extension_type] [-k value] [-c value] [-g value] [-i index_name] [-o name] [-h]

 

DESCRIPTION

TODO

 

OPTIONS

-t extension_type. Default: 1

    1: a strict sequence: any branching stops the extension

    2: a consensus sequence: contiging approach

    3: a strict graph: any branching is conserved in the graph

    4: a consensus graph: "small" polymorphism is merged, but "large" structures are represented

-k size_kmers: Size of the k-mers used duriung the extension phase Default: 31. Accepted range, depends on the compilation (make k=42 for instance) 

-c min_coverage: a sequence is covered by at least min_coverage coherent reads. Default: 2

-g estimated_genome_size: estimation of the size of the genome whose reads come from. 

      It is in bp, does not need to be accurate, only controls memory usage. Default: 3 billion

-x node_len: limit max of nodes length. Default: 40

-y graph_max_depth: limit max of graph depth.Default: 10000

-i index_name: stores the index files in files starting with this prefix name. Can be re-used latter. Default: "index"

    IF THE FILE "index_name.bloom" EXISTS: the index is not re-created 

-o file_name_prefix: where to write outputs. Default: "res_mapsembler" 

-p search_mod: kind of prosses Breadth or Depth. Default: Breadth 

-h prints this message and exit

mapsembler2_extremities

$ mapsembler2_extremities 

USAGE for 'mapsembler2_extremities'

    --k                 (1 arg) :    kmer size that will be used for mapsembler2  [default '']

    --starters          (1 arg) :    starters fasta file  [default '']

    --reads             (1 arg) :    reads dataset file name. Several reads sets can be provided, surrounded by "'s and separated by a space (e.g. --reads "reads1.fa reads2.fa")  [default '']

    --output            (1 arg) :    output substarters file name  [default '']

    --min-solid-subkmer (1 arg) :    minimim abundance to keep a subkmer  [default '3']

    -debug              (0 arg) :    debugging

    -nb-cores           (1 arg) :    number of cores  [default '0']

    -verbose            (1 arg) :    verbosity level  [default '1']

    -help               (0 arg) :    display help about possible options

 

 

実行方法

 スターター配列とペアエンドfastq(gzip圧縮にも対応)を指定する。

mapsembler2_extend starter.fasta pair_1.fq pair_2.fq -t 1 -k 31 -c 2
  • -t    extension_type. Default: 1
        1: a strict sequence: any branching stops the extension
        2: a consensus sequence: contiging approach
        3: a strict graph: any branching is conserved in the graph
        4: a consensus graph: "small" polymorphism is merged, but "large" structures are represented 
  • -k    Size of the k-mers used duriung the extension phase Default: 31. Accepted range, depends on the compilation (make k=42 for instance) 
  • -c    min_coverage: a sequence is covered by at least min_coverage coherent reads. Default: 2

 

引用

Mapsembler2 – ANR Colib'read

 

関連


 

 

 

 

トランスポゾンを分類する TEsorter

 

 Transposable elements(TE)は真核生物ゲノムの重要な部分を構成するが、それらの分類、特にクレードレベルでの分類は依然として困難である。 この目的のために、TEの保存されたタンパク質ドメインに基づいたTEsorterを提案する。 TEsorterはTE、特にLTRレトロトランスポゾン(LTR-RT)を分類し、使いやすく、マルチプロセッシングで高速で、高感度で正確である。 その結果は、分類されたLTR-RTの系統関係と多様性を直接反映することもできる。 Pythonのコードはhttps://github.com/zhangrengang/TEsorterから無料で入手できる。

 

使用されているデータベース

http://repeatexplorer.org/?page_id=918

 

インストール 

ubuntu18.04LTSのpython3.5環境でテストした(conda createで仮想環境作成)。

依存

  • python >3
  • + biopython: quickly install by pip install biopython or conda install biopython
  • + parallel python v1.6.4.4: quickly install by conda install pp
  • hmmscan 3.1x or 3.2x: be compatible with HMMER3/f database format. quickly install by conda install hmmer
  • blast+: quickly install by conda install blast
#bioconda(link)
conda create -n tesorter -y
conda activate tesorter
conda install -c bioconda tesorter -y

本体 Github

git clone https://github.com/zhangrengang/TEsorter 
cd TEsorter
sh build_database.sh

python ../TEsorter.py -h

$ TEsorter -h

2020-01-20 23:15:41,696 -WARNING- Grid computing is not available because DRMAA not configured properly: Could not find drmaa library.  Please specify its full path using the environment variable DRMAA_LIBRARY_PATH

2020-01-20 23:15:41,696 -INFO- No DRMAA, Switching to local/cluster mode.

usage: TEsorter [-h] [--version] [-db {rexdb,rexdb-metazoa,rexdb-plant,gydb}]

                [-st {nucl,prot}] [-pre PREFIX] [-fw] [-p PROCESSORS]

                [-tmp TMP_DIR] [-cov MIN_COVERAGE] [-eval MAX_EVALUE] [-dp2]

                [-rule PASS2_RULE] [-nolib] [-norc] [-nocln]

                sequence

 

lineage-level classification of transposable elements using conserved protein

domains

 

positional arguments:

  sequence              input TE sequences in fasta format [required]

 

optional arguments:

  -h, --help            show this help message and exit

  --version             show program's version number and exit

  -db {rexdb,rexdb-metazoa,rexdb-plant,gydb}, --hmm-database {rexdb,rexdb-metazoa,rexdb-plant,gydb}

                        the database used [default=rexdb]

  -st {nucl,prot}, --seq-type {nucl,prot}

                        'nucl' for DNA or 'prot' for protein [default=nucl]

  -pre PREFIX, --prefix PREFIX

                        output prefix [default='{-s}.{-db}']

  -fw, --force-write-hmmscan

                        if False, will use the existed hmmscan outfile and

                        skip hmmscan [default=False]

  -p PROCESSORS, --processors PROCESSORS

                        processors to use [default=4]

  -tmp TMP_DIR, --tmp-dir TMP_DIR

                        directory for temporary files [default=./tmp]

  -cov MIN_COVERAGE, --min-coverage MIN_COVERAGE

                        mininum coverage for protein domains in HMMScan output

                        [default=20]

  -eval MAX_EVALUE, --max-evalue MAX_EVALUE

                        maxinum E-value for protein domains in HMMScan output

                        [default=0.001]

  -dp2, --disable-pass2

                        do not further classify the unclassified sequences

                        [default=False for `nucl`, True for `prot`]

  -rule PASS2_RULE, --pass2-rule PASS2_RULE

                        classifying rule [identity-coverage-length] in pass-2

                        based on similarity [default=80-80-80]

  -nolib, --no-library  do not generate a library file for RepeatMasker

                        [default=False]

  -norc, --no-reverse   do not reverse complement sequences if they are

                        detected in minus strand [default=False]

  -nocln, --no-cleanup  do not clean up the temporary directory

                        [default=False]

 

 

テストラン

TEsorter-test

f:id:kazumaxneo:20200120232615p:plain

出力(詳細はGithubに書かれている)

f:id:kazumaxneo:20200120232735p:plain


rice6.9.5.liban.rexdb.cls.tsv (TEs/LTR-RTs classifications)

f:id:kazumaxneo:20200120232901p:plain

 

実行方法

TE配列を指定する。8CPU指定。データベースにはREXdb(link)が使用されている。-dbで変更できる。

TEsorter input_file -p 8 -db rexdb

 

 

 ゲノム配列のFASTAはあるがアノテーション情報がない場合、Repeat maskerとLTR_retrieverを使って、TEをゲノムから抽出できます。その1例がGithub READMEの下の方に記載されています。また、LTRなどのRTドメインの配列を抽出、配列比較からphylogenetic analysesを行う例もGithub READMEに記載されています(中盤付近)。

 

引用

TEsorter: lineage-level classification of transposable elements using conserved protein domains

Ren-Gang Zhang, Zhao-Xuan Wang, Shujun Ou, Guang-Yuan Li

bioRxiv preprint first posted online Oct. 10, 2019

 

メタゲノムアセンブリから真核生物由来配列を予測する EukRep

 

 真核微生物は生態系機能の重要な貢献者である。微生物群集の中の真核生物を特定するために遺伝子調査またはDNA「バーコード」が頻繁に使用され、真核生物の多様性の幅が示されている(Pawlowski et al、2012)。ただし、これらのアプローチでは種を検出することしかできず、シーケンスされたゲノムがないと代謝やライフスタイルに関する情報を提供できない。完全に配列決定された真核生物ゲノムの大部分は、培養生物からのものである。遺伝子調査で検出された多様な原生生物といくつかの真菌の培養物アクセスの欠如により、真核生物のリファレンスゲノムデータベースに大きなギャップが引き起こされている(Caron et al、2008; Pawlowski et al、2012)。シングルセルゲノミクスは、未培養の真核生物の配列決定に有望であり、一部の部分ゲノムを生成した(Cuvelier et al、2010; Yoon et al、2011; Monier et al、2012; Vaulot et al、2012; Roy et al、2014; Mangot et al、2017)。ただし、複数の置換増幅は、シングルセルゲノムの完全性を制限している(Woyke et al、2010)。(一部略)

 ここでは、多様な環境サンプルからのデータセットアセンブルされた真核生物配列識別に新しいk-merベースのアプローチを適用した。真核生物ゲノム断片の同定により、ドラフトゲノムへのアサインと遺伝子予測の質の向上が可能になった。アセンブルされたメタゲノムコンティグ上で予測された遺伝子は、系統学的プロファイル、再構築されたゲノムの分類、およびそれらの完全性の評価を取り入れた、さらなるビニング決定のための重要なインプットを提供する。(一部略)
 ユタ州クリスタルガイザーの深部地下微生物群集は、候補栄養門(CP)からの多くの生物を含む、化学合成独立栄養細菌と古細菌に支配されていることがよく特徴付けられている(Probst et al、2014、2016; Emerson et al、2015)。現在の理解では、間欠泉の噴出によってさまざまな新しい種類の細菌や古細菌が地表にもたらされている(Probst et al、2018)。このような深い堆積環境では、有機炭素化合物の可用性が高いとは考えられない。したがって、このシステムへの有機炭素の添加は、新しい間欠泉微生物に対して選択し、よりよく知られている従属栄養生物を濃縮することにより、コミュニティの構成を大きくシフトすると仮定した。この予測をテストするために、浅い間欠泉に追加され、地下水導管で崩壊した木材のサンプルを分析した(以後、CG_WC)。このサンプルと、CG_WCの前日に収集された非木材サンプル(CG_bulk)をメタゲノム解析にかけた。

(以下略)

 

インストール

ubuntu18.04 のpython3.6環境でテストした(docker使用、ホストOS ubuntu18.04LTS)

本体 Github

pip install EukRep

EukRep -h

# EukRep -h

usage: EukRep [-h] -i I -o O [-ff] [--min MIN] [--model MODEL] [-k KMER_LEN]

              [--prokarya PROKARYA] [--seq_names]

              [-m {strict,balanced,lenient}] [--version] [--tie TIE]

 

Identify sequences of predicted eukaryotic origin from a nucleotide fasta file. Individual sequences are split into 5kb chunks. Prediction is performed on each 5kb chunk and sequence origin is determined by majority rule of the chunks.

 

optional arguments:

  -h, --help            show this help message and exit

  -i I                  input fasta file

  -o O                  output file name

  -ff                   Force overwrite of existing output files

  --min MIN             Minimum sequence length cutoff for sequences to be included in prediction. Default is 3kb

  --model MODEL         Path to an alternate trained linear SVM model. Default is lin_svm_160_3.0.pickle

  -k KMER_LEN, --kmer_len KMER_LEN

                        Kmer length to use for making predictions. Lengths between 3-7bp are available by default. If using a custom trained model, specify kmer length here.

  --prokarya PROKARYA   Name of file to output predicted prokaryotic sequences to. Default is to not output prokaryotic sequences.

  --seq_names           Only output fasta headers of identified sequences. Default is full fasta entry

  -m {strict,balanced,lenient}

                        Not compatable with --model.

                                How stringent the algorithm is in identifying eukaryotic scaffolds. Strict has a lower false positive rate and true positive rate; vice verso for leneient. Default is balanced.

  --version             show program's version number and exit

  --tie TIE             Specify how to handle cases where an equal number of a sequences chunks are predicted to be of eukaryotic and prokaryotic origin (Generally occurs infrequently).

                                euk = classify as euk

                                prok = classify as prok

                                rand = assign randomly

                                skip = do not classify

                                Default is to classify as eukaryotic.

 

 

実行方法

FASTA配列を指定する。

EukRep -i input.fasta -o output

 

チュートリアルも紹介されています。

https://github.com/patrickwest/EukRep_Pipeline

引用

Genome-reconstruction for eukaryotes from complex natural microbial communities
West PT, Probst AJ, Grigoriev IV, Thomas BC, Banfield JF

Genome Res. 2018 Apr;28(4):569-580