macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

MIRAアセンブラ

 

MIRAは、全ゲノムおよびEST/RNASeqプロジェクト用のマルチパスDNA配列データアセンブラ/マッパーである。MIRAは以下の方法で得られたリードをアセンブル/マッピングする。

  • electrophoresis sequencing(別名サンガーシーケンシング
  • イルミナ(Solexa)シーケンシング
  • あまりない。454パイロシークエンシング(GS20、FLX、Titanium)
  • 少ない: イオントレント

異なるシーケンス技術の配列を1回のアセンブルで使用する方法(真のハイブリッドアセンブル)や、あるデータを他のシーケンスタイプのアセンブルマッピングする方法(セミハイブリッドアセンブル(またはマッピング))、データを他のアセンブルのコンセンサス配列にマッピングする方法(シンプルマッピング)が用意されている。

MIRAはMimicking Intelligent Read Assemblyの頭文字を取ったもので、このプログラムはその頭文字通りの働きをする。このプログラムは、著者自身が過去20年間に使用・開発してきたシーケンスアセンブリのスイスアーミーナイフであり、自身が担当するアセンブリ作業を効率的に、そして特に正確に行うためのものである。

時が経つにつれ、他のラボやシーケンスプロバイダーは、多くの反復配列を含む非常に「不親切」なプロジェクトのアセンブリにMIRAが役立つことを発見した。

 

HP

http://chevreux.org/projects_mira.html

 

manual (ページ中盤からmira5)

Sequence assembly and mapping with MIRA 5

 

インストール

mamba で環境を作ってテストした (ubuntu18.04使用)。

最新版はこちら(V5rc1)

mamba create -n mira -y
conda activate mira
mamba install -c bioconda mira -y

mira -h

# mira -h

mira MIRALIB version 4.9.6

Author: Bastien Chevreux (bach@chevreux.org)

Purpose: assemble sequencing data.

 

To (un-)subscribe the MIRA mailing lists, see:

http://www.chevreux.org/mira_mailinglists.html

 

After subscribing, mail general questions to the MIRA talk mailing list:

mira_talk@freelists.org

 

 

To report bugs or ask for features, please use the SourceForge ticketing

system at:

http://sourceforge.net/p/mira-assembler/tickets/

This ensures that requests do not get lost.

 

 

Compiled by: bach

Sun May  1 18:46:19 CEST 2016

On: Linux vk10464 2.6.32-41-generic #94-Ubuntu SMP Fri Jul 6 18:00:34 UTC 2012 x86_64 GNU/Linux

Compiled in boundtracking mode.

Compiled in bugtracking mode.

Compiled with ENABLE64 activated.

Runtime settings (sorry, for debug):

Size of size_t  : 8

Size of uint32  : 4

Size of uint32_t: 4

Size of uint64  : 8

Size of uint64_t: 8

Current system: Linux 453daa4cfccc 5.10.25-linuxkit #1 SMP Tue Mar 23 09:27:39 UTC 2021 x86_64 x86_64 x86_64 GNU/Linux

 

Usage:

mira [options] manifest_file [manifest_file ...]

 

Options:

  -c / --cwd= directory Change working directory

  -m / --mcheck Only check the manifest file, then exit.

  -M / --mdcheck Like -m, but also check existence of

data files.

  -r / --resume Resume an interrupted assembly

  -h / --help Print short help and exit

  -m / --mcheck Only check the manifest file, then exit.

  -M / --mdcheck Like -m, but also check existence of

data files.

  -r / --resume Resume/restart an interrupted assembly

  -t / --threads= integer Force number of threads (overrides

equivalent -GE:not manifest entry)

  -v / --version Print version and exit

 バージョンは4.9.6

 

 

実行方法

コンフィグファイルを指定する。

mira parameter.conf

 コンフィグファイルの例

# Example for a manifest describing a de-novo assembly with
# unpaired 454, paired-end Illumina, a mate-pair Illumina
# and a paired Ion Torrent

# First part: defining some basic things
# In this example, we just give a name to the assembly
# and tell MIRA it should assemble a genome de-novo in accurate mode
# As special parameter, we want to use 4 passes with kmer sizes of
# 17, 31, 63 and 127 nucleotides. Obviously, read lengths of the
# libraries should be greater than 127 bp.
# Note: usually MIRA will choose sensible options for number of
# passes and kmer sizes to be used by itself.

project = MyFirstAssembly
job = genome,denovo,accurate
parameters = -AS:kms=17,31,63,127

# The second part defines the sequencing data MIRA should load and assemble
# The data is logically divided into "readgroups": this reflects the
# ... that read sequences ...

# defining the shotgun (i.e. unpaired) 454 reads
readgroup = SomeUnpaired454ReadsIGotFromTheLab
data = TCMFS456ZH345.fastq TQF92GT7H34.fastq
technology = 454

# defining the paired-end Illumina reads, fixing all needed pair information
readgroup = SomePairedEndIlluminaReadsIGotFromTheLab
data = datape*.fastq
technology = solexa
template_size = 100 300
segment_placement = ---> <---
segment_naming = solexa

# defining the mate-pair Illumina reads, fixing most needed pair information
# but letting MIRA refine the template_size via "autorefine"
readgroup = SomeMatePairIlluminaReadsIGotFromTheLab
data = datamp*.fastq
technology = solexa
template_size = 2000 4000 autorefine
segment_placement = <--- --->
segment_naming = solexa

# defining paired Ion Torrent reads
# example to show how lazy one can be and simply let MIRA estimate by itself
# all needed pairing information via "autopairing"
# Hint: it usually does a better job at it than we do ;-)
readgroup = SomePairedIonReadsIGotFromTheLab
autopairing
data = dataion*.fastq
technology = iontor

 

イルミナのペアエンドはマージして入力できる。 

 

引用

Chevreux, B., Wetter, T. and Suhai, S. (1999): Genome Sequence Assembly Using Trace Signals and Additional Sequence Information. Computer Science and Biology: Proceedings of the German Conference on Bioinformatics (GCB) 99, pp. 45-56.

 

Chevreux, B., Pfisterer, T., Drescher, B., Driesel, A. J., Müller, W. E., Wetter, T. and Suhai, S. (2004): Using the miraEST Assembler for Reliable and Automated mRNA Transcript Assembly and SNP Detection in Sequenced ESTs. Genome Research, 14(6)