MIRAは、全ゲノムおよびEST/RNASeqプロジェクト用のマルチパスDNA配列データアセンブラ/マッパーである。MIRAは以下の方法で得られたリードをアセンブル/マッピングする。
- electrophoresis sequencing(別名サンガーシーケンシング
- イルミナ(Solexa)シーケンシング
- あまりない。454パイロシークエンシング(GS20、FLX、Titanium)
- 少ない: イオントレント
異なるシーケンス技術の配列を1回のアセンブルで使用する方法(真のハイブリッドアセンブル)や、あるデータを他のシーケンスタイプのアセンブルにマッピングする方法(セミハイブリッドアセンブル(またはマッピング))、データを他のアセンブルのコンセンサス配列にマッピングする方法(シンプルマッピング)が用意されている。
MIRAはMimicking Intelligent Read Assemblyの頭文字を取ったもので、このプログラムはその頭文字通りの働きをする。このプログラムは、著者自身が過去20年間に使用・開発してきたシーケンスアセンブリのスイスアーミーナイフであり、自身が担当するアセンブリ作業を効率的に、そして特に正確に行うためのものである。
時が経つにつれ、他のラボやシーケンスプロバイダーは、多くの反復配列を含む非常に「不親切」なプロジェクトのアセンブリにMIRAが役立つことを発見した。
HP
http://chevreux.org/projects_mira.html
manual (ページ中盤からmira5)
Sequence assembly and mapping with MIRA 5
インストール
mamba で環境を作ってテストした (ubuntu18.04使用)。
最新版はこちら(V5rc1)
mamba create -n mira -y
conda activate mira
mamba install -c bioconda mira -y
> mira -h
# mira -h
mira MIRALIB version 4.9.6
Author: Bastien Chevreux (bach@chevreux.org)
Purpose: assemble sequencing data.
To (un-)subscribe the MIRA mailing lists, see:
http://www.chevreux.org/mira_mailinglists.html
After subscribing, mail general questions to the MIRA talk mailing list:
mira_talk@freelists.org
To report bugs or ask for features, please use the SourceForge ticketing
system at:
http://sourceforge.net/p/mira-assembler/tickets/
This ensures that requests do not get lost.
Compiled by: bach
Sun May 1 18:46:19 CEST 2016
On: Linux vk10464 2.6.32-41-generic #94-Ubuntu SMP Fri Jul 6 18:00:34 UTC 2012 x86_64 GNU/Linux
Compiled in boundtracking mode.
Compiled in bugtracking mode.
Compiled with ENABLE64 activated.
Runtime settings (sorry, for debug):
Size of size_t : 8
Size of uint32 : 4
Size of uint32_t: 4
Size of uint64 : 8
Size of uint64_t: 8
Current system: Linux 453daa4cfccc 5.10.25-linuxkit #1 SMP Tue Mar 23 09:27:39 UTC 2021 x86_64 x86_64 x86_64 GNU/Linux
Usage:
mira [options] manifest_file [manifest_file ...]
Options:
-c / --cwd= directory Change working directory
-m / --mcheck Only check the manifest file, then exit.
-M / --mdcheck Like -m, but also check existence of
data files.
-r / --resume Resume an interrupted assembly
-h / --help Print short help and exit
-m / --mcheck Only check the manifest file, then exit.
-M / --mdcheck Like -m, but also check existence of
data files.
-r / --resume Resume/restart an interrupted assembly
-t / --threads= integer Force number of threads (overrides
equivalent -GE:not manifest entry)
-v / --version Print version and exit
バージョンは4.9.6
実行方法
コンフィグファイルを指定する。
mira parameter.conf
コンフィグファイルの例
# Example for a manifest describing a de-novo assembly with
# unpaired 454, paired-end Illumina, a mate-pair Illumina
# and a paired Ion Torrent
# First part: defining some basic things
# In this example, we just give a name to the assembly
# and tell MIRA it should assemble a genome de-novo in accurate mode
# As special parameter, we want to use 4 passes with kmer sizes of
# 17, 31, 63 and 127 nucleotides. Obviously, read lengths of the
# libraries should be greater than 127 bp.
# Note: usually MIRA will choose sensible options for number of
# passes and kmer sizes to be used by itself.
project = MyFirstAssembly
job = genome,denovo,accurate
parameters = -AS:kms=17,31,63,127
# The second part defines the sequencing data MIRA should load and assemble
# The data is logically divided into "readgroups": this reflects the
# ... that read sequences ...
# defining the shotgun (i.e. unpaired) 454 reads
readgroup = SomeUnpaired454ReadsIGotFromTheLab
data = TCMFS456ZH345.fastq TQF92GT7H34.fastq
technology = 454
# defining the paired-end Illumina reads, fixing all needed pair information
readgroup = SomePairedEndIlluminaReadsIGotFromTheLab
data = datape*.fastq
technology = solexa
template_size = 100 300
segment_placement = ---> <---
segment_naming = solexa
# defining the mate-pair Illumina reads, fixing most needed pair information
# but letting MIRA refine the template_size via "autorefine"
readgroup = SomeMatePairIlluminaReadsIGotFromTheLab
data = datamp*.fastq
technology = solexa
template_size = 2000 4000 autorefine
segment_placement = <--- --->
segment_naming = solexa
# defining paired Ion Torrent reads
# example to show how lazy one can be and simply let MIRA estimate by itself
# all needed pairing information via "autopairing"
# Hint: it usually does a better job at it than we do ;-)
readgroup = SomePairedIonReadsIGotFromTheLab
autopairing
data = dataion*.fastq
technology = iontor
イルミナのペアエンドはマージして入力できる。
引用
Chevreux, B., Wetter, T. and Suhai, S. (1999): Genome Sequence Assembly Using Trace Signals and Additional Sequence Information. Computer Science and Biology: Proceedings of the German Conference on Bioinformatics (GCB) 99, pp. 45-56.
Chevreux, B., Pfisterer, T., Drescher, B., Driesel, A. J., Müller, W. E., Wetter, T. and Suhai, S. (2004): Using the miraEST Assembler for Reliable and Automated mRNA Transcript Assembly and SNP Detection in Sequenced ESTs. Genome Research, 14(6)
2021 7/13
MIRA4のハイブリッドアセンブリ例