2021 6/11 minimus2のコマンドを修正
MInumusのpaper(Sommer et al., 2007)より
大規模な全ゲノムシークエンシングプロジェクトの課題に対処するためのアルゴリズムの必要性に応えて、ゲノムアセンブラは非常に大きく複雑になっている。しかし、アセンブラの最も一般的な用途の多くは、より少ないソフトウェアコンポーネントのみ必要とし、よりメモリ使用量が少なく、インストールと実行がはるかに簡単な、より単純なタイプのアセンブラである。
これらの問題に対処するためにMinimusアセンブラを開発し、さまざまなアセンブリ問題でテストした。Minimusがウイルスゲノム、個々の遺伝子、およびBACクローンのアセンブリを含む、いくつかの小さなアセンブリ作業でうまく機能することを示す。さらに、大規模なアセンブリパイプラインの構成要素としての適合性を評価するために、バクテリアゲノムアセンブリにおけるMinimusの性能を評価する。これらのタスクに現在使用されている他のソフトウェアとは異なり、Minimusは、より細分化されたアセンブリを生成することを犠牲にして、大幅に少ないアセンブリエラーを生成することを示す。
スモールゲノムや他の小さなアセンブリ作業のために、Minimusが既存のツールより速くそしてはるかに柔軟であることを見つける。その小型サイズとモジュラー設計により、Minimusは複雑なアセンブリパイプラインのコンポーネントとして最適である。 Minimusはオープンソースソフトウェアプロジェクトとしてリリースされており、そのコードはSourceforgeのAMOSプロジェクトの一部として入手可能である。
AMOS wiki
http://amos.sourceforge.net/wiki/index.php/AMOS
Minimus wiki
http://amos.sourceforge.net/wiki/index.php/Minimus
Minimus2 wiki
http://amos.sourceforge.net/wiki/index.php/Minimus2
インストール
condaを使ってpython2.7の仮想環境に導入した。
A clone of the official AMOS git repo on sourceforge
Amosパッケージを入れれば使える。
#bioconda(link)
mamba create -n amos -y python=2.7
conda activate amos
mamba install -c bioconda -y amos
> minimus
# minimus
The log file is: runAmos.log
Cannot substitute variable strip .afg PREFIX
>minimus2 -h
# minimus2 -h
minimus2 - The AMOS Pipeline for merging 2 assemblies
Usage:
minimus2 prefix \
-D REFCOUNT=<n> \ # Number of sequences in the 1st assembly ; (Required)
-D OVERLAP=<n> \ # Assembly 1 vs 2 minimum overlap (Default 40bp)
-D CONSERR=<f> \ # Maximum consensus error (0..1) (Default 0.06)
-D MINID=<n> \ # Minimum overlap percent identity for alignments (Default 94)
-D MAXTRIM=<n> # Maximum sequence trimming length (Default 20bp)
実行方法
1、minimus
少数の配列セットをアセンブルする(次世代のようなたくさんの配列は処理できない)。
multi-fastaのmy_reads.seqを指定する。
toAmos -s input.seq -o input.afg
minimus input
作業ディレクトリとアセンブル結果のinput.fastaが出力される。
2、minimus2
redundancyを取り除きながら2組のコンティグのマージを行うならminimus2を使う。
cat pair1.seq pair2.seq > concatenate.seq
toAmos -s concatenate.seq -o concatenate.afg
minimus2 concatenate -D REFCOUNT=<number>
上で指定する<number>は最初の配列pair1.seqのサイズになる。grepで取得する。
grep -c "^>" pair1.seq
引用
Minimus: a fast, lightweight genome assembler.
Sommer DD, Delcher AL, Salzberg SL, Pop M
BMC Bioinformatics. 2007 Feb 26;8:64.
Next generation sequence assembly with AMOS
Treangen TJ, Sommer DD, Angly FE, Koren S, Pop M
Curr Protoc Bioinformatics. 2011 Mar;Chapter 11:Unit 11.8