macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

mito-finder

 

 核内ゲノムをアセンブルしている間に、Falconやcanu、その他の素晴らしいアセンブラミトコンドリアゲノムのアセンブルに完全に失敗しているか、ミトコンドリアゲノムのアセンブルを誤っていることに気がついた。ミトコンドリアゲノムが入力DNAの大部分よりも小さいことを考えれば、これは驚くべきことではない。そこで、アセンブラに頼るのではなく、別のルートでミトコンドリアゲノムをアセンブルすることにした。

 

インストール

イデアだけでコードは登録されていない。

GIthub

必要なツールをインストールする。

conda create -n mitofinder-env -y
conda activate mitofinder-env
conda install -c bioconda -y blasr mummer samtools

 

実行手順

1、公開されているミトコンドリアゲノムの中でもっとも近いミトコンドリアゲノムにマッピングする。blasrを使う。

blasr raw_pacbio.fasta mito.fasta --bestn 1 -m 1 --nproc 12 > mito.m1

 

2、サイズセレクトする。18-kb以上であることが分かっているなら、それ以上のリードを選ぶ。そのため、まずawkを使い18-kb以上のアラインメントのリード名をチェックし、

awk '{if($8-$7>18000) print $1"\t"$8-$7"\t"$12}' mito.m1 > output

その中から、もっとも長いアラインメントのリードを抽出する。 IDがxxxxxなら

samtools faidx raw_pacbio.fasta
samtools faidx raw_pacbio.fasta xxxxx > longest.fa

 

3、環状DNAのオーバーラップがあるのかnucmerを使って確認する。

 nucmer -maxmatch --nosimplify mito_read.fasta mito_read.fasta

out.deltaを開き、オーバーラップ領域があれば、そのオーバーラップ領域をトリムする。

 

4、最後にquiverで研磨する。

 

おそらくミトコンドリアサイズが短い動物や真菌などのミトコンドリアゲノム向けのプロトコルです。ミトコンドリアサイズが大きな植物には使えないと思います。注意して下さい。

引用

Hidden genetic variation shapes the structure of functional elements in Drosophila

Mahul Chakraborty, Nicholas W. VanKuren, Roy Zhao, Xinwen Zhang, Shannon Kalsow & J. J. Emerson
Nature Genetics volume 50, pages20–25(2018)