核内ゲノムをアセンブルしている間に、Falconやcanu、その他の素晴らしいアセンブラはミトコンドリアゲノムのアセンブルに完全に失敗しているか、ミトコンドリアゲノムのアセンブルを誤っていることに気がついた。ミトコンドリアゲノムが入力DNAの大部分よりも小さいことを考えれば、これは驚くべきことではない。そこで、アセンブラに頼るのではなく、別のルートでミトコンドリアゲノムをアセンブルすることにした。
インストール
アイデアだけでコードは登録されていない。
必要なツールをインストールする。
conda create -n mitofinder-env -y
conda activate mitofinder-env
conda install -c bioconda -y blasr mummer samtools
実行手順
1、公開されているミトコンドリアゲノムの中でもっとも近いミトコンドリアゲノムにマッピングする。blasrを使う。
blasr raw_pacbio.fasta mito.fasta --bestn 1 -m 1 --nproc 12 > mito.m1
2、サイズセレクトする。18-kb以上であることが分かっているなら、それ以上のリードを選ぶ。そのため、まずawkを使い18-kb以上のアラインメントのリード名をチェックし、
awk '{if($8-$7>18000) print $1"\t"$8-$7"\t"$12}' mito.m1 > output
その中から、もっとも長いアラインメントのリードを抽出する。 IDがxxxxxなら
samtools faidx raw_pacbio.fasta
samtools faidx raw_pacbio.fasta xxxxx > longest.fa
3、環状DNAのオーバーラップがあるのかnucmerを使って確認する。
nucmer -maxmatch --nosimplify mito_read.fasta mito_read.fasta
out.deltaを開き、オーバーラップ領域があれば、そのオーバーラップ領域をトリムする。
4、最後にquiverで研磨する。
おそらくミトコンドリアサイズが短い動物や真菌などのミトコンドリアゲノム向けのプロトコルです。ミトコンドリアサイズが大きな植物には使えないと思います。注意して下さい。
引用
Hidden genetic variation shapes the structure of functional elements in Drosophila
Mahul Chakraborty, Nicholas W. VanKuren, Roy Zhao, Xinwen Zhang, Shannon Kalsow & J. J. Emerson
Nature Genetics volume 50, pages20–25(2018)