サンガーシーケンシングデータの自動分類とアセンブリを行う AutoSeqMan

　DNAシーケンシング技術は、自動サンガーシーケンシング（Sanger et al、1977）から次世代シーケンシング（NGS; Shendure＆Ji（2008）およびアセンブリまで革新的な進化を遂げている。NGSは高い処理能力（Schuster、2008）のために支配されているが、高コストなどの要因のため、多くのpopulation studieには適していない。たとえば、NGSデータ（Bickhart et al、2017）を使用した最終的なアセンブリおよびアノテーション結果にはエラーが常に導入されるため（Bickhart et al、2017 pubmed）、ハイスループット解析で検出されるバリエーションにはSangerシーケンシングによる検証が常に必要になる（Wall et al、2014 pubmed）。さらに、現在のいくつかのpopulation genomic studiesでは、イルミナデータのカバレッジデプスが深くなるにつれてエラー率が上昇することが判明しており、次世代シークエンシング関連研究の結果を解釈する際には注意が必要である（Wall et al、2014 ）。それゆえ、サンガーシーケンシングは今でも幅広い分野で利用されており、特に短いDNA配列に基づく進化的分類（Chen et al、2017）、野生動物の進化史研究（Yuan et al、2016）、生物多様性推定（Zhou et al、2017）、およびハイスループット解析から同定された突然変異の検証（Sun et al、2013）が含まれるが、これらに限定されない。

　さらに、DNAシーケンシングの幅広い応用、例えば、生物の個々を同定するために短い標準化したDNA配列を用いるDNAバーコード法（Hajibabaei et al、2007; Savolainen et al、2005）、サンガーシーケンシングデータは進化分類学などで蓄積され続けている。したがって、これらのサンガーシーケンシングのバッチ操作は、特にプログラムまたはバイオインフォマティクスの背景や実験をしていない人にとっては、下流の分析前に重要な課題となっている。 MEGA（Kumar et al、2016）、EMBOSS（Rice et al、2000）、およびFasParser（Sun、2017）（紹介）を含む、一般的な問題のためのいくつかの配列操作パッケージが公開されているが、これらのパッケージは、コンティグ（オーバーラップするDNA配列のコンセンサス領域）のためのツールであり、サンガー配列のバッチアセンブリについて重要な考慮はなされていない。

　SeqManは、Sanger配列をコンティグにアセンブリするために使用されるLaserGeneソフトウェアパッケージ（DNAStar、Inc.、Madison、WI、USA）の一般的なプログラムであり、多数の研究に広く適用されている。これは、一度に2~数千のサンガーシーケンスを扱うことができるが、かなりの数の手作業（例えば、マウス動作、論文図1）が必要である。したがって、大量のサンプルセットをアセンブリする人にとっては、複雑で時間がかかる。幸運なことに、バージョン7のリリース以来、SeqManはプロジェクトのオープン、命名、保存、および終了のためのコマンドを含むスクリプト言語を提供し、手動による介入なしに複数のアセンブリを連続して実行するために単一スクリプトを使用することができるようになった。
　この論文では、自動でSangerシーケンスを分類し、それをパーソナルコンピュータで連続してアセンブリする簡単な方法を提供するautoSeqManプログラムを説明する。これは主に、1つの遺伝子または複数の遺伝子についての大きなのシーケンシングセットを扱う研究者のために設計されている。

DNASTARパッケージを購入していないとアセンブリはできません。ご注意ください。

autoSeqManに関するツイート

インストール

windows 専用なので、mac os 10.13-parallels13上のwindows 10 proでテストした。

本体　Github

GitHub - Sun-Yanbo/autoSeqMan: Batch Assembly of Contigs for Sanger Sequences

Githubのリリースからexeファイルをダウンロードする。

https://github.com/Sun-Yanbo/autoSeqMan/releases

ダウンロードしたexeファイルをダブルクリックして、インストールする。

ラン

1、CLASSIFICATION

ルールに従ってサンガーシーケンスデータを自動分類する。サブフォルダが自動作成される。論文には、著者らの実験経験からサンプルを管理し照会するため効率的で便利な方法である、と記述されている。

Classificationタブをアクティブにする。

f:id:kazumaxneo:20180721212001j:plain

動作に必要なものは、raw サンガーシーケンシングデータファイル（.ab1）。ランにはデータを全て含むディレクトリを指定する。正しく動作させるには、すべてのファイルを特定のパターン“sample-locus-others”に従って命名されなければならない。例えば、ファイル名「YPX24212_16S-2215_TSS20171122-0871-1171_H02.ab1」は、16SのDNA配列であり、サンプル番号が「YPX24212」であることを示している。プログラムは、ユーザー指定の区切り文字に従ってファイル名を自動認識し、メイン出力フォルダにサブフォルダ "YPX24212_16S"を作成する。区切り文字は " - "、 "_"などのように指定できる。

ダブルクリックして左のウィンドウのexample/ab1を読み込む。区切り文字はハイフン"-"とする。=> 中央のClassificationで分類を実行する。

f:id:kazumaxneo:20180721212646j:plain

元のデータ

f:id:kazumaxneo:20180721212952j:plain

作成されたサブフォルダ。ここではYPSX242~16Sの区切り文字が同じデータが同じフォルダに分類されている。１つ開いてみる。

f:id:kazumaxneo:20180721213020j:plain

このフォルダには２つのシーケンシングデータが収納されていた。

f:id:kazumaxneo:20180721213220j:plain

このように、ルールを決めてランすればサンプルを自動分類できる。

２、ASSEMBLY

分類されたシーケンスファイルを自動でアセンブルする。最初にCLASSIFICATION機能によって分類されたサブフォルダのリストを読み込み、各サブフォルダ内のシーケンスを連続してアセンブリするためのSeqManスクリプトを生成する。この機能を実行するには、まずDNASTARパッケージ（バージョン7以上）をインストールしてから、autoSeqManプログラムのフルパスをautoSeqManに伝える必要がある。

分類したフォルダを指定し、SeqManのパスを指定する。

f:id:kazumaxneo:20180721214358j:plain