近年のロングリードシークエンシング技術の進歩は、大規模なコンソーシアムが地球上のすべての真核生物の配列を決定することを可能にするだけでなく、多くの研究室が関心のある種のゲノム配列を決定することも可能にしている。しかし、コンティグの数は染色体の数を大幅に超えており、ホモポリマー・トラックの周辺には多くの挿入・欠失エラーが含まれています。これらの問題を解決するために、著者らはロングリードベースのアセンブリを修正するILRAを実装した。このパイプラインは、コンティグの順序付け、名前付け、結合、環化を行い、誤った小さなコンティグやコンタミネーションをフィルタリングし、イルミナリードによるホモポリマーエラーを修正する。その結果、ホモポリマー・トラックを修正することで、偽遺伝子として誤ってアノテーションされる遺伝子の数を減らすことができたが、多数のホモポリマー・エラーを減らすには、繰り返し修正する必要があるようである。以上、ロングリードアセンブリーの品質を向上させる新しいツールの性能を比較した。このツールは、300 Mbまでのサイズのゲノムを修正するために使用することができる。
以下のステップは、ILRAによって自動的に実行される。
1、ユーザーが提供したコンティグ配列のクリーニング。これは、PacBioテクノロジーの平均リード長が7kb以上であり、小さなコンティグはキメラリードなどの不適切なリードと考えられるためである。より大きなコンティグの配列と完全に重なるコンティグも削除される。
2、コンティグのマージ。オーバーラップしているコンティグは、オーバーラップしている領域が2kb以上で、99%以上の同一性を示し、イルミナショートリードのカバレッジがフルアセンブリのカバレッジの中央値の40-60%である場合にマージされる。これらの条件により、コンティグがリピートのためにマージされないことが保証される。
3、コンティグをリファレンスに対してオーダーする(オプション)。ABACAS2を用いて、配列の名前を変更し、コンティグをリファレンスゲノムを用いて並び替え、方向付けを行う。
4、ホモポリマーのエラーを修正する。ゲノムアセンブリの一般的な限界とは別に、ロングリードにはホモポリマートラックの存在に関連した特別な欠点がある。ILRAはiCORN2を介してIlluminaショートリードを使用して一塩基の不一致とindelを修正し、デフォルトで500bpのフラグメント長および3反復実行する。
5、プラスミドの環状化:オルガネラや染色体外プラスミドのゲノムは環状であり、正しい配列を原点から生成する必要がある。そこで、ミトコンドリア(または原虫などの一部の寄生虫ではアピコプラスト、またはT. brucei "maxicircle" contig)に対応する配列を、Circlator v1.5.5を用いて、デフォルトのパラメータ(コマンド「all」)でILRAにより環状化させる。
6、Decontaminating contigs。コンタミネーションのコンティグは、Centrifuge v1.0.4(Kim, et al., 2016)による分類学的な分類アプローチを用いて、デフォルトのパラメータ(NCBI nucleotide non-redundant sequences as reference and --min-hitlen 100)でILRAによって識別される。デノボアセンブリプロセスの前の汚染配列除去が推奨されるが、ILRAはこのステップで、潜在的なコンタミを表すNCBI分類群に割り当てられたコンティグをフィルタリングするように設計されている。コンティグは、デフォルトのパラメータでRecentrifuge v1.3.1(Marti, 2019)を使用して除去される。汚染と分類された除外されたコンティグは、Excluded.contigs.fofnというファイルに記録される。ユーザーが適応できるように、残すべきNCBI分類群IDと優先順位をインラインパラメータとしてILRAに提供し、削除する分類群IDをexclude_taxons_recentrifuge_ILRA.txtファイルでILRAに提供できる(デフォルトではBacteria, Viruses, Fungi, Mammals, artificial sequencesに対応)。
7、アセンブリの統計情報を収集する。染色体の完全性を評価するために、テロメア関連配列とテロメアリピートをカウントする。また、両方のテロメアが付いている染色体の数も推定する。テロメア内で解析する配列は、デフォルトで設定されているが、インラインパラメータとしてILRAに提供し、ユーザーが調整できるようにすることもできる。アセンブリ品質を評価するために、ILRAはシーケンスデプス、リード長、コンティグサイズ、GC-content、アセンブリーサイズ、N50値、ギャップ数などの一般的な統計情報を補正前および補正後に報告する。オプションとして、リファレンスゲノムとアノテーションファイル(GFF形式)が提供されている場合は、ソフトウェアQUAST v5.0.2も使用して、参照と比較した構造バリアント、ミスアセンブリまたはミスマッチなどのさまざまなメトリクスやプロットを計算する。
インストール
Windows10 proでVirtualBox を使ってテストした。
VirtualBoxを使うことが推奨されている。GithubのリンクからVirtualBoxのイメージ(.dvi)(47GB)をダウンロードする。
VirtualBoxのダウンロード (macos, linux, windows)
https://www.oracle.com/virtualization/technologies/vm/downloads/virtualbox-downloads.html
VirtualBoxを起動し、仮想マシンを作成する。新規ボタンをクリック。
新規マシンの作成ウィンドウがでたら、すでにある~を選択し、右端のフォルダのマークをクリックする。
ウィンドウが出てくるので、追加ボタンをクリックし、ダウンロードしたVirtualBoxのイメージを選択する。
イメージが読み込まれたら、起動前に設定を変更する。ここではメモリとCPU数、ストレージを増やした。
起動する。ユーザー名はbioinfo、パスワードは”Glasgow2020”。
起動したところ。
テストラン
以下のディレクトリのデータが使用されている。
出力ディレクトリ
実際に自分のデータをランするには、ILRA_pipeline/bin/ILRA/ILRA.shを使う。上のテストスクリプトのように実行すればランできる。
ILRA.sh -a $ASSEMBLY -o $OUTPUT_FOLDER_ILRA -c $CORRECTED_READS -n subset_test -r $REFERENCE -I $ILLU_READS -t $CORES -g $GFF_REF_FILE -L pbを実行する。
引用
From contigs to chromosomes: automatic Improvement of Long Read Assemblies (ILRA)
José L Ruiz, Susanne Reimering, Mandy Sanders, Juan David Escobar-Prieto, Nicolas M. B. Brancucci, Diego F. Echeverry, Abdirahman I. Abdi, Matthias Marti, Elena Gomez-Diaz, Thomas D. Otto
bioRxiv, Posted August 01, 2021
参考
https://blogs.oracle.com/oswald/importing-a-vdi-in-virtualbox