2020 3/3 論文引用
ゲノムシーケンシング技術全体の進歩により、近年ゲノム配列が決定された生物数が大幅に増加している。これは、広範な生物の比較ゲノム解析を行う機会を提供している。分析結果は、使用されたゲノムアセンブリの品質に大きく依存する。アセンブリ内のエラーは、それらに基づく分析予測と推論を直接損なう[Preprintより ref.1]。アセンブリ精度の評価は、分析結果の信頼性を大幅に向上させる可能性があり、したがって非常に重要である。
ゲノムアセンブリ精度評価のために開発されたいくつかのツール、すなわちREAPR [ref.2](紹介)、FRCbam [ref.3]およびPilon [ref.4](紹介)がある。これらのツールは、アセンブリにリードをマッピングして、アラインメントに不一致がある領域を特定し、アセンブリエラーの場所を検出する。不一致には、異常なカバレッジ、ペアエンドリードのインサートサイズの異常、ペアエンドリードの一方または両方のリードのアライメント方向の異常、およびソフトクリッピングリードの大部分(アセンブリに部分的にマップされるリード:リードの一方の末端はリファレンスにマッピングされ、他方の末端はされない)、シングルトン(パートナーがマッピングされていないペアエンドリード)このツールは、中〜長サイズの挿入、欠失、逆位、重複、および染色体内および染色体間の再構成を含む構造的エラーを検出することを目的としている。Pilonは小さな挿入、欠失、置換の検出も可能にし、検出されたアセンブリエラーを可能な限り修正するためにローカルアセンブリを実行する。
ゲノムアセンブリ精度評価問題は、構造変化(SV)検出問題と非常によく似ている。 Wham [ref.5]、BreakDancer [ref.6]、Lumpy [ref.7]など、同じ種またはclosely relatedな種のゲノム間の構造変化を検出するために開発されたツールは、REAPR、PilonおよびFRCbamのワークフローのリードアライメントと同じタイプの矛盾を利用する。このようなツールの使用は、ゲノムアセンブリのエラー検出のために代替して使える可能性がある。
ここでは、ゲノムアセンブリの精度評価を目的とした新しいツールNucBreakを紹介する。他のツールとは対照的に、アセンブリに適切にマップされたリードのアライメントを分析し(ペアの両方のリードが適切な向きと距離で完全にアライメントされている)、別のアラインメントに関する情報を探索して、アセンブリの構造的な誤りを検出する。ツールはREAPR、FRCbam、Pilonと比較されている。(一部略)テスト結果により、NucBreakは、他のツールより高い精度でアセンブリエラーを予測し、同時に高い感度を維持できることを示す。
Preprintより転載
Finally out! NucBreak: location of structural errors in a genome assembly by using paired-end Illumina reads. https://t.co/d1ABW0BYWh
— Lex Nederbragt (@lexnederbragt) 2020年3月2日
We end the NucDiff, NucBreak series with NucMerge: Genome assembly quality improvement assisted by alternative assemblies and paired-end Illumina reads. Now out on #bioRxiv https://t.co/RverfOEu9u
— Lex Nederbragt (@lexnederbragt) 2018年12月1日
インストール
mac os10.14の miniconda2-4.0環境でテストした。
依存
- NucBreak can be run on Linux and Mac OS. It uses Python 2.7, Bowtie2 v2.2.9 and the SAMtools utilities v1.3.1. Bowtie2 and SAMtools should be installed and be in the PATH before running NucBreak.
本体 Github
git clone https://github.com/uio-bmi/NucBreak.git
cd NucBreak/
>python nucbreak.py -h
$ python nucbreak.py -h
usage: nucbreak.py [-h] [--min_frag_size [MIN_FRAG_SIZE]]
[--max_frag_size [MAX_FRAG_SIZE]] [--sam_1 [SAM_1]]
[--sam_2 [SAM_2]] [--bam_pos [{yes,no}]] [--version]
Genome.fasta PE_reads_1.fastq PE_reads_2.fastq Output_dir
Prefix
positional arguments:
Genome.fasta - Fasta file with genome sequences
PE_reads_1.fastq - Fastq file with the first part of paired-end reads.
They supposed to be forward-oriented
PE_reads_2.fastq - Fastq file with the second part of paired-end reads.
They supposed to be reverse-oriented
Output_dir - Path to the directory where all intermediate and
final results will be stored
Prefix - Name that will be added to all generated files
including the ones created by Bowtie2
optional arguments:
-h, --help show this help message and exit
--min_frag_size [MIN_FRAG_SIZE]
- minimum fragment size used to choose perfectly
mapped read pairs
--max_frag_size [MAX_FRAG_SIZE]
- miximum fragment size used to choose perfectly
mapped read pairs
--sam_1 [SAM_1] - Path to the already existing Bowtie2 sam file
containing alignment results for the first part of
paired-end reads.
--sam_2 [SAM_2] - Path to the already existing Bowtie2 sam file
containing alignment results for the second part of
paired-end reads.
--bam_pos [{yes,no}] - Generate bam files with entries sorted out by
location and index files (yes/no)
--version show program's version number and exit
実行方法
python nucbreak.py my_genome.fasta my_pe_reads_1.fastq my_pe_reads_1.fastq my_output_dir my_prefix
引用
NucBreak: Location of structural errors in a genome assembly by using paired-end Illumina reads
Ksenia Khelik, Geir Kjetil Sandve, View ORCID ProfileAlexander Johan Nederbragt, Torbjørn Rognes
bioRxiv preprint first posted online Aug. 16, 2018
2020 3/3 追記
NucBreak: location of structural errors in a genome assembly by using paired-end Illumina reads
Ksenia Khelik, Geir Kjetil Sandve, Alexander Johan Nederbragt, Torbjørn Rognes
BMC Bioinformatics volume 21, Article number: 66 (2020)