macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

アセンブリの構造的誤りが疑われる部位をコールする NucBreak

 

  ゲノムシーケンシング技術全体の進歩により、近年ゲノム配列が決定された生物数が大幅に増加している。これは、広範な生物の比較ゲノム解析を行う機会を提供している。分析結果は、使用されたゲノムアセンブリの品質に大きく依存する。アセンブリ内のエラーは、それらに基づく分析予測と推論を直接損なう[Preprintより ref.1]。アセンブリ精度の評価は、分析結果の信頼性を大幅に向上させる可能性があり、したがって非常に重要である。
 ゲノムアセンブリ精度評価のために開発されたいくつかのツール、すなわちREAPR [ref.2](紹介)、FRCbam [ref.3]およびPilon [ref.4](紹介)がある。これらのツールは、アセンブリにリードをマッピングして、アラインメントに不一致がある領域を特定し、アセンブリエラーの場所を検出する。不一致には、異常なカバレッジ、ペアエンドリードのインサートサイズの異常、ペアエンドリードの一方または両方のリードのアライメント方向の異常、およびソフトクリッピングリードの大部分(アセンブリに部分的にマップされるリード:リードの一方の末端はリファレンスにマッピングされ、他方の末端はされない)、シングルトン(パートナーがマッピングされていないペアエンドリード)このツールは、中〜長サイズの挿入、欠失、逆位、重複、および染色体内および染色体間の再構成を含む構造的エラーを検出することを目的としている。Pilonは小さな挿入、欠失、置換の検出も可能にし、検出されたアセンブリエラーを可能な限り修正するためにローカルアセンブリを実行する。
 ゲノムアセンブリ精度評価問題は、構造変化(SV)検出問題と非常によく似ている。 Wham [ref.5]、BreakDancer [ref.6]、Lumpy [ref.7]など、同じ種またはclosely relatedな種のゲノム間の構造変化を検出するために開発されたツールは、REAPR、PilonおよびFRCbamのワークフローのリードアライメントと同じタイプの矛盾を利用する。このようなツールの使用は、ゲノムアセンブリのエラー検出のために代替して使える可能性がある。

 ここでは、ゲノムアセンブリの精度評価を目的とした新しいツールNucBreakを紹介する。他のツールとは対照的に、アセンブリに適切にマップされたリードのアライメントを分析し(ペアの両方のリードが適切な向きと距離で完全にアライメントされている)、別のアラインメントに関する情報を探索して、アセンブリの構造的な誤りを検出する。ツールはREAPR、FRCbam、Pilonと比較されている。(一部略)テスト結果により、NucBreakは、他のツールより高い精度でアセンブリエラーを予測し、同時に高い感度を維持できることを示す。

 

f:id:kazumaxneo:20181202211502p:plain

Preprintより転載
 

インストール

mac os10.14の miniconda2-4.0環境でテストした。

依存

  • NucBreak can be run on Linux and Mac OS. It uses Python 2.7, Bowtie2 v2.2.9 and the SAMtools utilities v1.3.1. Bowtie2 and SAMtools should be installed and be in the PATH before running NucBreak.

本体 Github

git clone https://github.com/uio-bmi/NucBreak.git
cd NucBreak/

>python nucbreak.py -h

$ python nucbreak.py -h

usage: nucbreak.py [-h] [--min_frag_size [MIN_FRAG_SIZE]]

                   [--max_frag_size [MAX_FRAG_SIZE]] [--sam_1 [SAM_1]]

                   [--sam_2 [SAM_2]] [--bam_pos [{yes,no}]] [--version]

                   Genome.fasta PE_reads_1.fastq PE_reads_2.fastq Output_dir

                   Prefix

 

positional arguments:

  Genome.fasta          - Fasta file with genome sequences

  PE_reads_1.fastq      - Fastq file with the first part of paired-end reads.

                        They supposed to be forward-oriented

  PE_reads_2.fastq      - Fastq file with the second part of paired-end reads.

                        They supposed to be reverse-oriented

  Output_dir            - Path to the directory where all intermediate and

                        final results will be stored

  Prefix                - Name that will be added to all generated files

                        including the ones created by Bowtie2

 

optional arguments:

  -h, --help            show this help message and exit

  --min_frag_size [MIN_FRAG_SIZE]

                        - minimum fragment size used to choose perfectly

                        mapped read pairs

  --max_frag_size [MAX_FRAG_SIZE]

                        - miximum fragment size used to choose perfectly

                        mapped read pairs

  --sam_1 [SAM_1]       - Path to the already existing Bowtie2 sam file

                        containing alignment results for the first part of

                        paired-end reads.

  --sam_2 [SAM_2]       - Path to the already existing Bowtie2 sam file

                        containing alignment results for the second part of

                        paired-end reads.

  --bam_pos [{yes,no}]  - Generate bam files with entries sorted out by

                        location and index files (yes/no)

  --version             show program's version number and exit

 

 実行方法

python nucbreak.py my_genome.fasta my_pe_reads_1.fastq my_pe_reads_1.fastq my_output_dir my_prefix

 

引用

NucBreak: Location of structural errors in a genome assembly by using paired-end Illumina reads

Ksenia Khelik, Geir Kjetil Sandve, View ORCID ProfileAlexander Johan Nederbragt, Torbjørn Rognes
bioRxiv preprint first posted online Aug. 16, 2018