macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

マッピングベースでゲノムサイズを推定する MGSE

 

 現在では植物のほぼすべての部分を測定することが可能になってきているがが、植物ゲノムのサイズを評価することは依然として困難である。染色体サイズは顕微鏡下で測定することができるが[ref.1]、単一細胞内の全DNA分子の合計の長さはまだ不明である。シロイヌナズナの最初のゲノム配列が発表されてから約20年が経ったが、これはこの有名なモデル生物にも当てはまる。
 最初に、再会合速度論[ref.2]、Feulgen photometry [ref.3]、定量的ゲルブロットハイブリダイゼーション[ref.4]、サザンブロッティング[ref.5]、およびフローサイトメトリー[ref.6、7]のような生化学的方法が適用された。残念ながら、これらの実験方法はリファレンスゲノムに頼っている[ref.8]。次世代シーケンシング技術の出現[ref.9]により、k-merプロファイルまたはユニークなk-merのカウント[ref.10]、[ref.11]に基づく新しいアプローチが可能になった。 JellyFish [ref.11]、Kmergenie [ref.12]、Tallymer [ref.13]、Kmerlight [ref.14]、およびgenomic character estimator(gce)[ref.15]は、ユニークなk-merまたは完全なk-merプロファイルに基づいてゲノムサイズを推定する。SOAPdenovo [ref.16]やALLPATHS-LG [ef.17]のような多くのアセンブラは、予想されるアセンブリサイズを推測するためにゲノムサイズの内部推定を実行する。最近、GenomeScope [ef.18]やfindGSE [ef.19]のようなゲノムサイズ推定用の専用ツールが開発されている。
 著者らは実際のデータに関する多くの問題を検討し対処しているが[ref.18]、同じ種についての異なるシーケンシングデータセットからの結果は異なる可能性がある。 A. thaliana [ref.19、20]では、シークエンシングライブラリーの特定の性質が推定ゲノムサイズに影響を与える可能性がある。例えば高レベルのバクテリアまたは真菌の汚染があれば、推定プロセスの前に除去されなければ結果を偏らせる可能性がある。高い精度が要求されるため、k-merベースのアプローチは通常、高品質のショートリードに制限され、第3世代のシーケンシング技術のロングリードには適用できない。ロングリードシークエンシング技術の急速な発展は、ほとんどすべての種のための高い連続性のアセンブリを可能にし、そしてそれ故ゲノムシークエンシングプロジェクトのための標準になりつつある[ref.21, 22]。それにもかかわらず、核小体組織化領域(NOR)および動原体のような植物ゲノムのいくつかの非常にrepetitiveな領域は、通常、アセンブリされないままである[ref.20, 23, 24]。したがって、ゲノムサイズはアセンブリサイズから直接推論することはできないが、アセンブリサイズはゲノムサイズを推定するときにはより低い境界と見なすことができる。

 A. thalianaの極端なゲノムサイズの推定値、例えば70 Mbp [ref.2]または211 Mbp [ref.25]は、最近のアセンブリからの洞察に基づいて不正確であることが証明されている[ref.20、24、26–28]。しかしながら、現在もさまざまな方法が二倍体A. thalianaを125 Mbpから165 Mbpのゲノムサイズとして予測している[ref.26、29–31]。メソッド間だけでなく、異なるラボや機器間でも大幅な技術的変動が見られる[ref.32]。上記のように、A. thalianaの極端な例は、推定ゲノムサイズに関して3倍の違いを示す。
 完全なゲノムを表すアセンブリがないため、真のゲノムサイズは不明のままである。経験的アプローチ、すなわち異なるツールを実行し結果を比較することは適切な戦略かもしれない。ここでは、リードの高い連続性(contiguity)を持ったアセンブリへのマッピングに基づいてゲノムサイズを推定する方法を提示する。マッピングベースのゲノムサイズ推定(MGSE)は、マッピングされたリードのカバレッジ情報を処理し、基礎となるゲノムのサイズを予測するPythonスクリプトである。 MGSEは、さまざまな課題と利点を持つ、ゲノムサイズ推定のための既存のツールに対する直交的アプローチである。

 

インストール

依存

  • samtools
  • bamtools

本体 Github

git clone https://github.com/bpucker/MGSE.git
cd MGSE/ 

> python MGSE.py

$ python MGSE/MGSE.py 

 

python MGSE.py

--cov <FULL_PATH_TO_COVERAGE_FILE_OR_FOLDER>| --bam <FULL_PATH_TO_BAM_FILE>

--out <FULL_PATH_TO_OUTPUT_DIRECTORY>

--ref | --gff <FULL_PATH_TO_REF_GENE_FILE_OR_GFF3_FILE> | --busco <FULL_PATH_TO 'full_table_busco_run.tsv'> | --all <ALL_POS_USED_FOR_CALCULATION>

 

optional:

--black <FULL_PATH_TO_FILE_WITH_CONTIG_NAMES_FOR_EXCLUSION>

--gzip <ACITVATES_SEARCH_FOR_COMPRESSED_FILES>

--bam_is_sorted PREVENTS_SORTING_OF_BAM_FILE

--samtools <FULL_PATH_TO_SAMTOOLS>

--bedtools <FULL_PATH_TO_BEDTOOLS>

--name <NAME_OF_CURRENCT_ANALYSIS>

--m <SAMTOOLS_MEMORY>[5000000000]

--threads <SAMTOOLS_THREADS>[4]

--plot <ACTIVATE_OR_DEACTIVATE_PLOTTING TRUE|FALSE>[FALSE]

 

WARNING: if --busco is used, the BUSCO GFF3 files need to be in the default folder relative to the provided TSV file

WARNING: use of absolute paths is required

 

bug reports and feature requests: bpucker@cebitec.uni-bielefeld.de

python construct_cov_file.py

$ python construct_cov_file.py 

 

python construct_cov_file.py

 

--in <BAM_FILE>

--out <OUTPUT_FILE>

 

--bam_is_sorted PREVENTS_EXTRA_SORTING_OF_BAM_FILE

 

optional:

--m <SAMTOOLS_MEMORY>[5000000000]

--threads <SAMTOOLS_THREADS>[4]

--samtools <FULL_PATH_TO_SAMTOOLS>

--bedtools <FULL_PATH_TO_BEDTOOLS>

 

feature requests and bug reports: bpucker@cebitec.uni-bielefeld.de

 

 

実行方法

1、coverageファイル作成。bamを指定する。

python construct_cov_file.py --in mapped.bam --out coverage_file --threads 8

 

2、ゲノムサイズ推定

mkdir outdir
python MGSE.py --cov coverage_file --out outdir --ref draft_assembly.fa --threads 8

 

 

引用

Mapping-based genome size estimation

Boas Pucker

bioRxiv preprint first posted online Apr. 13, 2019