macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

GCによって仕分けメタゲノムアセンブリを改善する GCSplit

 

 メタゲノミクスは、土壌、海、さらには人体のような様々な環境でコミュニティとして共生するバクテリアの集合したDNAを決定することにある[論文より ref.1-3]。ある意味では、メタゲノミクスの分野は、科学者が特定のコミュニティに存在するすべての生物を調査し、特定の微生物の存在または不在の結果を推論する可能性があるため、遺伝子とゲノムの伝統的な研究を超越している。例えば、胃腸内微生物叢の配列決定は、ヒトの健康状態における微生物の役割を理解することを可能にする[ref.4]。
 それにもかかわらず、次世代シーケンシング(NGS)に属し、依然として市場で最も普及している技術である第二世代シーケンシング技術は、メタゲノムを構成する各生物の個々のゲノムを完全に配列決定することができない。代わりに、NGSプラットフォームは、異なる生物のゲノムの混合物のランダムな位置からのDNAの小さな断片だけを検出する[erf.5]。したがって、メタゲノム解析の基本的な課題の1つは、メタゲノムの個々のゲノムを再構成するために、短いリードを重複させコンティグと呼ばれる長い断片を作り遺伝子レパートリーを表現することである [ref.6] 。この作業はmetagenome assembly problemと呼ばれる。
 大まかに言えば、メタゲノムアセンブリは、リファレンスゲノムの誘導による方法と、リファレンスフリーの方法がある。リファレンスアセンブリは、培養された微生物のゲノムにリードをアライメントさせることによって行う[ref.7]。しかしながら、この方法は、ほとんどの環境の微生物多様性が参照データベースによってカバーされる範囲をはるかに超えているため、かなり限定されている。その結果、多くの未知の微生物を含むメタゲノムを再構築する場合には、デノボアセンブリを行う必要がある。
 一見したところ単純だが、メタゲノムアセンブリの問題は実際にはかなり複雑である。このタスクが発生するいくつかの課題の中で、各プラットフォームに固有のシーケンスエラーと、NGSプラットフォームによって生成される大量のデータの処理[ref.8]がある。さらに、この問題は、ゲノムのサイズの変動、および微生物群集に存在する各生物の複雑さ、多様性および豊富さによってもさらに複雑になる[ref.9]。これらの理由から、メタゲノムアセンブリは困難な問題となる。
 このような課題を解決するため、メタゲノムアセンブラを用いてde novoアセンブリを直接実行するか、メタゲノムに存在する各生物を個々に組み立てるためにショートリードを事前にクラスタリングすることができる[ref.10]。後者のアプローチでは、メタゲノムアセンブリ中に計算の複雑さを減らすという利点がある。なぜなら、アセンブラクラスタリングされて軽量化されたショートリードのサブセットを処理でき、さらに互いに独立した各ゲノムのアセンブリを並行して実行できるからである。計算の複雑さの削減は、アセンブリ前のデジタル正規化またはデータパーティショニングによっても達成でき、冗長シーケンスを削除することによってデータセットを削減し、それを同様のリードグループに分割する[ref.11 pubmed]。
 本研究の主な焦点は、計算量の削減とメタゲノムアセンブリの改善に向けたデータ分割手法の適用である。 GCSplitと呼ばれる開発された計算手法は、リードのヌクレオチド組成、すなわちDNA配列上に存在する塩基A、G、CおよびTの量を使用する。この決定は、メタゲノムを構成する異なる生物または遺伝子が異なるGC含量を有し、異なるGC含量がカバレッジ変動を示すという事実に基づいており、これは選択されたk-merのに影響を与える。

 実際のデータで行われた実験では、アセンブリ前にGCSplitを使用してショートリードを前処理するとメモリ消費量が減少し、N50メトリックの増加やアセンブリで生成されたL50値とコンティグの総数が減少した。

 

2018年5月現在、preprintが出ている。

 

f:id:kazumaxneo:20180505173103j:plain

GCSplitワークフロー。BioRxiv preprintより転載。

 

インストール

cent OSでテストした。

依存

  • kmerstream(紹介
  • metaspades

kmerstreamはbrewでインストールできる。またはgithubからcloneしてビルドすればよいが、このツールは依存も含めてインストールしてくれるので、kmerstreamも本体をビルドすれば導入される。

 

本体 Github

https://github.com/mirand863/gcsplit

git clone https://github.com/mirand863/gcsplit.git
cd gcsplit/
bash install.sh
source ~/.bashrc

>gcsplit -h

$ gcsplit -h

 

GCSplit v1.2

 

A software to partition paired FASTQ files

 

Usage: ./gcsplit [options] -o <output_dir> 

 

Basic options:

    -o/--output <output_dir>    Folder to store all the files generated during the assembly (required).

    -p/--partitions <int>       Number of partitions [default: 16]

    -w/--whole                  Use whole dataset to merge [default: off]

    --iontorrent                This flag is required for IonTorrent data.

    -h/--help                   Prints this usage message.

    -v/--version                Prints version info

 

Input data:

    -f/--forward <filename>     File with forward paired-end reads.

    -r/--reverse <filename>     File with reverse paired-end reads.

    -s/--single <filename>      File with unpaired reads.

 

Advanced options:

    -t/--threads <int>          Number of threads [default: 4]

    -k/--kmers <int>            Number of kmers to run the assembly [default: 3]

 

Please, report bugs to: miranda.fmm@gmail.com

Software homepage: <https://github.com/mirand863/gcsplit>

 

 

ラン

ペアエンドのシーケンスデータのアセンブリ

gcsplit -t 20 -f pair1.fq -r pair2.fq -o output_dir

 シングルエンドのfastqは"-s"をつける。

 

 

引用

Improving Metagenomic Assemblies Through Data Partitioning: a GC content approach

Fabio Malcher Miranda, Cassio Batista, Artur Silva, Jefferson Morais, Nelson Neto, Rommel Ramos

BioRxiv preprint doi: https://doi.org/10.1101/261784