macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

mate-pairs、10x Genomics のbarcoded_pair、ロングリードにも対応したメタゲノムアセンブラ MetaPlatanus

2021 6/18 コマンドの間違い修正

 

HPより

 メタゲノムデータをデノボで組み立て、配列をクラスタリングすることで、未培養生物を含む複数のドラフトゲノムを構築することができる。この目的のために、本著者らは以下のような特徴を持つ新規ツールMetaPlatanusを開発した。

  • 種の多さを反映した不均一な配列カバレッジに対応したコンティグ・アセンブリ
  • Scaffolding時の種間mis-joinの防止
  • Scaffoldingのためのロングインサート・mate-pairの処理機能
  • di-codonを利用した配列のクラスター化
  • アセンブリクラスタリングをシームレスに組み合わせて、各手順の結果を向上させることができる。

ベンチマークは、20種類の既知の細菌のゲノムDNAを異なる存在比で混合し、Illuminaシーケンサで配列決定した3つの合成ヒト腸データセットを用いて実施した。MetaPlatanusを適用した結果、一般的に利用されている他のツールの結果と比較して、種間のmis-joinが少なく、Scaffoldの連続性が高く(ほとんどのドラフトゲノムはメガオーダー長のScaffoldで構成されていた)、クラスターの精度も高かった。また、メタゲノムのアセンブルにおいて、インサートサイズの長いmate-pairが有効であることが確認された。以前に発表された実際の牛のルーメンのメタゲノムデータをアセンブルしたところ(Hess M et al. Science, 331, 463-7)、MetaPlatanusが原著論文では報告されていない種を含むドラフトゲノムを構築することを実証した。今回提案した手法を用いることで、メタゲノムアセンブリの自動化が可能になると期待している。

 

HP

http://platanus.bio.titech.ac.jp/metaplatanus

 

インストール

ビルドされたバイナリ(MetaPlatanus1.2.2 Linux64bit binary)をHP からダウンロードしてテストした(ubuntu18.04LTS)。

依存

  • Minimap2
  • BWA
  • MEGAHIT
  • MetaBAT2
  • SAMtools

Github

git clone https://github.com/rkajitani/MetaPlatanus.git
cd MetaPlatanus/
make -j

> perl meta_platanus.pl cons_asm

# perl meta_platanus.pl cons_asm

meta_platanus.pl version v1.2.2

 

Usage:

    meta_platanus.pl cons_asm -IP1 short_R1.fastq(a) short_R2.fastq(a) [Options] ...

 

Options:

    -IP{INT} FWD1 REV1 [FWD2 REV2 ...] : lib_id inward_pair_files (reads in 2 files, fasta or fastq; at least one library required)

    -OP{INT} FWD1 REV1 [FWD2 REV2 ...] : lib_id outward_pair_files (reads in 2 files, fasta or fastq; aka mate-pairs or jumping-library)

    -binning_IP{INT} FWD1 REV1 ...     : lib_id inward_pair_files for binning process. (reads in 2 files, fasta or fastq; the data are usually from another sample)

    -p FILE1 [FILE2 ...]               : PacBio long-read file (fasta or fastq)

    -ont FILE1 [FILE2 ...]             : Oxford Nanopore long-read file (fasta or fastq)

    -x PAIR1 [PAIR2 ...]               : barcoded_pair_files (10x Genomics) (reads in 1 file, interleaved, fasta or fastq)

    -X FWD1 REV1 [FWD2 REV2 ...]       : barcoded_pair_files (10x Genomics) (reads in 2 files, fasta or fastq)

    -t INT                             : number of threads (<= 1; default, 1)

    -m INT                             : memory limit for making kmer distribution (unit, GB; default, 0.75 * available_memory))

    -o STR                             : prefix of output files (default "out")

    -tmp DIR                           : directory for temporary files (default, ".")

    -sub_bin DIR                       : directory for sub-executables, such as mata_plantaus and minimap2 (default, directory-of-this-script/sub_bin)

    -megahit_min_len                   : minimum length of contigs of MEGAHIT (default, 500)

    -overwrite                         : overwrite the previous results, not re-start (default, off)

    -h, -help                          : display usage

 

perl meta_platanus.pl phase_asm -h

# perl meta_platanus.pl phase_asm -h

meta_platanus.pl version v1.2.2

 

Usage:

    meta_platanus.pl phase_asm -IP1 short_R1.fastq(a) short_R2.fastq(a) [Options] ...

 

Options:

    -IP{INT} FWD1 REV1 [FWD2 REV2 ...] : lib_id inward_pair_files (reads in 2 files, fasta or fastq; at least one library required)

    -OP{INT} FWD1 REV1 [FWD2 REV2 ...] : lib_id outward_pair_files (reads in 2 files, fasta or fastq; aka mate-pairs or jumping-library)

    -p FILE1 [FILE2 ...]               : PacBio long-read file (fasta or fastq)

    -ont FILE1 [FILE2 ...]             : Oxford Nanopore long-read file (fasta or fastq)

    -x PAIR1 [PAIR2 ...]               : barcoded_pair_files (10x Genomics) (reads in 1 file, interleaved, fasta or fastq)

    -X FWD1 REV1 [FWD2 REV2 ...]       : barcoded_pair_files (10x Genomics) (reads in 2 files, fasta or fastq)

    -t INT                             : number of threads (<= 1; default, 1)

    -m INT                             : memory limit for making kmer distribution (unit, GB; default, 0.75 * available_memory))

    -o STR                             : prefix of output files (default "out")

    -tmp DIR                           : directory for temporary files (default, ".")

    -sub_bin DIR                       : directory for sub-executables, such as mata_plantaus and minimap2 (default, directory-of-this-script/sub_bin)

    -overwrite                         : overwrite the previous results, not re-start (default, off)

    -h, -help                          : display usage

 

 

実行方法

ショートリードのアセンブリ。fastqは解凍して指定しないとエラーになる。40スレッド指定。

perl meta_platanus.pl cons_asm --IP1 pair_R1.fq pair_R2.fq --o out --t 40
  • -t    number of threads (<= 1; default, 1)
  • -o   prefix of output files (default "out")

 

ショートリードとONTのロングリードのアセンブリ

perl meta_platanus.pl cons_asm --IP1 pair_R1.fq pair_R2.fq --ont ONT.fq --o out -t 40

 Inappropriate ioctl for deviceが起きる。

=> 出力prefixをoutにするとランできることが分かった。

 

出力

f:id:kazumaxneo:20210615141808p:plain

 

アセンブリ、binningなどが繰り返され、最終的にout_finalClusters_all.faとout_finalClusters(ビニングされた各MAGのアセンブリ)が出力される。

引用

MetaPlatanus – Platanus

 

関連