2021 6/18 コマンドの間違い修正
2021 9/28 論文引用
2021/10/21 ツイート追加
HPより
メタゲノムデータをデノボで組み立て、配列をクラスタリングすることで、未培養生物を含む複数のドラフトゲノムを構築することができる。この目的のために、本著者らは以下のような特徴を持つ新規ツールMetaPlatanusを開発した。
- 種の多さを反映した不均一な配列カバレッジに対応したコンティグ・アセンブリ
- Scaffolding時の種間mis-joinの防止
- Scaffoldingのためのロングインサート・mate-pairの処理機能
- di-codonを利用した配列のクラスター化
- アセンブリとクラスタリングをシームレスに組み合わせて、各手順の結果を向上させることができる。
ベンチマークは、20種類の既知の細菌のゲノムDNAを異なる存在比で混合し、Illuminaシーケンサで配列決定した3つの合成ヒト腸データセットを用いて実施した。MetaPlatanusを適用した結果、一般的に利用されている他のツールの結果と比較して、種間のmis-joinが少なく、Scaffoldの連続性が高く(ほとんどのドラフトゲノムはメガオーダー長のScaffoldで構成されていた)、クラスターの精度も高かった。また、メタゲノムのアセンブルにおいて、インサートサイズの長いmate-pairが有効であることが確認された。以前に発表された実際の牛のルーメンのメタゲノムデータをアセンブルしたところ(Hess M et al. Science, 331, 463-7)、MetaPlatanusが原著論文では報告されていない種を含むドラフトゲノムを構築することを実証した。今回提案した手法を用いることで、メタゲノムアセンブリの自動化が可能になると期待している。
HP
http://platanus.bio.titech.ac.jp/metaplatanus
2021/10/22
メタゲノムアセンブラ: MetaPlatanusの論文をNAR誌に出しました!
— Rei Kajitani (@kajivalley) October 21, 2021
今風のロングリード主体型でなく、ショート-ロングリード併用型ですが、メタゲノムではまだこの戦略が有効な場面もあると考えています。
※ ショートリードのみでも動きます。https://t.co/aBLWMW0czUhttps://t.co/560O8xv6gp
インストール
ビルドされたバイナリ(MetaPlatanus1.2.2 Linux64bit binary)をHP からダウンロードしてテストした(ubuntu18.04LTS)。
依存
- Minimap2
- BWA
- MEGAHIT
- MetaBAT2
- SAMtools
git clone https://github.com/rkajitani/MetaPlatanus.git
cd MetaPlatanus/
make -j
> perl meta_platanus.pl cons_asm
# perl meta_platanus.pl cons_asm
meta_platanus.pl version v1.2.2
Usage:
meta_platanus.pl cons_asm -IP1 short_R1.fastq(a) short_R2.fastq(a) [Options] ...
Options:
-IP{INT} FWD1 REV1 [FWD2 REV2 ...] : lib_id inward_pair_files (reads in 2 files, fasta or fastq; at least one library required)
-OP{INT} FWD1 REV1 [FWD2 REV2 ...] : lib_id outward_pair_files (reads in 2 files, fasta or fastq; aka mate-pairs or jumping-library)
-binning_IP{INT} FWD1 REV1 ... : lib_id inward_pair_files for binning process. (reads in 2 files, fasta or fastq; the data are usually from another sample)
-p FILE1 [FILE2 ...] : PacBio long-read file (fasta or fastq)
-ont FILE1 [FILE2 ...] : Oxford Nanopore long-read file (fasta or fastq)
-x PAIR1 [PAIR2 ...] : barcoded_pair_files (10x Genomics) (reads in 1 file, interleaved, fasta or fastq)
-X FWD1 REV1 [FWD2 REV2 ...] : barcoded_pair_files (10x Genomics) (reads in 2 files, fasta or fastq)
-t INT : number of threads (<= 1; default, 1)
-m INT : memory limit for making kmer distribution (unit, GB; default, 0.75 * available_memory))
-o STR : prefix of output files (default "out")
-tmp DIR : directory for temporary files (default, ".")
-sub_bin DIR : directory for sub-executables, such as mata_plantaus and minimap2 (default, directory-of-this-script/sub_bin)
-megahit_min_len : minimum length of contigs of MEGAHIT (default, 500)
-overwrite : overwrite the previous results, not re-start (default, off)
-h, -help : display usage
> perl meta_platanus.pl phase_asm -h
# perl meta_platanus.pl phase_asm -h
meta_platanus.pl version v1.2.2
Usage:
meta_platanus.pl phase_asm -IP1 short_R1.fastq(a) short_R2.fastq(a) [Options] ...
Options:
-IP{INT} FWD1 REV1 [FWD2 REV2 ...] : lib_id inward_pair_files (reads in 2 files, fasta or fastq; at least one library required)
-OP{INT} FWD1 REV1 [FWD2 REV2 ...] : lib_id outward_pair_files (reads in 2 files, fasta or fastq; aka mate-pairs or jumping-library)
-p FILE1 [FILE2 ...] : PacBio long-read file (fasta or fastq)
-ont FILE1 [FILE2 ...] : Oxford Nanopore long-read file (fasta or fastq)
-x PAIR1 [PAIR2 ...] : barcoded_pair_files (10x Genomics) (reads in 1 file, interleaved, fasta or fastq)
-X FWD1 REV1 [FWD2 REV2 ...] : barcoded_pair_files (10x Genomics) (reads in 2 files, fasta or fastq)
-t INT : number of threads (<= 1; default, 1)
-m INT : memory limit for making kmer distribution (unit, GB; default, 0.75 * available_memory))
-o STR : prefix of output files (default "out")
-tmp DIR : directory for temporary files (default, ".")
-sub_bin DIR : directory for sub-executables, such as mata_plantaus and minimap2 (default, directory-of-this-script/sub_bin)
-overwrite : overwrite the previous results, not re-start (default, off)
-h, -help : display usage
実行方法
ショートリードのアセンブリ。fastqは解凍して指定しないとエラーになる。40スレッド指定。
perl meta_platanus.pl cons_asm --IP1 pair_R1.fq pair_R2.fq --o out --t 40
- -t number of threads (<= 1; default, 1)
- -o prefix of output files (default "out")
ショートリードとONTのロングリードのアセンブリ。
perl meta_platanus.pl cons_asm --IP1 pair_R1.fq pair_R2.fq --ont ONT.fq --o out -t 40
Inappropriate ioctl for deviceが起きる。
=> 出力prefixをoutにするとランできることが分かった。
出力
アセンブリ、binningなどが繰り返され、最終的にout_finalClusters_all.faとout_finalClusters(ビニングされた各MAGのアセンブリ)が出力される。
論文が出てインストール方法もバージョンアップされているようです。レポジトリを確認して下さい。
引用
2021 9/28
MetaPlatanus: a metagenome assembler that combines long-range sequence links and species-specific features
Rei Kajitani, Hideki Noguchi, Yasuhiro Gotoh, Yoshitoshi Ogura, Dai Yoshimura, Miki Okuno, Atsushi Toyoda, Tomomi Kuwahara, Tetsuya Hayashi, Takehiko Itoh
Nucleic Acids Research. Published: 27 September 2021
関連