macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

包括的なメタゲノム解析パイプライン ATLAS

2019 10/26関連ツール追加

2019 10/26 インストール手順修正

2019 10/29 同上

2019 10/29 コメント追加

2020 6/28 論文とツイート追記、実行手順は確認中

 

 

 メタゲノミクスおよびメタトランスクリプトミクス研究は、多様な環境からの微生物集団の組成および機能に関する貴重な洞察を提供するが、培養株の遺伝子カタログまたはゲノムデータベースへのリードマッピングに依存するデータ処理パイプラインは、未培養微生物の遺伝子および機能的可能性を過小評価した結果をもたらす。シークエンスアセンブリ法の最近の改善により、ゲノムデータベースへの依存が緩和され、それにより未培養微生物からのゲノムの回収が可能になった。ただし、これらのツールを構成し、それらを高度なビニングおよびアノテーションツールとリンクし、処理の出所を維持することは、研究者にとって引き続き困難である。
 ここでは、最新のツールを使用して、メタゲノムシークエンスとメタトランスクリプトームのデータの生のシークエンスリードアセンブリし、アノテーション付け、定量し、ビニングし、機能的および分類学アノテーション付けまで行うカスタマイズ可能なデータ処理のためのソフトウェアパッケージであるATLASを紹介する。データセットの各サンプルについて、ゲノム中心の解像度と存在量の推定値が提供される。 ATLASはPythonで記述され、ワー​​クフローはSnakemakeで実装されている。 Linux環境で動作し、Python 3.5以降およびAnaconda 3以降のバージョンと互換性がある。 ATLASのソースコードは無料で入手でき、BSD-3ライセンスの下で配布されている。(一部略)condaを使用して簡単にインストールでき、GitHubオープンソースとしてhttps://github.com/metagenome-atlas/atlasで管理されている。

 

 

 

Documents

https://metagenome-atlas.readthedocs.io/en/latest/usage/getting_started.html

 

 

インストール

依存

  • Atlas should be run on linux

ハードウェア

データベースビルド時、CATがメモリを100GB以上要求する。これを満たしてる必要がある。

本体 GIthub

追記

 *1 biocondaから依存含めて導入されると勘違いしていた。recipeを見ると入ってない。つまり、使うツールは自分で入れてパスを通しておく事になる。snakemakeのツールなので、これで方針はあってると思う。勘違いしていた。

2020 6/27 インストール手順確認中

#仮想環境を作り導入
conda create -n atlasenv
conda activate atlasenv
#本体導入 bioconda (link)
conda install -c bioconda -c conda-forge -y metagenome-atlas

#依存の導入、使わないツールは入れる必要なし
conda install -c bioconda -c conda-forge -y cat #diamondとprodigalも入る
conda install -c bioconda -y metabat2 maxbin2
conda install -c bioconda -y metaspades megahit
conda install -c bioconda -y mmseqs2
conda install -c bioconda -y das_tool
conda install -c bioconda -y drep

#docker image (link)
docker pull metagenomeatlas/atlas
#help
docker run -it metagenomeatlas/atlas atlas -h

atlas

$ atlas

Usage: atlas [OPTIONS] COMMAND [ARGS]...

 

  ATLAS - workflows for assembly, annotation, and genomic binning of

  metagenomic and metatranscriptomic data.

 

  For updates and reporting issues, see: https://github.com/metagenome-

  atlas/atlas

 

Options:

  --version   Show the version and exit.

  -h, --help  Show this message and exit.

 

Commands:

  download  download reference files (need ~50GB)

  init      prepare configuration file and sample table for atlas run

  run       run atlas main workflow

atlas init -h 

$ atlas init -h

Usage: atlas init [OPTIONS] PATH_TO_FASTQ

 

  Write the file CONFIG and complete the sample names and paths for all

  FASTQ files in PATH.

 

  PATH is traversed recursively and adds any file with '.fastq' or '.fq' in

  the file name with the file name minus extension as the sample ID.

 

Options:

  -d, --db-dir PATH               location to store databases (need ~50GB)

                                  [default: /Users/kazu/Desktop/databases]

  -w, --working-dir PATH          location to run atlas

  --assembler [megahit|spades]    assembler  [default: spades]

  --data-type [metagenome|metatranscriptome]

                                  sample data type  [default: metagenome]

  --threads INTEGER               number of threads to use per multi-threaded

                                  job

  --skip-qc                       Skip QC, if reads are already pre-processed

  -h, --help                      Show this message and exit.

atlas run -h

$ atlas run -h

Usage: atlas run [OPTIONS]

                 qc|assembly|binning|genomes|genecatalog|None|all

                 [SNAKEMAKE_ARGS]...

 

  Runs the ATLAS pipline

 

  By default all steps are executed but a sub-workflow can be specified.

  Needs a config-file and expects to find a sample table in the working-

  directory. Both can be generated with 'atlas init'

 

  Most snakemake arguments can be appended to the command for more info see

  'snakemake --help'

 

  For more details, see: https://metagenome-atlas.readthedocs.io

 

Options:

  -w, --working-dir PATH  location to run atlas.

  -c, --config-file PATH  config-file generated with 'atlas init'

  -j, --jobs INTEGER      use at most this many jobs in parallel (see cluster

                          submission for mor details).  [default: 12]

  --no-conda              do not use conda environments. good luck!  [default:

                          False]

  -n, --dryrun            Test execution.  [default: False]

  -h, --help              Show this message and exit.

> atlas download -h

$ atlas download -h

Usage: atlas download [OPTIONS] [SNAKEMAKE_ARGS]...

 

  Executes a snakemake workflow to download reference database files and

  validate based on their MD5 checksum.

 

Options:

  -d, --db-dir PATH   location to store databases  [required]

  -j, --jobs INTEGER  number of simultaneous downloads  [default: 1]

  -h, --help          Show this message and exit.

 

 

 

データベースの準備

databasesディレクトリにatabaseをダウンロードする。10あるデータベースの4つをパラレルダウンロード。

atlas download -d databases -j 4

f:id:kazumaxneo:20200628214822p:plain

All databases have downloaded and validated successfully. 
O.K !

 

 

実行方法

準備したデータベースと解析するfastqを指定する。

atlas init --db-dir databases input.fastq
atlas run

 

ランしてみるとまだエラーがたくさん出てきます。active developmentとなっているので、上手くランできるようになったら追記します。

引用 

ATLAS (Automatic Tool for Local Assembly Structures) - a comprehensive infrastructure for assembly, annotation, and genomic binning of metagenomic and metatranscriptomic data

Richard Allen White III​, Joseph Brown, Sean Colby, Christopher C Overall, Joon-Yong Lee, Jeremy Zucker, Kurt R Glaesemann, Christer Jansson, Janet K Jansson​

PeerJ Preprints 5:e2843v1 March 2, 2017

 

2020 6/27 

ATLAS: a Snakemake workflow for assembly, annotation, and genomic binning of metagenome sequence data

Silas Kieser, Joseph Brown, Evgeny M. Zdobnov, Mirko Trajkovski, Lee Ann McCue
BMC Bioinformatics volume 21, Article number: 257 (2020)

 

 関連


 

 

==================================================

 過去に試して苦戦した時

このように順番に進捗が報告されていく。
CATが使うnrデータベースが一番重い。他が早く終わってもこのデータベースのダウンロードとビルドに時間がかかる(memory100GB以上必要)。

f:id:kazumaxneo:20191027200118p:plain

 

数回試したが、CATのデータベースビルドでエラーになる。最終的にCATだけ手動でダウンロードし、databases/CAT/のファイルと入れ替える事でダウンロードすることができた。すなわち、

#CATのデータベースダウンロードと解凍、ここでは20190712リリースを使う。
wget tbb.bio.uu.nl/bastiaan/CAT_prepare/CAT_prepare_20190719.tar.gz
tar -xvzf CAT_prepare_20190719.tar.gz
mv CAT_prepare_20190719/2019-07-19_CAT_database/* databases/CAT/
mv CAT_prepare_20190719/2019-07-19_taxonomy/* databases/CAT/

再実行

atlas download -d databases -j 4

f:id:kazumaxneo:20191029125541p:plain

一瞬で終わった。atlas database successfully~が出ているので 一度先に進んでみる。