macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

公開されているプラスチドゲノムのアノテーションとinverted repeatsを調べる airpg

2021 9/18 使い方を理解していなかったので一旦コマンドは消去

 

 ほとんどの顕花植物では、プラスチドのゲノムは、大小のシングルコピーと2つの逆方向反復配列領域からなる4分割構造をしている。近年、何千ものプラスチドのゲノムが配列決定され、公的な配列リポジトリに登録されている。その中でも特に、逆方向反復配列領域の長さや位置を指定するアノテーションの質には問題があることが知られている。しかし、多くの生物学的研究では、公開されているプラスチドのゲノムを額面通りに使用し、暗黙のうちにその配列アノテーションの正しさを前提としている。

 公表されているプラスチドゲノムの中で、逆方向反復配列のアノテーションが不完全または間違っている頻度を自動的に評価するPythonパッケージ、airpgを紹介する。具体的には、NCBI Nucleotideから様々な検索条件でプラスチドのゲノムを自動的に検索し、逆方向反復配列の長さと位置を調査し、ゲノム配列の自己比較によって逆方向反復配列のアノテーションを確認する。また、重複するゲノムレコードを自動的に識別・削除する機能や、純粋に逆方向反復配列を持たない分類を考慮する機能も備えている。airpgを用いて、2020年末までにNCBI Nucleotideに登録されたflowering plantsの全プラスチドゲノムにおける逆方向反復配列アノテーションの有無を調査し、レコードのメタデータとの関連性を統計的に分析した結果、ゲノムレコードのリリース年と出版状況が、完全長およびequal-lengthの逆方向反復配列のアノテーションの頻度に大きく影響することが明らかになった。

 NCBI Nucleotideに登録されているプラスチドゲノムの数は近年飛躍的に増加しており、今後10年間でさらに多くのゲノムが登録されると考えられる。 airpgを用いることで、これらのプラスチドゲノムの逆方向反復配列やその配列アノテーションに自動的にアクセスして評価することができ、公開されているプラスチドゲノムの信頼性向上に貢献することができる。このソフトウェアは、http://pypi.python.org/pypi/airpgPythonパッケージインデックスから自由に利用できる。

 

インストール

ubuntu18.04のpython3.9の仮想環境にpipで導入した(pip install git+https://github.com/michaelgruenstaeudl/airpg.git)。

Github

#pip(pypi)
pip install airpg

pip install git+https://github.com/michaelgruenstaeudl/airpg.git

> airpg_analyze.py -h

$ airpg_analyze.py -h

usage: airpg_analyze.py [-h] --infn INFN --outfn OUTFN --mail MAIL [--blocklist BLOCKLIST] [--query QUERY] [--recordsdir RECORDSDIR] [--datadir DATADIR] [--verbose]

 

Michael Gruenstaeudl <m.gruenstaeudl@fu-berlin.de>, Tilman Mehl <tilmanmehl@zedat.fu-berlin.de> -- Copyright (C) 2019-2021 Michael Gruenstaeudl and Tilman Mehl -- Retrieve the plastid genomes identified by the first

script and evaluate their inverted repeats -- 2021.03.05

 

optional arguments:

  -h, --help            show this help message and exit

  --infn INFN, -i INFN  Path to input file; input is a summary table of NCBI accessions (tab-delimited, accession numbers in second column)

  --outfn OUTFN, -o OUTFN

                        Path to output file that contains information on IR positions and length

  --mail MAIL, -m MAIL  Mail address needed for Entrez search on NCBI PubMed (any valid mail address works)

  --blocklist BLOCKLIST, -b BLOCKLIST

                        (Optional) Path to blocklist file

  --query QUERY, -q QUERY

                        (Optional) Entrez string to query NCBI PubMed

  --recordsdir RECORDSDIR, -r RECORDSDIR

                        (Optional) Path to records directory

  --datadir DATADIR, -d DATADIR

                        (Optional) Path to data directory

  --verbose, -v         (Optional) Enable verbose logging

>  airpg_confirm.py -h

$ airpg_confirm.py -h

usage: airpg_confirm.py [-h] --infn INFN --outfn OUTFN --datadir DATADIR [--minlength MINLENGTH] [--maxlength MAXLENGTH] [--verbose]

 

Michael Gruenstaeudl <m.gruenstaeudl@fu-berlin.de>, Tilman Mehl <tilmanmehl@zedat.fu-berlin.de> -- Copyright (C) 2019-2021 Michael Gruenstaeudl and Tilman Mehl -- Retrieve the plastid genomes identified by the first

script and evaluate their inverted repeats -- 2021.05.19

 

optional arguments:

  -h, --help            show this help message and exit

  --infn INFN, -i INFN  Path to input file; input is a summary table on reported IR positions and length (tab-delimited, accession numbers in first column)

  --outfn OUTFN, -o OUTFN

                        Path to output file that contains extended table IR positions and length

  --datadir DATADIR, -d DATADIR

                        Path to folder containing record-specific subfolders that store each record's complete sequence in FASTA format

  --minlength MINLENGTH, -n MINLENGTH

                        (Optional) Minimal length of IR for BLASTing

  --maxlength MAXLENGTH, -x MAXLENGTH

                        (Optional) Maximum length of IR for BLASTing

  --verbose, -v         (Optional) Enable verbose logging

> airpg_identify.py -h

$ airpg_identify.py  -h

usage: airpg_identify.py [-h] -o OUTFN [-q QUERY] [-b BLOCKLIST] [-u]

 

Michael Gruenstaeudl <m.gruenstaeudl@fu-berlin.de>, Tilman Mehl <tilmanmehl@zedat.fu-berlin.de> -- Copyright (C) 2019-2020 Michael Gruenstaeudl and Tilman Mehl -- Conduct a query of NCBI Nucleotide and identify plastid

genome records stored there -- 2020.12.17

 

optional arguments:

  -h, --help            show this help message and exit

  -o OUTFN, --outfn OUTFN

                        Path to output file

  -q QUERY, --query QUERY

                        (Optional) Entrez query that will replace the standard query

  -b BLOCKLIST, --blocklist BLOCKLIST

                        (Optional) Path to file of blocklisted genera that will be removed from the retrieved plastid sequences

  -u, --update_only     (Optional) Only add entries with more recent creation date than the most recent existing entry

エラーが出たので対処方法を確認中。

=> 著者に修正していただいて動作するようになった (現在はGithubの方で対応)。

 

 

4つチュートリアルが用意されています。レポジトリにアクセスしてみて下さい。

引用

airpg: automatically accessing the inverted repeats of archived plastid genomes
Tilman Mehl & Michael Gruenstaeudl 
BMC Bioinformatics volume 22, Article number: 413 (2021)