macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

bowtie2を使ってアセンブルした配列を評価する

 

bowtie2はマッピング結果の要約統計を標準エラー出力として報告する。Trinityのwikiでは、これを利用してde novo transcriptome assemblyを評価する流れがまとめられている。

RNA Seq Read Representation by Trinity Assembly · trinityrnaseq/trinityrnaseq Wiki · GitHub

 

実行方法

1、indexing

bowtie2-build --threads ref.fasta bowtie2_index

 

2、Mapping

要約統計をstats.txtとして保存する。マッピング結果はここでは破棄する。アセンブリが非常に断片化している可能性を考慮してローカルアラインメントモードを使う。リードが完全にアラインメントされることを必要とするならend-to-endモード(bowtie1)を使う(マニュアル)。

bowtie2 -p 20 --sensitive-local --local -x bowtie2_index -1 reads_1.fq -2 reads_2.fq 2>stats.txt 1> /dev/null 
  •  --sensitive-local   -D 15 -R 2 -N 0 -L 20 -i S,1,0.75 (default)
  • --end-to-end entire read must align; no clipping (on)
       OR
  • --local   local alignment; ends might be soft clipped (off)
  • -p  number of alignment threads to launch (1)
  • --no-unal   suppress SAM records for unaligned reads

出力例

f:id:kazumaxneo:20211225000417p:plain

 

引用

Fast gapped-read alignment with Bowtie 2

Ben Langmead & Steven L Salzberg

Nat Methods. 2012 Mar 4;9(4):357-9

 

関連


 

Redを使ったゲノムアセンブリのソフトマスクを行う redmask

 

タイトルの通りのツール。ランするにはRed (Repeat Detector) とbiopythonが必要。

 

インストール

Github

mamba create -n red python=2.7 -y
conda activate red
#red,biopython,natsort
mamba install -c bioconda -y red biopython natsort

git clone https://github.com/nextgenusfs/redmask.git
cd redmask/

> python redmask.py -h

usage: redmask.py [-h] -i GENOME -o OUTPUT [-m MIN] [--training TRAINING]

                  [-l WORD_LEN] [-t THRESHOLD] [-g GAUSSIAN] [-c MARKOV_ORDER]

                  [--debug] [--version]

 

Wraper for Red - repeat identification and masking for genome annotation

 

optional arguments:

  -h, --help                                    show this help message and

                                                exit

  -i GENOME, --genome GENOME                    genome assembly FASTA format

                                                (default: None)

  -o OUTPUT, --output OUTPUT                    Output basename (default:

                                                None)

  -m MIN, --min MIN                             Minimum number of observed

                                                k-mers (default: 3)

  --training TRAINING                           Min length for training

                                                (default: 1000)

  -l WORD_LEN, --word_len WORD_LEN              word length (kmer length)

                                                (default: None)

  -t THRESHOLD, --threshold THRESHOLD           threshold of low adjusted

                                                scores of non-repeats

                                                (default: None)

  -g GAUSSIAN, --gaussian GAUSSIAN              Gaussian smoothing width

                                                (default: None)

  -c MARKOV_ORDER, --markov_order MARKOV_ORDER  Order of background markov

                                                chain (default: None)

  --debug                                       Keep intermediate files

                                                (default: False)

  --version                                     show program's version number

                                                and exit

 

Written by Jon Palmer (2018) nextgenusfs@gmail.com

 

 

実行方法

fasta形式のゲノム配列を指定する。

python redmask.py -i assembly.fasta -o output

 

出力例

f:id:kazumaxneo:20211224090511p:plain

ランが終わるとRedによって検出されたリピート配列のfastaとBEDファイル、検出されたリピート配列が小文字になった配列(ソフトマスクされた配列)、が出力される。

 

引用

GitHub - nextgenusfs/redmask: Genome assembly soft-masking using Red (REpeat Detector)

 

関連


翻訳された遺伝子のマッチングを迅速に同定、分類、アノテーションするためのツール GAMMA

 

 参照データベースを用いて微生物配列の遺伝子を同定するために用いられるツールは、一般に一致度をパーセントで報告するが、配列同一性が100%未満の場合、特定のアミノ酸の変化が基質結合領域や酵素活性部位で起こる場合など、タンパク質の機能に劇的な影響を与え、それが抗菌性あるいは病原性といった表現型に劇的な影響を与えることがあるため、解釈が難しい場合がある。

 GAMMAは、タンパク質のコードレベルの同一性を利用して、あらゆる遺伝子データベースから遺伝子を呼び出し、その呼び出しに対して分類(例:変異、切断)と翻訳アノテーション(例:Y190S変異、残基110での切断)を生成するオープンソースのツールである。GAMMAは、他の3つのツールよりも速く、大規模なゲノムセットから抗菌剤耐性遺伝子を正確にコールした。また、同じゲノムセットから病原性遺伝子を同定することで実証したように、あらゆる遺伝子データベースと併用することが可能である。GAMMAはその速度と柔軟性から、微生物のシーケンスデータから興味のあるあらゆる遺伝子のマッチングを迅速に見つけ、アノテーションするために使用することができる。

 

インストール

Github

#conda (link)
mamba create -n GAMMA -y
conda activate GAMMA
mamba install -c bioconda gamma -y

> GAMMA.py -h

usage: GAMMA.py [-h] [-a] [-e] [-f] [-g] [-i PERCENT_IDENTITY]

                input_fasta database output

 

This scripts makes annotated gene calls from matches in an assembly using a

gene database

 

positional arguments:

  input_fasta           input fasta

  database              input database

  output                output name

 

optional arguments:

  -h, --help            show this help message and exit

  -a, --all             include all gene matches, even overlaps

  -e, --extended        writes out all protein mutations

  -f, --fasta           write fasta of gene matches

  -g, --gff             write gene matches as gff file

  -i PERCENT_IDENTITY, --percent_identity PERCENT_IDENTITY

                        minimum nucleotide identity for blat search (default = 90)

 

 

実行方法

ランするにはfasta形式のゲノムアセンブリと遺伝子のコーディング配列のmultifastaデータベースが必要。コーディング配列のデータベースとして、GAMMAのレポジトリのResFinderDBデータベース(2020年5月6日にダウンロードされたResFinder AR遺伝子データベース)を指定している。

git clone https://github.com/rastanton/GAMMA.git
GAMMA.py assembly.fasta GAMMA/ResFinderDB_Combined_05-06-20.fsa output -f -g -i 90
  • -a    include all gene matches, even overlaps
  • -e    writes out all protein mutations
  • -f     write fasta of gene matches
  • -g    write gene matches as gff file
  • -i     minimum nucleotide identity for blat search (default = 90) 

GAMMA のデフォルト出力は、15 カラムのタブ区切りファイルとなる。

> head output.gamma

f:id:kazumaxneo:20211223001948p:plain

詳細はレポジトリの解説を参照して下さい。

引用

GAMMA: a tool for the rapid identification, classification, and annotation of translated gene matches from sequencing data
Richard A Stanton, Nicholas Vlachos, Alison Laufer Halpin

Bioinformatics. 2021 Aug 20;btab607

 

関連


COBS index

 

Githubより

 COBS(COmpact Bit-sliced Signature index)は、invertedインデックスとブルームフィルタを掛け合わせたものである。DNAサンプルのk-merやテキスト文書のq-gramsをインデックス化し、ユーザが選択したカバレッジ閾値を持つコーパスに対して近似的なパターンマッチングのクエリを処理することが目標である。クエリの結果には多数の偽陽性が含まれる可能性があるが、これはクエリの長さとインデックスの構築時に決定される偽陽性率に伴って指数関数的に減少する。COBSのコンパクトかつシンプルなデータ構造は、構築時間とクエリパフォーマンスにおいて他のインデックスを凌駕し、PandeyらによるMantisは2位につけている。しかし、Mantisや他の先行研究とは異なり、COBSはRAMに完全なインデックスを必要としないため、より大きな文書集合に拡張できるように設計されている。

 

Documentation

https://cobs.readthedocs.io/en/latest/#

 

COBSは、FASTAファイル(*.fa, *.fasta, *.fa.gz, *.fasta.gz)、FASTQファイル(*.fq, *.fastq, *.fq.gz., *.fastq.gz)、「マルチFASTA」および「マルチFASTQ」ファイル(*.mfasta、 *.mfastq), McCortex ファイル (*.ctx) またはテキストファイル (*.txt) を読み込むことができる。各ファイルタイプは、q-gramまたはk-mersに若干異なる方法で解析される。

 

インストール

Github

git clone --recursive https://github.com/bingmann/cobs.git
mkdir cobs/build
cd cobs/build
cmake ..
make -j4

>  src/cobs 
(Co)mpact (B)it-Sliced (S)ignature Index for Genome Search

Usage: src/cobs <subtool> ...

Available subtools: 
  doc-list                   read a list of documents and print the list
  doc-dump                   read a list of documents and dump their contents
  classic-construct          constructs a classic index from the documents in <in_dir>
  classic-construct-random   constructs a classic index with random content
  compact-construct          creates the folders used for further construction
  compact-construct-combine  combines the classic indices in <in_dir> to form a compact index
  query                      query an index
  print-parameters           calculates index parameters
  print-kmers                print all canonical kmers from <query>
  benchmark-fpr              run benchmark and false positive measurement
  generate-queries           select queries randomly from documents

See https://panthema.net/cobs for more information on COBS.

> cobs compact-construct -h
Usage: cobs compact-construct [options] <input> <out_file>
Parameters:
  input     path to the input directory or file
  out_file  path to the output .cobs_compact index file
Options:
  -C, --clobber              erase output directory if it exists
      --continue             continue in existing output directory
  -f, --false-positive-rate  false positive rate, default: 0.300000
      --file-type            "list" to read a file list, or filter documents by 
                             file type (any, text, cortex, fasta, fastq, etc)
      --keep-temporary       keep temporary files during construction
  -m, --memory               memory in bytes to use, default: 201.307 Gi
      --no-canonicalize      don't canonicalize DNA k-mers, default: false
  -h, --num-hashes           number of hash functions, default: 1
  -p, --page-size            the page size of the compact the index, default: 
                             sqrt(#documents)
  -k, --term-size            term size (k-mer size), default: 31
  -T, --threads              number of threads to use, default: max cores
      --tmp-path             directory for intermediate index files, default: 
                             out_file + ".tmp")

> cobs  query -h
Usage: cobs query [options] [query]
Parameters:
  query   the text sequence to search for
Options:
  -f, --file           query (fasta) file to process
  -i, --index          path to index file(s)
  -l, --limit          number of results to return, default: all
      --load-complete  load complete index into RAM for batch queries
  -T, --threads        number of threads to use, default: max cores
  -t, --threshold      threshold in percentage of terms in query matching, 
                       default: 0.8

 

 

テストラン

1、Indexing

COBS indexを作成(fasta/に置かれている7つのfastaファイルに対して)

src/cobs compact-construct tests/data/fasta/ example.cobs_compact

example.cobs_compactが出力される。

 

2、Query an index

問い合わせる。

src/cobs query -i example.cobs_compact AGTCAACGCTAAGGCATTTCCCCCCTGCCTCCTGCCTGCTGCCAAGCCCT

#fasta
src/cobs query -i example.cobs_compact -f query.fa
  • -f    query (fasta) file to process
  • -i     path to index file(s)
  • -t    threshold in percentage of terms in query matching,  default: 0.8

ヒットした配列の情報が返される。

f:id:kazumaxneo:20211220203058p:plain

 

  • Multi-FASTA または Multi-FASTQ ファイル内の各配列は、多数のドキュメントとして解析される。COBSインデックスにおいても、各配列は個別のドキュメントとみなされる。

 

ENAにサブミットされた細菌ゲノムのペアエンドシークエンシングデータ全てを使って一貫した品質のゲノムアセンブリ(高品質アセンブリ639,981個)を行ったという論文が最近出ましたが(リンク)、その中でCOBS indexが配列サーチに利用されていて、この実装に興味を持ちました。その論文で公開されているCOBS index(リンク)のサイズは900GB近くあったのでダウンロードはしませんでしたが。

引用

COBS: a Compact Bit-Sliced Signature Index
Timo Bingmann, Phelim Bradley, Florian Gauger, Zamin Iqbal

aRxiv, [Submitted on 23 May 2019 (v1), last revised 26 Jul 2019 (this version, v2)]

 

関連


真核生物ゲノムの自動アノテーションを行うMOSGAのメジャーアップデート

 

 利用可能なゲノム情報の数が非常に増えているため、アクセスしやすく、使いやすい解析ツールの必要性が高まっている。真核生物のゲノムアノテーションを容易にするために、本著者らはMOSGAを作成した。この研究では、ゲノムデータに対するいくつかの高度な解析を含むMOSGA 2がどのように開発されたかを示す。ゲノムデータの品質はアノテーションの品質に大きく影響するため、ユーザーから提出されたゲノムアセンブリを検証し、品質を保証するためのツールを複数搭載した。さらに、比較ゲノムの統合により、ユーザーは複数のゲノムデータセットを同時に解析することで、より広いゲノムビューの恩恵を受けることができる。さらに、MOSGA 2の新機能を様々なユースケースと実用例で紹介する。MOSGA 2は、すでに確立されたアプリケーションをゲノムデータの品質管理に拡張し、系統学など、より大きな文脈で複数のゲノムを統合して解析するために使用できる。

 

GitLab wiki

https://gitlab.com/mosga/mosga/-/wikis/home

 

新しい機能(論文より再構成)

  • 遺伝子予測 - BRAKER 2を用いてタンパク質コード遺伝子を予測する2つの新しいワークフローを組み込んだ。
  • アノテーション品質チェック - MOSGAでは、NCBIのtbl2asnによってアノテーションが検証される。MOSGA2では、NCBIとの互換性を向上させる複数のフィルターを追加挿入した。これには、エクソンイントロンの推奨サイズ、およびタンパク質コード配列の完全性をチェックする追加フィルターがあり、内部ストップコドン、正しいスタートコドンおよびストップコドンのチェックが含まれる。
  • 既存のアノテーションの統合 - MOSGA 2は、既存のゲノムアノテーションGenBankフラットフォーマット(GBFF)でインポートでき、既存のアノテーションと追加予測ツールの出力を組み合わせたり、洗練させたりできる。GBFF ファイルはアノテーション作業に限らず、比較ゲノム作業や異なるファイルフォーマットの混在にも使用できる。
  • オルガネラ DNAスキャン - MOSGAは核コードDNA配列のアノテーションに最適化されているが、オルガネラDNAを同定するために、GC-content、オルガネラデータベースの情報、barrnapやtRNAscan-SE 2.0などのRNA予測ツールを組み合わせている。
  • ゲノムの完全性 - BUSCOとEukCCを用いてアセンブリの完全性を推定する。各ゲノムの完全性の結果は、比較ゲノムワークフローとアノテーションワークフローで別々にまとめて可視化される。
  • コンタミネーション検出 - 他の生物からの配列や残存する配列アダプターなど、ゲノムアセンブリに潜在する汚染を検出するために、BlobToolsとNCBIのVecScreenを統合している。
  • 外部アプリケーションインターフェース - 確立された外部ツールへのAPIを導入した。これには機能的エンリッチメント解析のためのg:Profiler g:GOST、 Integrated Interactions Database 、タンパク質-タンパク質相互作用解析のためのSTRINGデータベースの3つがある。アノテーションモードで複数のAPIを有効にし、その結果をジョブ投入に戻すことにより、機能アノテーションから予測されるタンパク質識別子をこれらのツールに投入することができる。
  • 系統解析 - BUSCOとEukCCを用いてゲノム中のシングルコピー遺伝子を同定し、系統樹の計算を行う。BUSCOのデータソースはOrthoDBであるのに対し、EukCCはPANTHERに依存している。
  • ゲノム配列の類似性の比較 - FastANIにより全ゲノムのAverage Nucleotide Identity(ANI)を計算してゲノムを相互に比較する。
  • タンパク質コード遺伝子の比較 - アップロードされたすべてのゲノムのタンパク質コード化遺伝子を比較する。例えば、異なる遺伝子予測ツール間の比較や、参照アノテーションと実験アノテーション間の比較を行うことができる。この方法は、タンパク質をコードする遺伝子の塩基配列を比較するもので、Average Amino Acids Identity の概念と類似している。結果はヒートマップとして表示される。

 

 

webサービス

https://mosga.mathematik.uni-marburg.de/にアクセスする。

f:id:kazumaxneo:20211219195352p:plain

 

1、Annotation

fasta形式のゲノムアセンブリファイルを指定する。

2行目には生物種を指定する。

f:id:kazumaxneo:20211219200110p:plain

MOSGAのアノテーションジョブにおいて、複数のユーザーが与えられたデータに対して最適な遺伝子予測モデルを選択していないケースが確認されている。例えば遺伝子予測ツールAugustusには現在すでに80の種特異的なモデルが含まれているため、この作業は困難である可能性がある。このような場合、最も適したモデルを特定する作業をサポートするために、分類学検索機能が実装された。そのために、ユーザーはアップロードされたゲノムアセンブリの種名を選択する必要がある。これによって、MOSGA 2は各ツールの最適な推定種または系統特異的パラメータを検索する。この機能は遺伝子予測ツールAugustus、GlimmerHMM、SNAPと検証ツールのBUSCOで利用可能である(論文より)。

 

Submission Details

f:id:kazumaxneo:20211220091813p:plain

locus tag名、strain名などを記入する。既にアノテーションされたゲノムをGBFF (GenBank flat format) ファイルとしてアップロードすることもできる。アップロードすると、異なる遺伝子予測ツール間の比較や、参照アノテーションと実験アノテーション間の比較を行うことができる。技術的には、MOSGA 2はタンパク質をコードする配列を抽出し、それらを互いにマッチングさせる。定義された閾値以上のマッチングはゲノムにビンバックされ、ゲノム間の平均コーディング内容の類似性がヒートマップとして表示される。この解析により、異なるゲノム間での遺伝子予測の一貫性をチェックすることができる(論文より)。

 

追加の解析モジュール。g.profilerの機能的アノテーションやタンパク質相互作用の予測。

f:id:kazumaxneo:20211220092101p:plain

 

それ以外の設定

f:id:kazumaxneo:20211219200334p:plain

最後にRunボタンをクリックするとサブミットされる。

 

メールアドレスを書いておくとジョブ終了後にメールが届く。

f:id:kazumaxneo:20211219200609p:plain

推定計算時間も表示されるので目安になる。

 

出力例

f:id:kazumaxneo:20211220084722p:plain

GenBank Flat File Format (GenBank)ファイルもダウンロードできる。また、JBrowseゲノムブラウザを使ってアノテーション結果をオンラインで確認できる。

 

ValidationはBUSCOやEukCCのサマリー。aanotation summaryは各配列から予測された遺伝子数、リピート数、tRNA数のサマリー。

f:id:kazumaxneo:20211220085301p:plain

 

Detailから各ファイルをダウンロードできる。

f:id:kazumaxneo:20211220084912p:plain

 

 

2、Comparative Genomics

右上からComparative Genomicsに切り替えることができる。Uploadから複数ゲノム配列をアップロードする(4つ以上必要)。

f:id:kazumaxneo:20211220120857p:plain

 

解析例

1、Saccharomyces species

https://mosga.mathematik.uni-marburg.de/phylo

2、Saccharomyces strains

https://mosga.mathematik.uni-marburg.de/genecomp

 

f:id:kazumaxneo:20211220132514p:plain

f:id:kazumaxneo:20211220132518p:plain

f:id:kazumaxneo:20211220132519p:plain

 

Detailsf:id:kazumaxneo:20211220132549p:plain


引用

MOSGA 2: Comparative genomics and validation tools
Roman Martin, Hagen Dreßler, Georges Hattab, Thomas Hackl, Matthias G Fischer, Dominik Heider

Comput Struct Biotechnol J. 2021 Sep 28;19:5504-5509

 

関連


 

 

高効率なカバレッジ計算ツール BamToCov

2022/02/25 論文引用

 

 多くのゲノミクスアプリケーションでは、リファレンスのヌクレオチドカバレッジを計算したり、リファレンス領域に何本のリードがマッピングされているかをカウントしたりする必要がある。本発表では、BamToCovを紹介する。このツールは、メモリ効率の良いアルゴリズムに依存し、カスタムパイプラインに柔軟に統合できるように設計された、迅速かつ柔軟なカバレッジ計算のためのツールスイートである。このツール群は、ソートされたBAMファイルやCRAMファイルを処理し、様々なフィルタリングアプローチを用いてカバレッジ情報を抽出することができる。

 BamToCovツールは、既存のツールとは異なり、最小限のメモリで、ワークフローに容易に統合でき、ストランドに特化したカバレッジ解析ができるように開発されている。独自のカバレッジ計算アルゴリズムにより、ロングリードのアラインメント解析に最適になっている。プログラムとそのドキュメントは、https://github.com/telatin/bamtocov で自由に利用することができる。

 

 アライメントファイル(BAM形式)からカバレッジ情報を抽出するツールは、すでにいくつか存在する。Samtools (Li et al., 2009), Bedtools (Quinlan, 2014), Sambamba (Tarasov et al., 2015) 。そして新しく、より機能豊富なMosdepth (Pedersen and Quinlan, 2018b) とMegaDepth (Wilks et al., 2021)がある。既存のツールの共通の限界は、mate-pairs ライブラリを使用してアセンブリの完全性を決定する際に重要な物理的カバレッジを計算できないことである。また、鎖ごとのカバレッジを分離することができない。ある位置がフォワードリードのみ、あるいはリバースリードのみによってカバーされている場合、それはおそらくミスアライメントに起因する。これらの制限を解決するために、Covtobed (Birolo and Telatin, 2020)を開発した。これは、コンピュータプログラミングのUNIX哲学に触発され、入出力ストリームをサポートする単一タスクに焦点を当てたシンプルかつ効率的なC++プログラムである。ここでは、Nim言語で記述されたBamToCovプログラムとその補助ユーティリティを紹介する。これは、入力ストリームを読み込む機能を維持しながら、インターバルターゲット、新しい出力フォーマット、カバレッジ統計、複数のBAMファイルをサポートする新しい機能を備えたCovtobedのコアアルゴリズムを用いてカバレッジ計算を行い、全体的にパフォーマンスの向上(すなわち、より小さなメモリフットプリントと最大3倍の速度向上)を達成している。

 

Documentation

https://telatin.github.io/bamtocov/

Wig format

https://telatin.github.io/bamtocov/notes/wig.html

 

 

ペアエンドライブラリを使用する場合、物理カバレッジも計算することができる。物理カバレッジとは、ロングインサートのペアエンド(メイトペア)で-->... <--のようにリードはカバーしていない領域(...)が発生するが、この領域もカウント対象としたカバレッジの事(プレプリント図1))

 

特徴

  • UNIX哲学の入力ストリームをサポートに対応しており、bamのインデックスは必要ない
  • ストランドバイアスをチェックするために、ストランドごとのカバレッジを計算可能
  • 少ないメモリ使用量
  • CRAMファイルをネイティブにサポート
  • ロングリードのアラインメントにも対応(Table.1)
  • 高速(MegaDepthに次ぐ速度)

 

インストール

Github

mamba create -n bamtocov
conda activate bamtocov
mamba install -y -c bioconda bamtocov

> bamtocov -h

BamToCov 2.3.0

 

  Usage: bamtocov [options] [<BAM>]...

 

Arguments:                                                                                                                                                 

  <BAM>         the alignment file for which to calculate depth (default: STDIN)

 

Core options:

  -p, --physical               Calculate physical coverage

  -s, --stranded               Report coverage separate by strand

  -q, --quantize <breaks>      Comma separated list of breaks for quantized output

  -w, --wig <SPAN>             Output in WIG format (using fixed <SPAN>), 0 will print in BED format [default: 0]

  --op <func>                  How to summarize coverage for each WIG span (mean/min/max) [default: max]

  -o, --report <TXT>           Output coverage report

  --skip-output                Do not output per-base coverage

  --report-low <min>           Report coverage for bases with coverage < min [default: 0]

 

Target files:

  -r, --regions <bed>          Target file in BED or GFF3/GTF format (detected with the extension)

  -t, --gff-type <feat>        GFF feature type to parse [default: CDS]

  -i, --gff-id <ID>            GFF identifier [default: ID]

  --gff-separator <sep>        GFF attributes separator [default: ;]

  --gff                        Force GFF input (otherwise assumed by extension .gff)

 

BAM reading options:

  -T, --threads <threads>      BAM decompression threads [default: 0]

  -F, --flag <FLAG>            Exclude reads with any of the bits in FLAG set [default: 1796]

  -Q, --mapq <mapq>            Mapping quality threshold [default: 0]

 

Other options:

  --debug                      Enable diagnostics

  -h, --help                   Show help

> bamtocounts -h

$ bamtocounts -h

BamToCounts 2.3.0

 

  Usage: bamtocounts [options] <Target> <BAM-or-CRAM>...

 

Arguments:                                                                                                                                                 

 

  <Target>       the BED (or GFF) file containing regions in which to count reads

  <BAM-or-CRAM>  the alignment file for which to calculate depth

 

Options:

 

  -T, --threads <threads>      BAM decompression threads [default: 0]

  -r, --fasta <fasta>          FASTA file for use with CRAM files [default: ].

  -F, --flag <FLAG>            Exclude reads with any of the bits in FLAG set [default: 1796]

  -Q, --mapq <mapq>            Mapping quality threshold [default: 0]

  -g, --gff                    Force GFF for input (otherwise autodetected by .gff extension)

  -t, --type <feat>            GFF feature type to parse [default: CDS]

  -i, --id <ID>                GFF identifier [default: ID]

  -n, --rpkm                   Add a RPKM column

  -l, --norm-len               Add a counts/length column (after RPKM when both used)

  --header                     Print header

  --debug                      Enable diagnostics    

  -h, --help                   Show help

>  covtotarget -h

covToTarget 2.3.0

 

  Usage: covtotarget [options] <Target> [<covtobed-output>]

 

Arguments:                                                                                                                                                 

 

  <Target>           the BED (or GFF) file containing regions in which to count reads

  <covtobed-output>  covtobed output, or STDIN if not provided

 

Options:

 

  -g, --gff                    Force GFF for input (otherwise autodetected by .gff extension)

  -t, --type <feat>            GFF feature type to parse [default: CDS]

  -i, --id <ID>                GFF identifier [default: ID]

  -l, --norm-len               Normalize by gene length

  -b, --bed-output             Output format is BED-like (default is feature_name [tab] counts)

  -h, --help                   Show help

 

 

実行方法

bamtocov - BAMファイルを解析してBED形式のカバレッジファイルを出力

bamを指定する。

インデックスがなくてもソートされたBAMファイルを読み込むことができる。
bamtocov input.bam > coverage.bed

#物理カバレッジ
bamtocov -p input.bam > coverage.bed
  •  -p   Calculate physical coverage

wigファイルフォーマットで出力する。

bamtocov --wig 200 input.bam > coverage.wig
  • -w   Output in WIG format (using fixed <SPAN>), 0 will print in BED format [default: 0]

strandedを指定すると、forwardとreverseそれぞれのカバレッジが計算される。

bamtocov --stranded input.bam > coverage.bed
  • -s    Report coverage separate by strand

5列のBEDライクなファイルが出力される。4列目がforward strand coverage、5列目がreverse strand coverage。

 

BamToCounts - BAMファイル中のターゲットのリード数をカウント

ターゲット領域のbedを指定する。

BamToCounts target.bed input.bam  > coverage.txt

 

BamCountsRefs - 複数のBAMファイル(同じ参照配列を持つ)からカウントテーブルを出力

wigファイル出力

bamcountrefs --tag "Chr1" input1.bam input2.bam   

 

covToTarget - ターゲット(BED または GFF3 フォーマットのアノテーションファイル)と covtobed 1.0 の出力を基に、フィーチャーごとのカバレッジレポートを作成

covtobed input/mini.bam | covtotarget input/mini.bed > output/counts.tsv

 

シミュレートされたbamを生成するコマンドも用意されています。ドキュメントを確認して下さい。

引用

BamToCov: an efficient toolkit for sequence coverage calculations
Giovanni Birolo,  Andrea Telatin

bioRxiv, Posted November 17, 2021

 

2022/02/24

BamToCov, an efficient toolkit for sequence coverage calculations 
Giovanni Birolo,  Andrea Telatin  Author Notes
Bioinformatics, Published: 23 February 2022

 


PhotoModPlus

 

 Genome neighborhood networks(GNN)とGenome neighborhood (GN)ベースの機械学習を用いて光合成タンパク質を予測するためのプラットフォームとして、PhotoModPlusと呼ばれる新しいウェブサーバを紹介する。GNNは、複数の光合成原核生物ゲノムから得られた保存されたGN遺伝子の概要を可視化することを可能にし、クエリ入力に対する機能的なガイダンスを提供する。また、このプラットフォームでは、原核生物光合成関連の24のGO termに基づいて光合成特異的な機能を予測するための、GN特徴を活用した新しい機械学習モデル、すなわちPhotoModGOを発表する。この新しいモデルは,入れ子になった5回のクロスバリデーションに基づくF1指標が0.872となり,配列に基づくアプローチよりも優れた性能を示した.最後に,このウェブサーバと新しいモデルを,新規の光合成タンパク質の同定に応用してた。このサーバーは使いやすく、すべてのデバイスに対応しており、bicep.kmutt.ac.th/photomodで利用できる。

 

https://bicep.kmutt.ac.th/photomodにアクセスする。

f:id:kazumaxneo:20211018125945p:plain

何度かアクセスしたが、メンテナンス中なのかアクセスできず。

 

引用

PhotoModPlus: A web server for photosynthetic protein prediction from genome neighborhood features

Apiwat Sangphukieo, Teeraphan Laomettachit, Marasri Ruengjitchatchawalya

PLOS ONE, Published: March 17, 2021