2021-12-25

bowtie2を使ってアセンブルした配列を評価する

bowtie2はマッピング結果の要約統計を標準エラー出力として報告する。Trinityのwikiでは、これを利用してde novo transcriptome assemblyを評価する流れがまとめられている。

RNA Seq Read Representation by Trinity Assembly · trinityrnaseq/trinityrnaseq Wiki · GitHub

実行方法

１、indexing

bowtie2-build --threads ref.fasta bowtie2_index

２、Mapping

要約統計をstats.txtとして保存する。マッピング結果はここでは破棄する。アセンブリが非常に断片化している可能性を考慮してローカルアラインメントモードを使う。リードが完全にアラインメントされることを必要とするならend-to-endモード（bowtie1）を使う（マニュアル）。

bowtie2 -p 20 --sensitive-local --local -x bowtie2_index -1 reads_1.fq -2 reads_2.fq 2>stats.txt 1> /dev/null

--sensitive-local -D 15 -R 2 -N 0 -L 20 -i S,1,0.75 (default)
--end-to-end　entire read must align; no clipping (on)
OR
--local local alignment; ends might be soft clipped (off)
-p　 number of alignment threads to launch (1)
--no-unal 　 suppress SAM records for unaligned reads

出力例

f:id:kazumaxneo:20211225000417p:plain

引用

Fast gapped-read alignment with Bowtie 2

Ben Langmead & Steven L Salzberg

Nat Methods. 2012 Mar 4;9(4):357-9

関連

2021-12-23

Redを使ったゲノムアセンブリのソフトマスクを行う redmask

mask assembly

タイトルの通りのツール。ランするにはRed (Repeat Detector) とbiopythonが必要。

インストール

Github

mamba create -n red python=2.7 -y
conda activate red
#red,biopython,natsort
mamba install -c bioconda -y red biopython natsort

git clone https://github.com/nextgenusfs/redmask.git
cd redmask/

> python redmask.py -h

usage: redmask.py [-h] -i GENOME -o OUTPUT [-m MIN] [--training TRAINING]

[-l WORD_LEN] [-t THRESHOLD] [-g GAUSSIAN] [-c MARKOV_ORDER]

[--debug] [--version]

Wraper for Red - repeat identification and masking for genome annotation

optional arguments:

-h, --help show this help message and

exit

-i GENOME, --genome GENOME genome assembly FASTA format

(default: None)

-o OUTPUT, --output OUTPUT Output basename (default:

None)

-m MIN, --min MIN Minimum number of observed

k-mers (default: 3)

--training TRAINING Min length for training

(default: 1000)

-l WORD_LEN, --word_len WORD_LEN word length (kmer length)

(default: None)

-t THRESHOLD, --threshold THRESHOLD threshold of low adjusted

scores of non-repeats

(default: None)

-g GAUSSIAN, --gaussian GAUSSIAN Gaussian smoothing width

(default: None)

-c MARKOV_ORDER, --markov_order MARKOV_ORDER Order of background markov

chain (default: None)

--debug Keep intermediate files

(default: False)

--version show program's version number

and exit

Written by Jon Palmer (2018) nextgenusfs@gmail.com

実行方法

fasta形式のゲノム配列を指定する。

python redmask.py -i assembly.fasta -o output

出力例

f:id:kazumaxneo:20211224090511p:plain

ランが終わるとRedによって検出されたリピート配列のfastaとBEDファイル、検出されたリピート配列が小文字になった配列（ソフトマスクされた配列）、が出力される。

引用

GitHub - nextgenusfs/redmask: Genome assembly soft-masking using Red (REpeat Detector)

関連

2021-12-23

翻訳された遺伝子のマッチングを迅速に同定、分類、アノテーションするためのツール GAMMA

2021 Bioinformatics BLAST

　参照データベースを用いて微生物配列の遺伝子を同定するために用いられるツールは、一般に一致度をパーセントで報告するが、配列同一性が100％未満の場合、特定のアミノ酸の変化が基質結合領域や酵素活性部位で起こる場合など、タンパク質の機能に劇的な影響を与え、それが抗菌性あるいは病原性といった表現型に劇的な影響を与えることがあるため、解釈が難しい場合がある。

　GAMMAは、タンパク質のコードレベルの同一性を利用して、あらゆる遺伝子データベースから遺伝子を呼び出し、その呼び出しに対して分類（例：変異、切断）と翻訳アノテーション（例：Y190S変異、残基110での切断）を生成するオープンソースのツールである。GAMMAは、他の3つのツールよりも速く、大規模なゲノムセットから抗菌剤耐性遺伝子を正確にコールした。また、同じゲノムセットから病原性遺伝子を同定することで実証したように、あらゆる遺伝子データベースと併用することが可能である。GAMMAはその速度と柔軟性から、微生物のシーケンスデータから興味のあるあらゆる遺伝子のマッチングを迅速に見つけ、アノテーションするために使用することができる。

インストール

Github

#conda (link)
mamba create -n GAMMA -y
conda activate GAMMA
mamba install -c bioconda gamma -y

> GAMMA.py -h

usage: GAMMA.py [-h] [-a] [-e] [-f] [-g] [-i PERCENT_IDENTITY]

input_fasta database output

This scripts makes annotated gene calls from matches in an assembly using a

gene database

positional arguments:

input_fasta input fasta

database input database

output output name

optional arguments:

-h, --help show this help message and exit

-a, --all include all gene matches, even overlaps

-e, --extended writes out all protein mutations

-f, --fasta write fasta of gene matches

-g, --gff write gene matches as gff file

-i PERCENT_IDENTITY, --percent_identity PERCENT_IDENTITY

minimum nucleotide identity for blat search (default = 90)

実行方法

ランするにはfasta形式のゲノムアセンブリと遺伝子のコーディング配列のmultifastaデータベースが必要。コーディング配列のデータベースとして、GAMMAのレポジトリのResFinderDBデータベース（2020年5月6日にダウンロードされたResFinder AR遺伝子データベース）を指定している。

git clone https://github.com/rastanton/GAMMA.git
GAMMA.py assembly.fasta GAMMA/ResFinderDB_Combined_05-06-20.fsa output -f -g -i 90

-a include all gene matches, even overlaps
-e writes out all protein mutations
-f write fasta of gene matches
-g write gene matches as gff file
-i minimum nucleotide identity for blat search (default = 90)

GAMMA のデフォルト出力は、15 カラムのタブ区切りファイルとなる。

> head output.gamma

f:id:kazumaxneo:20211223001948p:plain

詳細はレポジトリの解説を参照して下さい。

引用

GAMMA: a tool for the rapid identification, classification, and annotation of translated gene matches from sequencing data
Richard A Stanton, Nicholas Vlachos, Alison Laufer Halpin

Bioinformatics. 2021 Aug 20;btab607

関連

2021-12-21

COBS index

2019 Preprint index API

Githubより

　COBS（COmpact Bit-sliced Signature index）は、invertedインデックスとブルームフィルタを掛け合わせたものである。DNAサンプルのk-merやテキスト文書のq-gramsをインデックス化し、ユーザが選択したカバレッジ閾値を持つコーパスに対して近似的なパターンマッチングのクエリを処理することが目標である。クエリの結果には多数の偽陽性が含まれる可能性があるが、これはクエリの長さとインデックスの構築時に決定される偽陽性率に伴って指数関数的に減少する。COBSのコンパクトかつシンプルなデータ構造は、構築時間とクエリパフォーマンスにおいて他のインデックスを凌駕し、PandeyらによるMantisは2位につけている。しかし、Mantisや他の先行研究とは異なり、COBSはRAMに完全なインデックスを必要としないため、より大きな文書集合に拡張できるように設計されている。

Documentation

https://cobs.readthedocs.io/en/latest/#

COBSは、FASTAファイル（*.fa, *.fasta, *.fa.gz, *.fasta.gz）、FASTQファイル（*.fq, *.fastq, *.fq.gz., *.fastq.gz）、「マルチFASTA」および「マルチFASTQ」ファイル（*.mfasta、 *.mfastq）, McCortex ファイル (*.ctx) またはテキストファイル (*.txt) を読み込むことができる。各ファイルタイプは、q-gramまたはk-mersに若干異なる方法で解析される。

インストール

Github

git clone --recursive https://github.com/bingmann/cobs.git
mkdir cobs/build
cd cobs/build
cmake ..
make -j4

> src/cobs
(Co)mpact (B)it-Sliced (S)ignature Index for Genome Search

Usage: src/cobs <subtool> ...

Available subtools:
doc-list read a list of documents and print the list
doc-dump read a list of documents and dump their contents
classic-construct constructs a classic index from the documents in <in_dir>
classic-construct-random constructs a classic index with random content
compact-construct creates the folders used for further construction
compact-construct-combine combines the classic indices in <in_dir> to form a compact index
query query an index
print-parameters calculates index parameters
print-kmers print all canonical kmers from <query>
benchmark-fpr run benchmark and false positive measurement
generate-queries select queries randomly from documents

See https://panthema.net/cobs for more information on COBS.

> cobs compact-construct -h
Usage: cobs compact-construct [options] <input> <out_file>
Parameters:
input path to the input directory or file
out_file path to the output .cobs_compact index file
Options:
-C, --clobber erase output directory if it exists
--continue continue in existing output directory
-f, --false-positive-rate false positive rate, default: 0.300000
--file-type "list" to read a file list, or filter documents by
file type (any, text, cortex, fasta, fastq, etc)
--keep-temporary keep temporary files during construction
-m, --memory memory in bytes to use, default: 201.307 Gi
--no-canonicalize don't canonicalize DNA k-mers, default: false
-h, --num-hashes number of hash functions, default: 1
-p, --page-size the page size of the compact the index, default:
sqrt(#documents)
-k, --term-size term size (k-mer size), default: 31
-T, --threads number of threads to use, default: max cores
--tmp-path directory for intermediate index files, default:
out_file + ".tmp")

> cobs query -h
Usage: cobs query [options] [query]
Parameters:
query the text sequence to search for
Options:
-f, --file query (fasta) file to process
-i, --index path to index file(s)
-l, --limit number of results to return, default: all
--load-complete load complete index into RAM for batch queries
-T, --threads number of threads to use, default: max cores
-t, --threshold threshold in percentage of terms in query matching,
default: 0.8

テストラン

１、Indexing

COBS indexを作成（fasta/に置かれている７つのfastaファイルに対して）

src/cobs compact-construct tests/data/fasta/ example.cobs_compact

example.cobs_compactが出力される。

２、Query an index

問い合わせる。

src/cobs query -i example.cobs_compact AGTCAACGCTAAGGCATTTCCCCCCTGCCTCCTGCCTGCTGCCAAGCCCT

#fasta
src/cobs query -i example.cobs_compact -f query.fa

-f query (fasta) file to process
-i path to index file(s)
-t threshold in percentage of terms in query matching, default: 0.8

ヒットした配列の情報が返される。

Multi-FASTA または Multi-FASTQ ファイル内の各配列は、多数のドキュメントとして解析される。COBSインデックスにおいても、各配列は個別のドキュメントとみなされる。

ENAにサブミットされた細菌ゲノムのペアエンドシークエンシングデータ全てを使って一貫した品質のゲノムアセンブリ（高品質アセンブリ639,981個）を行ったという論文が最近出ましたが（リンク）、その中でCOBS indexが配列サーチに利用されていて、この実装に興味を持ちました。その論文で公開されているCOBS index（リンク）のサイズは900GB近くあったのでダウンロードはしませんでしたが。

引用

COBS: a Compact Bit-Sliced Signature Index
Timo Bingmann, Phelim Bradley, Florian Gauger, Zamin Iqbal

aRxiv, [Submitted on 23 May 2019 (v1), last revised 26 Jul 2019 (this version, v2)]

関連

2021-12-20

真核生物ゲノムの自動アノテーションを行うMOSGAのメジャーアップデート

organelle genome 2021 tRNA Computational and Structural Biotechnology Journal eukaryotic genome annotation 結果の視覚化 (visualization) ゲノム比較 (comparative genomics) ANI

　利用可能なゲノム情報の数が非常に増えているため、アクセスしやすく、使いやすい解析ツールの必要性が高まっている。真核生物のゲノムアノテーションを容易にするために、本著者らはMOSGAを作成した。この研究では、ゲノムデータに対するいくつかの高度な解析を含むMOSGA 2がどのように開発されたかを示す。ゲノムデータの品質はアノテーションの品質に大きく影響するため、ユーザーから提出されたゲノムアセンブリを検証し、品質を保証するためのツールを複数搭載した。さらに、比較ゲノムの統合により、ユーザーは複数のゲノムデータセットを同時に解析することで、より広いゲノムビューの恩恵を受けることができる。さらに、MOSGA 2の新機能を様々なユースケースと実用例で紹介する。MOSGA 2は、すでに確立されたアプリケーションをゲノムデータの品質管理に拡張し、系統学など、より大きな文脈で複数のゲノムを統合して解析するために使用できる。

GitLab wiki

https://gitlab.com/mosga/mosga/-/wikis/home

新しい機能（論文より再構成）

遺伝子予測 - BRAKER 2を用いてタンパク質コード遺伝子を予測する2つの新しいワークフローを組み込んだ。
アノテーション品質チェック - MOSGAでは、NCBIのtbl2asnによってアノテーションが検証される。MOSGA2では、NCBIとの互換性を向上させる複数のフィルターを追加挿入した。これには、エクソン、イントロンの推奨サイズ、およびタンパク質コード配列の完全性をチェックする追加フィルターがあり、内部ストップコドン、正しいスタートコドンおよびストップコドンのチェックが含まれる。
既存のアノテーションの統合 - MOSGA 2は、既存のゲノムアノテーションをGenBankフラットフォーマット（GBFF）でインポートでき、既存のアノテーションと追加予測ツールの出力を組み合わせたり、洗練させたりできる。GBFF ファイルはアノテーション作業に限らず、比較ゲノム作業や異なるファイルフォーマットの混在にも使用できる。
オルガネラ DNAスキャン - MOSGAは核コードDNA配列のアノテーションに最適化されているが、オルガネラDNAを同定するために、GC-content、オルガネラデータベースの情報、barrnapやtRNAscan-SE 2.0などのRNA予測ツールを組み合わせている。
ゲノムの完全性 - BUSCOとEukCCを用いてアセンブリの完全性を推定する。各ゲノムの完全性の結果は、比較ゲノムワークフローとアノテーションワークフローで別々にまとめて可視化される。
コンタミネーション検出 - 他の生物からの配列や残存する配列アダプターなど、ゲノムアセンブリに潜在する汚染を検出するために、BlobToolsとNCBIのVecScreenを統合している。
外部アプリケーションインターフェース - 確立された外部ツールへのAPIを導入した。これには機能的エンリッチメント解析のためのg:Profiler g:GOST、 Integrated Interactions Database 、タンパク質-タンパク質相互作用解析のためのSTRINGデータベースの3つがある。アノテーションモードで複数のAPIを有効にし、その結果をジョブ投入に戻すことにより、機能アノテーションから予測されるタンパク質識別子をこれらのツールに投入することができる。
系統解析 - BUSCOとEukCCを用いてゲノム中のシングルコピー遺伝子を同定し、系統樹の計算を行う。BUSCOのデータソースはOrthoDBであるのに対し、EukCCはPANTHERに依存している。
ゲノム配列の類似性の比較 - FastANIにより全ゲノムのAverage Nucleotide Identity（ANI）を計算してゲノムを相互に比較する。
タンパク質コード遺伝子の比較 - アップロードされたすべてのゲノムのタンパク質コード化遺伝子を比較する。例えば、異なる遺伝子予測ツール間の比較や、参照アノテーションと実験アノテーション間の比較を行うことができる。この方法は、タンパク質をコードする遺伝子の塩基配列を比較するもので、Average Amino Acids Identity の概念と類似している。結果はヒートマップとして表示される。

webサービス

https://mosga.mathematik.uni-marburg.de/にアクセスする。

１、Annotation

fasta形式のゲノムアセンブリファイルを指定する。

2行目には生物種を指定する。

f:id:kazumaxneo:20211219200110p:plain

MOSGAのアノテーションジョブにおいて、複数のユーザーが与えられたデータに対して最適な遺伝子予測モデルを選択していないケースが確認されている。例えば遺伝子予測ツールAugustusには現在すでに80の種特異的なモデルが含まれているため、この作業は困難である可能性がある。このような場合、最も適したモデルを特定する作業をサポートするために、分類学検索機能が実装された。そのために、ユーザーはアップロードされたゲノムアセンブリの種名を選択する必要がある。これによって、MOSGA 2は各ツールの最適な推定種または系統特異的パラメータを検索する。この機能は遺伝子予測ツールAugustus、GlimmerHMM、SNAPと検証ツールのBUSCOで利用可能である（論文より）。

Submission Details

f:id:kazumaxneo:20211220091813p:plain

locus tag名、strain名などを記入する。既にアノテーションされたゲノムをGBFF (GenBank flat format) ファイルとしてアップロードすることもできる。アップロードすると、異なる遺伝子予測ツール間の比較や、参照アノテーションと実験アノテーション間の比較を行うことができる。技術的には、MOSGA 2はタンパク質をコードする配列を抽出し、それらを互いにマッチングさせる。定義された閾値以上のマッチングはゲノムにビンバックされ、ゲノム間の平均コーディング内容の類似性がヒートマップとして表示される。この解析により、異なるゲノム間での遺伝子予測の一貫性をチェックすることができる（論文より）。

追加の解析モジュール。g.profilerの機能的アノテーションやタンパク質相互作用の予測。

f:id:kazumaxneo:20211220092101p:plain

それ以外の設定

f:id:kazumaxneo:20211219200334p:plain

最後にRunボタンをクリックするとサブミットされる。

メールアドレスを書いておくとジョブ終了後にメールが届く。

f:id:kazumaxneo:20211219200609p:plain

推定計算時間も表示されるので目安になる。

出力例

f:id:kazumaxneo:20211220084722p:plain

GenBank Flat File Format (GenBank)ファイルもダウンロードできる。また、JBrowseゲノムブラウザを使ってアノテーション結果をオンラインで確認できる。

ValidationはBUSCOやEukCCのサマリー。aanotation summaryは各配列から予測された遺伝子数、リピート数、tRNA数のサマリー。

f:id:kazumaxneo:20211220085301p:plain

Detailから各ファイルをダウンロードできる。

f:id:kazumaxneo:20211220084912p:plain

２、Comparative Genomics

右上からComparative Genomicsに切り替えることができる。Uploadから複数ゲノム配列をアップロードする（4つ以上必要）。

f:id:kazumaxneo:20211220120857p:plain

解析例

１、Saccharomyces species

https://mosga.mathematik.uni-marburg.de/phylo

２、Saccharomyces strains

https://mosga.mathematik.uni-marburg.de/genecomp

f:id:kazumaxneo:20211220132514p:plain

f:id:kazumaxneo:20211220132518p:plain

f:id:kazumaxneo:20211220132519p:plain

Details f:id:kazumaxneo:20211220132549p:plain

引用

MOSGA 2: Comparative genomics and validation tools
Roman Martin, Hagen Dreßler, Georges Hattab, Thomas Hackl, Matthias G Fischer, Dominik Heider

Comput Struct Biotechnol J. 2021 Sep 28;19:5504-5509

関連

以前、ブログで真核生物ゲノムのアノテーションを行うMOSGAというwebサービスを紹介したんですが、この間オーサーからお礼の連絡をいただきました。日本の研究者からのアクセスが増えて、微妙なバグも修正できたとの事です。https://t.co/33bZKUDbWR
— Kazuma Uesaka (@kazumachack) April 14, 2021

2021-12-17

高効率なカバレッジ計算ツール BamToCov

2021 Preprint bam/sam wig 高速なツール bed physical coverage Mate Pair Nanopore long read 2022 Bioinformatics

2022/02/25 論文引用

　多くのゲノミクスアプリケーションでは、リファレンスのヌクレオチドカバレッジを計算したり、リファレンス領域に何本のリードがマッピングされているかをカウントしたりする必要がある。本発表では、BamToCovを紹介する。このツールは、メモリ効率の良いアルゴリズムに依存し、カスタムパイプラインに柔軟に統合できるように設計された、迅速かつ柔軟なカバレッジ計算のためのツールスイートである。このツール群は、ソートされたBAMファイルやCRAMファイルを処理し、様々なフィルタリングアプローチを用いてカバレッジ情報を抽出することができる。

　BamToCovツールは、既存のツールとは異なり、最小限のメモリで、ワークフローに容易に統合でき、ストランドに特化したカバレッジ解析ができるように開発されている。独自のカバレッジ計算アルゴリズムにより、ロングリードのアラインメント解析に最適になっている。プログラムとそのドキュメントは、https://github.com/telatin/bamtocov で自由に利用することができる。

　アライメントファイル（BAM形式）からカバレッジ情報を抽出するツールは、すでにいくつか存在する。Samtools (Li et al., 2009), Bedtools (Quinlan, 2014), Sambamba (Tarasov et al., 2015) 。そして新しく、より機能豊富なMosdepth (Pedersen and Quinlan, 2018b) とMegaDepth (Wilks et al., 2021)がある。既存のツールの共通の限界は、mate-pairs ライブラリを使用してアセンブリの完全性を決定する際に重要な物理的カバレッジを計算できないことである。また、鎖ごとのカバレッジを分離することができない。ある位置がフォワードリードのみ、あるいはリバースリードのみによってカバーされている場合、それはおそらくミスアライメントに起因する。これらの制限を解決するために、Covtobed (Birolo and Telatin, 2020)を開発した。これは、コンピュータプログラミングのUNIX哲学に触発され、入出力ストリームをサポートする単一タスクに焦点を当てたシンプルかつ効率的なC++プログラムである。ここでは、Nim言語で記述されたBamToCovプログラムとその補助ユーティリティを紹介する。これは、入力ストリームを読み込む機能を維持しながら、インターバルターゲット、新しい出力フォーマット、カバレッジ統計、複数のBAMファイルをサポートする新しい機能を備えたCovtobedのコアアルゴリズムを用いてカバレッジ計算を行い、全体的にパフォーマンスの向上（すなわち、より小さなメモリフットプリントと最大3倍の速度向上）を達成している。

Documentation

https://telatin.github.io/bamtocov/

Wig format

https://telatin.github.io/bamtocov/notes/wig.html

BamToCov supports #targets (in BED, GTF and GFF3 formats, as microbiologists and their GFF3 files have been neglected for too long!) and output in #WIG format as well.

📦 https://t.co/ssK2A59kUu
— andrea telatin (@telatin) November 18, 2021

ペアエンドライブラリを使用する場合、物理カバレッジも計算することができる。物理カバレッジとは、ロングインサートのペアエンド（メイトペア）で-->... <--のようにリードはカバーしていない領域（...）が発生するが、この領域もカウント対象としたカバレッジの事（プレプリント図１））

特徴

UNIX哲学の入力ストリームをサポートに対応しており、bamのインデックスは必要ない
ストランドバイアスをチェックするために、ストランドごとのカバレッジを計算可能
少ないメモリ使用量
CRAMファイルをネイティブにサポート
ロングリードのアラインメントにも対応（Table.1）
高速（MegaDepthに次ぐ速度）

インストール

Github

mamba create -n bamtocov
conda activate bamtocov
mamba install -y -c bioconda bamtocov

> bamtocov -h

BamToCov 2.3.0

Usage: bamtocov [options] [<BAM>]...

Arguments:

<BAM> the alignment file for which to calculate depth (default: STDIN)

Core options:

-p, --physical Calculate physical coverage

-s, --stranded Report coverage separate by strand

-q, --quantize <breaks> Comma separated list of breaks for quantized output

-w, --wig <SPAN> Output in WIG format (using fixed <SPAN>), 0 will print in BED format [default: 0]

--op <func> How to summarize coverage for each WIG span (mean/min/max) [default: max]

-o, --report <TXT> Output coverage report

--skip-output Do not output per-base coverage

--report-low <min> Report coverage for bases with coverage < min [default: 0]

Target files:

-r, --regions <bed> Target file in BED or GFF3/GTF format (detected with the extension)

-t, --gff-type <feat> GFF feature type to parse [default: CDS]

-i, --gff-id <ID> GFF identifier [default: ID]

--gff-separator <sep> GFF attributes separator [default: ;]

--gff Force GFF input (otherwise assumed by extension .gff)

BAM reading options:

-T, --threads <threads> BAM decompression threads [default: 0]

-F, --flag <FLAG> Exclude reads with any of the bits in FLAG set [default: 1796]

-Q, --mapq <mapq> Mapping quality threshold [default: 0]

Other options:

--debug Enable diagnostics

-h, --help Show help

> bamtocounts -h

$ bamtocounts -h

BamToCounts 2.3.0

Usage: bamtocounts [options] <Target> <BAM-or-CRAM>...

Arguments:

<Target> the BED (or GFF) file containing regions in which to count reads

<BAM-or-CRAM> the alignment file for which to calculate depth

Options:

-T, --threads <threads> BAM decompression threads [default: 0]

-r, --fasta <fasta> FASTA file for use with CRAM files [default: ].

-F, --flag <FLAG> Exclude reads with any of the bits in FLAG set [default: 1796]

-Q, --mapq <mapq> Mapping quality threshold [default: 0]

-g, --gff Force GFF for input (otherwise autodetected by .gff extension)

-t, --type <feat> GFF feature type to parse [default: CDS]

-i, --id <ID> GFF identifier [default: ID]

-n, --rpkm Add a RPKM column

-l, --norm-len Add a counts/length column (after RPKM when both used)

--header Print header

--debug Enable diagnostics

-h, --help Show help

> covtotarget -h

covToTarget 2.3.0

Usage: covtotarget [options] <Target> [<covtobed-output>]

Arguments:

<Target> the BED (or GFF) file containing regions in which to count reads

<covtobed-output> covtobed output, or STDIN if not provided

Options:

-g, --gff Force GFF for input (otherwise autodetected by .gff extension)

-t, --type <feat> GFF feature type to parse [default: CDS]

-i, --id <ID> GFF identifier [default: ID]

-l, --norm-len Normalize by gene length

-b, --bed-output Output format is BED-like (default is feature_name [tab] counts)

-h, --help Show help

実行方法

bamtocov - BAMファイルを解析してBED形式のカバレッジファイルを出力

bamを指定する。

インデックスがなくてもソートされたBAMファイルを読み込むことができる。
bamtocov input.bam > coverage.bed

#物理カバレッジ
bamtocov -p input.bam > coverage.bed

-p Calculate physical coverage

wigファイルフォーマットで出力する。

bamtocov --wig 200 input.bam > coverage.wig

-w Output in WIG format (using fixed <SPAN>), 0 will print in BED format [default: 0]

strandedを指定すると、forwardとreverseそれぞれのカバレッジが計算される。

bamtocov --stranded input.bam > coverage.bed

-s Report coverage separate by strand

5列のBEDライクなファイルが出力される。4列目がforward strand coverage、5列目がreverse strand coverage。

BamToCounts - BAMファイル中のターゲットのリード数をカウント

ターゲット領域のbedを指定する。

BamToCounts target.bed input.bam  > coverage.txt

BamCountsRefs - 複数のBAMファイル（同じ参照配列を持つ）からカウントテーブルを出力

wigファイル出力

bamcountrefs --tag "Chr1" input1.bam input2.bam

covToTarget - ターゲット（BED または GFF3 フォーマットのアノテーションファイル）と covtobed 1.0 の出力を基に、フィーチャーごとのカバレッジレポートを作成

covtobed input/mini.bam | covtotarget input/mini.bed > output/counts.tsv

シミュレートされたbamを生成するコマンドも用意されています。ドキュメントを確認して下さい。

引用

BamToCov: an efficient toolkit for sequence coverage calculations
Giovanni Birolo, Andrea Telatin

bioRxiv, Posted November 17, 2021

2022/02/24

BamToCov, an efficient toolkit for sequence coverage calculations
Giovanni Birolo, Andrea Telatin Author Notes
Bioinformatics, Published: 23 February 2022

2021-12-16

PhotoModPlus

2021 PLoS ONE

　Genome neighborhood networks（GNN）とGenome neighborhood （GN）ベースの機械学習を用いて光合成タンパク質を予測するためのプラットフォームとして、PhotoModPlusと呼ばれる新しいウェブサーバを紹介する。GNNは、複数の光合成原核生物ゲノムから得られた保存されたGN遺伝子の概要を可視化することを可能にし、クエリ入力に対する機能的なガイダンスを提供する。また、このプラットフォームでは、原核生物の光合成関連の24のGO termに基づいて光合成特異的な機能を予測するための、GN特徴を活用した新しい機械学習モデル、すなわちPhotoModGOを発表する。この新しいモデルは，入れ子になった5回のクロスバリデーションに基づくF1指標が0.872となり，配列に基づくアプローチよりも優れた性能を示した．最後に，このウェブサーバと新しいモデルを，新規の光合成タンパク質の同定に応用してた。このサーバーは使いやすく、すべてのデバイスに対応しており、bicep.kmutt.ac.th/photomodで利用できる。

https://bicep.kmutt.ac.th/photomodにアクセスする。

f:id:kazumaxneo:20211018125945p:plain

何度かアクセスしたが、メンテナンス中なのかアクセスできず。

引用

PhotoModPlus: A web server for photosynthetic protein prediction from genome neighborhood features

Apiwat Sangphukieo, Teeraphan Laomettachit, Marasri Ruengjitchatchawalya

PLOS ONE, Published: March 17, 2021

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

bowtie2を使ってアセンブルした配列を評価する

Redを使ったゲノムアセンブリのソフトマスクを行う redmask

翻訳された遺伝子のマッチングを迅速に同定、分類、アノテーションするためのツール GAMMA

COBS index

真核生物ゲノムの自動アノテーションを行うMOSGAのメジャーアップデート

高効率なカバレッジ計算ツール BamToCov

PhotoModPlus