2021-02-23

インタラクティブな出版品質の合成 Figure作成webツール canvasDesigner2

　Scalable Vector Graphics (SVG) は、拡張可能なマークアップ言語 (XML) ベースのベクトル画像フォーマットであり、png, gif, jpg のような他の一般的な画像フォーマットのようにぼやけたピクセル化をすることなく、任意の解像度に拡張可能である。この形式は、計算生物学分野の多くのデータ解析ツール、特にR (R Core Team , 2014) や ggplot2 (Wickham, H, 2016) で採用されている最も広く使用されている画像出力の一つとなっている。さらに、SVGは、通常、D3（Bostock, M. et al. , 2011）やCoral（Metz KS. et al. , 2019）のようなバイオインフォマティクスツールのような多くのJavaScriptベースのプロットライブラリによってデフォルトの画像出力として設定されており、Chrome、Firefox、Safari、MS Edgeのような最新のWebブラウザによって自然にレンダリングできる。
　論文図1に示されているようなマルチパネル高解像度プロットを構成することは、通常、様々なソースから個々のプロットを収集した後、控えめなプログラミングスキルを持つ科学者にとって課題となる。Microsoft Power Point のようなユーザーフレンドリーな商用ツールは、このようなプロットを配置するための実行可能なオプションとなり得るが、これらのツールは、SVG 形式の複雑なパスウェイマップを扱うことができないか、またはこの形式を
のように、低解像度でありながら、ときには不格好になることもある。
Web ベースのインタラクティブな図形設計ツールの試み（Zhang, B., 2018）に引き続き、ゲル画像のスキャニングなどの状況によっては、SVG 形式の取得が困難な場合があるため、canvasDesigner2 の入力形式を SVG のみから拡張した（論文Fig s1）。

help

canvasDesigner Demo Video

helpに用意されている2分程度の短い動画を見れば基本的な使い方はわかるようになっています。

Github

webサービス

https://baohongz.github.io/canvasDesigner2/ にアクセスする。

３つのDemoが用意されている。

f:id:kazumaxneo:20210223165509p:plain

Demo1

f:id:kazumaxneo:20210223165533p:plain

左上のボタンを押すとサイズの調整ができるようになる。

f:id:kazumaxneo:20210223165851p:plain

それぞれの図の右上の青いマークをクリックすると、図全体を移動できる。

f:id:kazumaxneo:20210223170107p:plain

リンクがあるオブジェクトは、クリックしてリンク先にジャンプできる。

f:id:kazumaxneo:20210223170255p:plain

EphA2をクリックするとUniprotにジャンプした。

f:id:kazumaxneo:20210223170330p:plain

図１つの表示範囲を変えるには、コーナーにポインタを移動すると矢印アイコンに形が変化するので、その状態でドラッグする。

f:id:kazumaxneo:20210223170657p:plain

Eの図の表示範囲を大きくして、それから+マークで図を拡大表示した。

Demo2

f:id:kazumaxneo:20210223165549p:plain

Violin plot

f:id:kazumaxneo:20210223165607p:plain

インタラクティブに操作可能。

引用

canvasDesigner2: An enhanced interactive publication-quality composite figure designing tool

Kejie Li, Jessica Hurt, Christopher D. Whelan, Ravi Challa, Dongdong Lin, Baohong Zhang

BioRxiv, Posted March 05, 2020

2021-02-22

ゲノム中のISエレメントを探す ISEScan

2017 Bioinformatics transposon

2021 8/7 コマンド修正

　ISEScanは、ゲノム中のIS(Insertion Sequence)エレメントを同定するためのPythonパイプラインである。完全なISエレメントを報告するか、完全なISエレメントと部分的なISエレメントの両方を報告するかのオプションがある。メテゲノムアセンブリに含まれるISエレメントの同定に使用する場合は、完全なISエレメントと部分的なISエレメントの両方を報告してみるのも良いかもしれない。ISEScanはデフォルトで完全なISエレメントと部分的なISエレメントの両方をレポートする。

　ISEScanはPython3で開発されている。1) ゲノム（またはメタゲノム）をfasta形式でスキャンし、2) ゲノムをプロテオームに予測/翻訳（FragGeneScanを使用）し、3) トランスポザーゼのあらかじめ構築されたpHMM（プロファイル隠れマルコフモデル）をプロテオームと照らし合わせて検索する（ISEScanに同梱されている2つのファイル、cluster.faa.hmmとcluster.single.faa）。 4) 次に、文献やデータベースで報告されている既知のISエレメントに共通する特徴に基づいて、同定されたトランスポザーゼ遺伝子を完全なIS(Insertion Sequence)エレメントに拡張し、5) 最後に、同定されたISエレメントをいくつかの結果ファイル(例えば、ISエレメントのリストを含むファイル、fasta形式のISエレメント配列を含むファイル、GFF3形式のアノテーションファイル)で報告する。

インストール

ubuntu18.04LTS でテストした。

Github

#conda、ここでは高速なmambaを使う (anaconda)
mamba install -c bioconda isescan -y

> isescan.py -h

$ isescan.py -h

usage: isescan [-h] [--version] [--removeShortIS] [--no-FragGeneScan] --seqfile SEQFILE --output OUTPUT [--nthread NTHREAD]

ISEScan is a python pipeline to identify Insertion Sequence elements (both complete and incomplete IS elements) in genom. A typical invocation would be:

python3 isescan.py seqfile proteome hmm

- If you want isescan to report only complete IS elements, you need to set command line option --removeShortIS.

optional arguments:

-h, --help show this help message and exit

--version show program's version number and exit

--removeShortIS Remove incomplete (partial) IS elements which include IS element with length < 400 or single copy IS element without perfect TIR.

--no-FragGeneScan Use the annotated protein sequences in NCBI GenBank file (.gbk which must be in the same folder with genome sequence file), instead of the protein sequences predicted/translated by FragGeneScan. (Experimental feature!)

--seqfile SEQFILE Sequence file in fasta format, '' by default

--output OUTPUT Output directory, 'results' by default

--nthread NTHREAD Number of CPU cores used for FragGeneScan and hmmer, 1 by default.

実行方法

ゲノムのfastaファイルを指定する。

isescan.py --seqfile NC_012624.fna --output results --nthread 8

--nthread number of CPU cores used for FragGeneScan and hmmer. By default one will be used.
--seqfile 　Sequence file in fasta format, '' by default
--output Output directory, 'results' by default

出力

f:id:kazumaxneo:20210222163410p:plain

xxx.fna.sum: 各ISファミリーのISコピーの要約
xxx.fna.raw: ISコピーの詳細、1行に1つのコピー
xxx.fna.gff: 各ISコピーとそのTIRのリスト、gff3フォーマット
xxx.fna.is.fna：各ISコピーのDNA配列、fasta形式
xxx.fna.orf.fna: 各ISコピーに含まれるTpase遺伝子(転移酵素遺伝子)のDNA配列、fasta形式
xxx.fna.orf.faa: 各ISコピーに含まれるTpaseのアミノ酸配列、fasta形式

レポジトリにはxargsを使って複数のゲノムを順番に調べていく例が記載されています。確認してください。

引用

ISEScan: automated identification of insertion sequence elements in prokaryotic genomes
Zhiqun Xie, Haixu Tang
Bioinformatics, Volume 33, Issue 21, 01 November 2017, Pages 3340–3347

2021-02-22

事前計算された植物の遺伝子ファミリーの系統樹 PhyloGenes

2020 Plant Direct plant database web tool evolution tree phylogenetic tree viewer orthologue

著者らは、シロイヌナズナや他のモデル生物から得られた遺伝子機能に関する知識を、他の植物種に正確かつ効率的に伝達できるようにすることを目指している。このような知識移転は、植物の系統における個々の遺伝子やゲノム全体の重複のために、植物においてはしばしば困難なことである。このような重複は、類似した配列を持ちながらも非常に発散性の高い機能を持つ関連遺伝子間の複雑な進化関係をもたらす。このような場合、機能推論には単純な配列類似度計算以上のものが必要となる。著者らは、植物遺伝子ファミリーの系統樹を事前に計算して表示するオンラインリソースPhyloGenes (phylogenes.org)を開発し、ファミリー内の個々の遺伝子の機能情報を実験的に検証した。40種の植物ゲノムと10種の非植物モデル生物を8,000以上の遺伝子ファミリーで表現している。種分化や複製などの進化イベントを遺伝子ツリー上に明示し、オルソログとパラログを区別できるようにしている。約6,000ファミリーには、実験的に検証されたGene Ontology (GO)の分子機能や生物学的プロセスの用語へのアノテーションが少なくとも1つ含まれている。PhyloGenesは、ツリー内の個々の遺伝子に関連する実験的に検証された遺伝子機能を表示することで、実験的に研究された遺伝子との進化的関係に基づいて、未解明の機能を持つ遺伝子の機能推論を、視覚的に追跡可能な方法で可能にしている。異なる機能を果たすように進化した遺伝子を含む多くのファミリーに対して、PhyloGenesは、実験的に特徴づけられていない遺伝子の最も可能性の高い機能を決定するための進化史の使用を容易にする。将来的には、植物遺伝子発現アトラスデータのような追加の遺伝子機能データセットを組み込むことで、このリソースをさらに充実させていく予定である。

PhyloGenes release 3.0 is out - now featuring plant-centric versions PANTHER 16 trees and updated GO experimental and phylogenetic derived annotations. @news4go @phoenix_bio @tair_news
— PhyloGenes (@phylogenes) February 11, 2021

help & Tutorial

https://conf.arabidopsis.org/display/PHGSUP

version3.0に含まれる植物種

f:id:kazumaxneo:20210221224650p:plain

webサービス

http://www.phylogenes.org/にアクセスする。

解説動画が用意されています。

遺伝子名やPANTHERのGene IDをタイプする。ここではチュートリアルで使用されているLOC107914949（Ammonium transporter）を中央のウィンドウ内か右上のウィンドウ内でタイプ。

f:id:kazumaxneo:20210221223257p:plain

結果が表示された。Eukaryotaの47 Organismsの227 genesがヒットしている。左がその遺伝子の系統樹で、右がリストになる。

f:id:kazumaxneo:20210221223416p:plain

検索した遺伝子はハイライト表示されている。

LEGENDにあるように、遺伝子ファミリーは、種分化、遺伝子重複、水平移動の過程でどのように進化してきたかを示す系統樹として表現されている。

f:id:kazumaxneo:20210221224619p:plain

系統樹と右の表は縦関係が固定されており、枝の右にあるリストが、その枝の情報になる。検索に使ったLOC107914949はGossypium hirsutum（綿）の遺伝子で、同じクレードに位置する遺伝子もGossypium hirsutumの遺伝子が中心になる。

f:id:kazumaxneo:20210221224021p:plain

系統樹が画面に収まりき去らない場合、上下左右にスクロールできるが、左右はドラッグで移動し、上下スクロールはマウスホイールで行う。マウスホイールで上下にスクロールした際は、系統樹と表がずれないようにどちらもスクロールされる。

表は横に長いため、４Kやウルトラワイドディスプレイでもないと1画面には収まりきらない。

f:id:kazumaxneo:20210221225648p:plain

他の実験のエビデンスがある遺伝子は試験管のマークがつく。identical protein

f:id:kazumaxneo:20210221225956p:plain

上の歯車マークをクリックすると表に表示する項目をカスタマイズできる。

f:id:kazumaxneo:20210221230038p:plain

系統樹のノードをクリックするとcollapseする。元に戻すにはもう一度クリックする。

f:id:kazumaxneo:20210221224522p:plain

系統樹のマークをクリックすると結果をCSVでダウンロードしたりできる。

f:id:kazumaxneo:20210221230246p:plain

引用

PhyloGenes: An online phylogenetics and functional genomics resource for plant gene function inference
Peifen Zhang Tanya Z. Berardini Dustin Ebert Qian Li Huaiyu Mi Anushya Muruganujan Trilok Prithvi Leonore Reiser Swapnil Sawant Paul D. Thomas Eva Huala
Plant Direct. 2020 Dec; 4(12)

2021-02-21

陸域メタゲノムのキュレーションされたメタデータ公開リポジトリ TerrestrialMetagenomeDB

SRA metadata metagenome database web tool 2020 Nucleic Acids Research

2022/06/25 タイトル変更

微生物群集の遺伝的可能性に着目したマイクロバイオーム研究（メタゲノム研究）は、微生物生態学の分野では標準的なものとなった。MG-RASTとSequence Read Archive (SRA)という2つの主要なメタゲノムリポジトリには、202,858以上の公開メタゲノムがあり、その数は指数関数的に増加している。しかし、データベースのマイニングは、誤ったアノテーション、誤解を招くようなデータ、分散化されたデータのために困難な場合がある。TerrestrialMetagenomeDBの主な目的は、研究者がメタアナリシスで新しいデータセットと比較できるような、興味のある陸域のメタゲノムを簡単に見つけることである。陸上メタゲノムは、海洋環境に属さないメタゲノムと定義した。また、テキストマイニングを用いてデータベースを作成し、バイオマスや物質など、陸域メタゲノムの環境的側面をよりよく文脈化するための潜在的な記述キーワードを付与した。本データベースには、SRAとMG-RASTの15 022件の陸域メタゲノムが収録されている。ダウンロード可能なデータ量は68Tbpになっている。合計で199の陸域用語が14のカテゴリに分類されている。これらのメタゲノムは、83の国、30のバイオマス、7つの主要な情報源にまたがっている。TerrestrialMetagenomeDBは、https://webapp.ufz.de/tmdb で公開されている。

🆕📰
Are you interested in #metagenomes?

My PhD students @Nataala007 and @felipeborim789 released a new version of the TerrestrialMetagenomeDB!

More than 5K new metagenomes since we released the webapp last year!https://t.co/bMmZ6it5Y8 https://t.co/6kOyXzCwr5 #OpenData pic.twitter.com/ase8zrLYyW
— Dr. Ulisses Rocha (he/him) (@ulisses_rocha) February 9, 2021

@felipeborim789 worked more than 2 years to release the v1 from the TerrestrialMetagenomeDB https://t.co/bMmZ6it5Y8. Metadata of over 15 thousand terrestrial metagenomes easy to reach! To lead such a good PhD student in his career path gives meaning to the work I do @UFZ_de! https://t.co/tgaoBspoPM
— Dr. Ulisses Rocha (he/him) (@ulisses_rocha) October 10, 2019

Help

TerrestrialMetagenomeDBのHelpタブ参照

webサービス

https://webapp.ufz.de/tmdb/

f:id:kazumaxneo:20210221115039p:plain

COMPLETE DATASETを選択。TMDBがメタデータを整理している公開データのメタデータと、その公開サイトへのリンクが表示される。

f:id:kazumaxneo:20210221115846p:plain

様々な条件で絞り込むことができる。

Source DatabaseはMG－RASTかSRAを選択。

f:id:kazumaxneo:20210221115947p:plain

TMDB Material

f:id:kazumaxneo:20210221120112p:plain

シークエンシングリード数

f:id:kazumaxneo:20210221120149p:plain

配列数の少ないデータは、RAWデータではなく、アセンブル配列がデポジットされていることが関係している可能性がある。データセットが真のメタゲノムであることをより確実にしたい場合は、ベースペア数や配列数の範囲内でデータセットを選択するフィルターを使用する。例えば配列数が500万以上のデータセットのみを表示する（helpより）。

Sequencing Platform

f:id:kazumaxneo:20210221120223p:plain

TMDB Biome（ENVO term）

f:id:kazumaxneo:20210221120423p:plain

Assembled

f:id:kazumaxneo:20210221120435p:plain

More filtersをクリックするとより詳細なフィルタ設定を追加できる。More filtersをクリック、

f:id:kazumaxneo:20210221121332p:plain

展開された。緯度経度、高さ（または深さ）、気温、pH、シークエンシングリードのパラメータなどが選択できる。

f:id:kazumaxneo:20210221121433p:plain

TMDBが（EnvOからの派生で）定義する様々なAttribute nameでフィルタリングできる。各属性の詳細はHELPタブの”7. What does each attribute of the database mean?”を参照して下さい。

Interactive mapタブ

f:id:kazumaxneo:20210221122548p:plain

インタラクティブマップでは、ユーザーはインタラクティブな方法で興味のある場所を直視することができる。

左側のマップツールバーから描画ツール（多角形または長方形）を選択し、興味のある地域を囲む。

f:id:kazumaxneo:20210221123031p:plain

囲んだ。選択したメタゲノムデータがマップの下に表示される。

f:id:kazumaxneo:20210221123332p:plain

Show filtersボタンでさらに絞り込むことができる。また、選択したメタデータをcsvファイルとしてダウンロードできる。

インタラクティブマップからアクセスできるのは、有効な座標を持つメタゲノムのみであることに注意する。全てのデータは"Complete dataset "タブから確認する。

引用

TerrestrialMetagenomeDB: a public repository of curated and standardized metadata for terrestrial metagenomes
Felipe Borim Corrêa, João Pedro Saraiva, Peter F Stadler, Ulisses Nunes da Rocha
Nucleic Acids Research, Volume 48, Issue D1, 08 January 2020, Pages D626–D632

CCSリードの精度を推定する Yak

Pacbio

Githubより

Yakは当初、2つの特定のユースケースのために開発された。1) CCSリードとアセンブリコンティグの塩基精度をロバストに推定すること、2) CCSリードの系統的なエラー率を調査することである。ショートリードのk-merスペクトラムと配列を比較したり、スペクトラムを比較したりすることで目標を達成する。リファレンスゲノムgrand truthデータは必要ない。

ベース精度の推定がトリッキーであることは注目に値する。精度がQ50に近づくと、ショートリード中のサンプルされていないk-merと誤ったk-merの両方がナイーブな推定器に干渉する可能性がある。Yakはこの問題に対処するために経験的モデルを導入した。その推定値は、カバレッジとショートリードの質の影響をあまり受けない。

インストール

macos10.14でビルドした。

Github

git clone https://github.com/lh3/yak
cd yak && make

#conda、ここでは高速なmambaを使う
mamba install -c bioconda yak -y

> yak

$ yak

Usage: yak <command> <argument>

Command:

count count k-mers

qv evaluate quality values

triobin trio binning

trioeval evaluate phasing accuracy with trio

inspect k-mer hash tables

version print version number

> yak count

$ yak count

Usage: yak count [options] <in.fa> [in.fa]

Options:

-k INT k-mer size [31]

-p INT prefix length [10]

-b INT set Bloom filter size to 2**INT bits; 0 to disable [0]

-H INT use INT hash functions for Bloom filter [4]

-t INT number of worker threads [4]

-o FILE dump the count hash table to FILE []

-K INT chunk size [100m]

Note: -b37 is recommended for human reads

> yak qv

$ yak qv

Usage: yak qv [options] <kmer.hash> <seq.fa>

Options:

-l NUM min sequence length [0]

-f FLOAT min k-mer fraction [0.5]

-e FLOAT false positive rate [4e-05]

-p print QV for each sequence

-t INT number of threads [4]

-K NUM batch size [1g]

> yak triobin -h

$ yak triobin -h

Usage: yak triobin [options] <pat.yak> <mat.yak> <seq.fa>

Options:

-c INT min occurrence [2]

-d INT mid occurrence [5]

-t INT number of threads [8]

> yak trioeval -h

$ yak trioeval -h

Usage: yak trioeval [options] <pat.yak> <mat.yak> <seq.fa>

Options:

-c INT min occurrence [2]

-d INT mid occurrence [5]

-n INT min streak [2]

-t INT number of threads [8]

-e print error positions (out of order)

> yak inspect -h

$ yak inspect -h

Usage: yak inspect [options] <in1.yak> [in2.yak]

Options:

-m INT max count (effective with in2.yak) [20]

Notes: when in2.yak is present, inspect evaluates the k-mer QV of in1.yak and

the k-mer sensitivity of in2.yak.

> yak version

$ yak version

0.1-r58-dirty

実行方法

１、k-merハッシュテーブルの構築

#assembly
yak count -K 1.5g -t 16 -o assembly.yak assembly.fa.gz

#single fastq（githubではCCS readsを例にしている,シングルトンk-merは除外)
yak count -b 37 -t 16 -o reads.yak reads.fq.gz

#paired-end fastq （シングルトンk-merは除外）
yak count -b37 -t32 -o sr.yak <(zcat sr*.fq.gz) <(zcat sr*.fq.gz)

-K chunk size [100m]
-k k-mer size [31]
-t number of worker threads [4]
-b set Bloom filter size to 2**INT bits; 0 to disable [0]
-o dump the count hash table to FILE []

2、精度推定

yak qv -t32 -p -K3.2g -l100k sr.yak asm.fa.gz > asm-sr.qv.txt

３、k-merヒストグラムやk-merの保存

#k-mer histgram
yak inspect sr.yak > sr.hist

#k-mer配列プリント
yak inspect -p sr.yak > sr.kmers

引用

https://github.com/lh3/yak

MetaRon

2021 BMC Genomics bacteria operon metagenome

　細菌の遺伝子は環境刺激に反応して効率的に制御され、オペロンとして知られるユニークな遺伝子クラスターを形成している。このように、オペロンの参照情報や機能情報が不足しているため、オペロンの予測は困難である。
　本研究では、MetaRon(Metagenome and whole-genome opeRon prediction pipeline)を用いて、全ゲノムおよびメタゲノムのオペロンを同定した。この論文では、実験情報や機能情報がなくてもオペロンを同定することができる。メタゲノム上でのオペロンの同定には、実験情報や機能情報を必要としなかった。大腸菌MG1655、結核菌H37Rv、枯草菌16条）、鶏腸から抽出した大腸菌c20ドラフトゲノム、ヒト腸から抽出した145個の全ゲノムデータのmixtureを模擬した全ゲノムデータへの適用から始まり、最終的には145個の全メタゲノムデータサンプルへの適用が行われた。大腸菌全ゲノム（97.8％、94.1％、92.4％）、模擬ゲノム（93.7％、75.5％、88.1％）、大腸菌c20（87％、91％、88％）において、MetaRonは一貫して高いオペロン予測感度、特異性、精度を達成した。最後に、145のペアエンドヒト腸内メタゲノムサンプルから1,232,407のユニークなオペロンを同定した。また、2型糖尿病とマルトースホスホリラーゼ（K00691）、3-デオキシ-D-グリセロ-D-ガラクト-ノナン酸9-リン酸合成酵素（K21279）、および未同定タンパク質（K07101）との強い関連性も報告した。
　MetaRonを使用することで、既存の全ゲノムオペロン予測手法の顕著な2つの制限を取り除くことができた。また、その際には、そのデータを利用して、そのデータを用いて、そのデータを解析することも可能である。また、全ゲノムデータにおける二次代謝産物の傾向や病態発生における二次代謝産物の役割を表現するために、オペロンをサブセットとして利用することも実証している。メタゲノムのオペロンデータを用いて二次代謝の傾向を調べることで、データ量を大幅に削減し、より精度の高いデータを得ることができる。さらに、2型糖尿病（T2D）の発生に関連する代謝経路の同定は、ヒト腸内メタゲノム解析の別の次元を提示している。おそらく、この研究は、メタゲノムオペロンを予測し、疾患（この場合は2型糖尿病）に関連して詳細な解析を行うための最初の組織化された取り組みである。メタゲノムデータへのMetaRonの応用は、遺伝子制御や治療用メタゲノムの理解に有益なものとなるだろう。

インストール

ubuntu18.04LTSでmambaを使って依存ツールを導入後、”python setup.py install”を打って導入した。

依存

MetaRon requires:

* Python (2.7 )
* IDBA (iterative De Bruijn Graph De Novo Assembler) [conda install -c bioconda idba]
* Prodigal [conda install -c bioconda prodigal]
* BDGP: Neural Network Promoter Prediction 2.2
* antiSMASH: antibiotics & Secondary Metabolite Analysis Shell (Optional: required for downstream analysis only.)
* BOWTIE (Optional: only required for downstream analysis)

Github

mamba create -n metaron -y python=2.7
conda activate metaron
mamba install -c bioconda idba -y
mamba install -c bioconda/label/cf201901 antismash -y
mamba install -c bioconda bowtie -y
mamba install pathlib -y

#from github
git clone https://github.com/zaidissa/MetaRon.git
cd metaron-1.0
python setup.py install

#pypi (link)
pip install metaron

> metaron --help
usage: metaron [-h] [-n SAMPLE] [-p PROCESS] [-rt READ_TYPE] [-rl READ_LENGTH]
[-pe1 PAIRED_1] [-pe2 PAIRED_2] [-pm PAIRED_MERGED] [-i IGP]
[-j ISC] [-t TOOL] [-o OUTPUT]

optional arguments:
-h, --help show this help message and exit
-n SAMPLE, --sample SAMPLE
Sample name without any dot, underscore or dash
-p PROCESS, --process PROCESS
1. ago: assembly gene prediction and operon prediciton
2. op: operon prediction only. If 'ago', please
provide the following parameters:
-n,-rl,-rt,[-pe1,pe2|-pm],
-rt READ_TYPE, --read_type READ_TYPE
Enter read type. 'merge' if the reads are paired-end
in two file. 'paired' if the reads are paired-end in
one file.
-rl READ_LENGTH, --read_length READ_LENGTH
Enter 'l'if read length is longer than 128 bases and
'r' if read length is shorter than 128 bases
-pe1 PAIRED_1, --paired_1 PAIRED_1
Enter enter paired read file 1
-pe2 PAIRED_2, --paired_2 PAIRED_2
Enter enter paired read file 2
-pm PAIRED_MERGED, --paired_merged PAIRED_MERGED
Enter the paired end read file if both pairedend reads
are in one file
-i IGP, --igp IGP Select the gene prediction .tab file generated via
MetageneMark or Prodigal
-j ISC, --isc ISC Select the file containing all scaftigs
-t TOOL, --tool TOOL Enter 1 for MetaGeneMark, 2 for Prodigal
-o OUTPUT, --output OUTPUT
Enter output destination folder

データベース

cd metaron-1.0
tar -xvf NNPP2.2.tar
#configファイルに解凍したNNPP2.2のパスを記載する
vi config.txt

テストラン

fasterq-dump ERR022075 -e 8 -p
mkdir outdir
metaron --sample ERR022075 --process ago --read_type merge--read_length r --paired_1 ERR022075.1.fastq --paired_2 ERR022075.2.fastq --output

-n SAMPLE, --sample SAMPLE Sample name without any dot, underscore or dash
-p PROCESS, --process PROCESS
ago: assembly gene prediction and operon prediciton
op: operon prediction only. If 'ago', please provide the following parameters:
-n,-rl,-rt,[-pe1,pe2|-pm],
-rt READ_TYPE, --read_type READ_TYPE Enter read type. 'merge' if the reads are paired-end in two file. 'paired' if the reads are paired-end in one file.

ERR022075をダウンロードして使用したが、IDBAのランでエラーになる。解決したら追記します。

引用

Prediction and analysis of metagenomic operons via MetaRon: a pipeline for prediction of Metagenome and whole-genome opeRons

Syed Shujaat Ali Zaidi, Masood Ur Rehman Kayani, Xuegong Zhang, Younan Ouyang & Imran Haider Shamsi
BMC Genomics volume 22, Article number: 60 (2021)

2021-02-18

効率的なゲノムファイル（FASTQ、SAM/BAM/CRAM、VCF、GVF、FASTA、PHYLIP、23andMe）の圧縮器 Genozip

2021 Bioinformatics Compression / decompression Dual coordinate VCF VCF

2021 7/20 DocumentaitonのURL修正

2021 10/9 コマンド追記

2021 11/9 追記

　ゲノムデータのための汎用的で機能が充実した圧縮ソフトウェアであるGenozipを紹介する。Genozipは、汎用性（一般的なゲノムファイル形式をすべてサポート）、高圧縮率、高速性、機能性、拡張性の5つのコア機能を提供することで、ゲノム圧縮のための汎用ソフトウェアおよび開発フレームワークとして設計されている。

　Genozipは、FASTQ、SAM/BAM/CRAM、VCF、GVF、FASTA、PHYLIP、23andMeフォーマットなど、ゲノム研究で広く使われているゲノムデータフォーマットに対応した高性能圧縮を提供する。テスト結果は、Genozipが高速で、ファイルがすでに圧縮されている場合でも、大幅に改善された圧縮率を達成していることを示している。

　さらに、Genozipは、ファイルフォーマットに特化したセグメンタやデータタイプに特化したコーデックからGenozipフレームワークを分離して設計されている。これにより、Genozipは、研究者が将来的に追加のファイルフォーマットや、ファイル内のデータタイプやフィールドのための新しいコーデックのための圧縮を実装できる汎用圧縮プラットフォームになることを目指している。これにより、最終的には、ユーザーコミュニティによるこれらのアルゴリズムの認知度と採用率が向上し、この分野でのさらなる技術革新が加速することを期待している。

　GenozipはC言語で書かれている。コードはオープンソースで、GitHub (https://github.com/divonlan/genozip)で公開されている。このパッケージは非商用利用の場合は無料である。DockerHub上のDockerコンテナとして、またcondaパッケージマネージャを通じて配布されている。GenozipはLinux、Mac、Windowsでテストされている。

Documentaiton

https://genozip.readthedocs.io

Genozipはゲノムファイル用の圧縮機でFASTQ、SAM/BAM/CRAM、VCF/BCF、FASTA、GVF、Phylip、23andMeファイルを圧縮するように最適化されているが、ゲノムファイルだけでなく、あらゆるファイルを圧縮できる。すでに .gz .bz2 .xz で圧縮されている場合も圧縮できる。
圧縮率は圧縮されるデータに依存する。通常、.bam を圧縮する場合は 1.5～3 倍、.fastq.gz ファイル (つまり既に圧縮されているファイルを圧縮する場合) では 2～5 倍、GT データのみを含む非圧縮の高サンプルカウント .vcf ファイルを圧縮する場合は最大 200 倍の圧縮率が期待できる。
圧縮はロスレスで、解凍されたファイルは元のファイルと100%同じ。厳密なロスレス化の例外は --optimize オプションを使用した場合。
元のファイルが BGZF で圧縮されていた場合、genounzip は解凍時に BGZF でファイルを再圧縮する(--plain が指定されていない時)。しかし、使用されているライブラリが異なるために、全く同じ BGZF 圧縮はできないことがある。

f:id:kazumaxneo:20210218233123p:plain

マニュアルより

2021 7/3

Genozip v12のリリース。圧縮・解析機能の段階的な向上（RELEASE NOTES参照）に加えて、2つの大きな機能が追加された。１つ目はDual coordinate VCFのサポート。Dual coordinate VCF（link）は、例えばGRCh37とGRCh38のように、2つの座標系の座標を同時に含むVCFファイル。２つ目は、 kraken2を使ったBAMファイルのspeciesフィルタリング機能。バクテリアのリードを直接特定することで、ヒトゲノムデータからバクテリアの汚染をフィルタリングすることができる（詳細）。この機能はBAMファイル（FASTQだけではない）で動作するので、解析のどの時点でも使用することができる。

11/9

new benchmarks of Genozip

https://genozip.readthedocs.io/benchmarks.html

インストール

ソースからのビルド推奨。（12.08はsegmentation errrorを起こしたので12.07をソースからビルド）

#Form github
git clone https://github.com/divonlan/genozip
make
requires: gcc or clang, make

#conda、ここでは高速なmambaを使う
mamba install -c conda-forge genozip -y

> genozip

$ genozip

Compress genomics files. Genozip can compress any file, but is optimally designed to compress the following file types:

VCF/BCF, SAM/BAM/CRAM, FASTQ, FASTA, GVF and 23andMe

Usage: genozip [options]... [files or urls]...

One or more file names or URLs may be given, or if omitted, standard input is used instead

Supported input file types, as recognized by their listed filename extension(s):

FASTA: fasta, fa, faa, ffn, fnn, fna (possibly .gz .bgz .bz2 .xz)

FASTQ: fastq, fq (possibly .gz .bgz .bz2 .xz)

SAM: sam (possibly .gz .bgz .bz2 .xz)

BAM: bam

CRAM: cram

VCF: vcf (possibly .gz .bgz .bz2 .xz)

BCF: bcf (possibly .gz .bgz)

GVF: gvf (possibly .gz .bgz .bz2 .xz)

23andMe: genome*Full*.txt (possibly zip)

Generic: any other file (possibly .gz .bgz .bz2 .xz)

Note: for comressing .bcf, .cram or .xz files requires bcftools, samtools or xz, respectively, to be installed, as does using --index

Examples: genozip sample.bam

genozip sample.R1.fq.gz sample.R2.fq.gz --pair --reference hg19.ref.genozip -o sample.genozip genozip --optimize -password 12345 ftp://ftp.ncbi.nlm.nih.gov/file2.vcf.gz

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

インタラクティブな出版品質の合成 Figure作成webツール canvasDesigner2

ゲノム中のISエレメントを探す ISEScan

事前計算された植物の遺伝子ファミリーの系統樹 PhyloGenes

陸域メタゲノムのキュレーションされたメタデータ公開リポジトリ TerrestrialMetagenomeDB

CCSリードの精度を推定する Yak

MetaRon

効率的なゲノムファイル（FASTQ、SAM/BAM/CRAM、VCF、GVF、FASTA、PHYLIP、23andMe）の圧縮器 Genozip