macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

遺伝子名の識別を支援するウェブアプリケーション GeneToList

 

 オミックス技術を臨床医学やトランスレーショナル・メディシンに取り入れる動きが加速する中、これらの手法によって生成される大規模かつ複雑なデータセットを利用するエンドユーザーには課題がある。ゲノミクスにおける特別な課題は、遺伝子の命名法が大規模なゲノムデータベースや一般的に使用されている遺伝子解析ツール間で統一されていないことである。さらに、ピアレビューされた原稿を含む科学的なコミュニケーションにおいて、古い遺伝子命名法がまだ見受けられることがある。そこで、バイオインフォマティクスに精通していない研究者にも使いやすいインターフェイスを実現するために、遺伝子ID変換と別名照合を支援するウェブアプリケーションGeneToListを開発した。GeneToList は https://www.genetolist.com/ で公開されている。このツールはウェブアプリケーションで、多くの標準的なブラウザと互換性がある。

 生物医学研究におけるオミックス技術の普及は、データサイエンスの一分野であるバイオインフォマティクスの誕生につながった。これらの技術は研究にとって不可欠なものとなりつつあるが、これらの進歩の恩恵を受ける立場にあるすべての人が、プログラミング言語を習得し、バイオインフォマティシャンになる準備ができているわけではないことを認識することが重要である。また、次世代シーケンサーを用いたRNA配列解析のような手法で得られる無数の情報により、遺伝子やタンパク質の命名法を常に更新することが求められる。これらの手法によって生成された複雑なデータセットを扱い、利用可能な多くの遺伝子解析ツールを活用しようとすると、ある出力の形式と別の入力の必要性を一致させることが困難になる。さらに、時代遅れのゲノム命名法が査読付き論文の中に残っている。遺伝子識別子の変換を可能にするために多大な努力がなされているが、これらは通常、プログラミング言語(biomaRt, MyGene - https://mygene.info/, and org.Hs.eg.db)の高度な知識が必要である。その他、遺伝子IDの変換のためのユーザインタフェースを提供するウェブアプリケーションがいくつかある。しかし、この目的のための専用アプリケーション(DAVID - https://david.ncifcrf.gov/home.jsp)ではなく、より複雑で強力なツールの初期段階として意図されているものもある[ref.3]。また、専用アプリケーションでありながら、入力IDの種類や希望する出力など、特定のユーザー入力に依存しているものもあり、不慣れな科学者にとっては障壁となりうる(g:Convert - https://biit.cs.ut.ee/gprofiler/ and bioDBnet - https://biodbnet-abcc.ncifcrf.gov/db/db2db.php)。重要なことは、著者らは、特に廃止されたIDがあいまいな場合のエイリアスのマッチングを支援するツールを知らないことである。そこで、遺伝子IDの変換を支援し、大規模な遺伝子リストに適した高スループットで廃止された遺伝子IDを曖昧さなくするグラフィカルユーザインタフェースを持つウェブアプリケーションを作成することを目指した。

 

webサービス

https://www.genetolist.com/にアクセスする。

 

生物を選ぶ。ヒトやマウス・ラット以外に、34000以上の生物に対応している。

遺伝子情報は、NCBIのGene resourceから収集されており、古細菌、真菌、無脊椎動物、哺乳類および非哺乳類の脊椎動物、植物、原生動物、ウイルスなど、NCBIによって遺伝子情報が保存されているあらゆる分類群をサポートしている(論文より)。

 

遺伝子名をタイプする。サポートする遺伝子 ID データベースは、NCBI Gene Symbols、NCBI Gene ID (Entrez ID)、OMIM ID、HGNC ID、Ensembl ID、その他分類群固有の ID を含んでいる。複数入力する時はカンマまたは空白で区切る。ここでは論文と同じIL-8を検索する。IL-8はエイリアスの1つで、HGNCを確認するとHGNC公式遺伝子シンボルはCXCL8となっている。

Add To listをクリック。

完全に一致したものはFinal Listに直接追加される。さらに、大文字小文字の変更、ハイフネーション、ギリシャ文字の削除など、わずかな変更のみでマッチした場合は、「自動承認済み候補」としてマークされ、Final Listに追加される。より曖昧なtermは、遺伝子の同義語と比較され、一致する可能性があるものはFinal Listにマークされ、ユーザーの判断を待つ。

 

 

出力例

曖昧なtermは候補が表示されるので、アノテーションを見てどれが正しいか選ぶ。

 

結果はFinal Listに表示される。

CSVファイルとしてダウンロードできる。Excelで開いた。

 

validな遺伝子名がアサインされると、それを使って外部サービスで遺伝子セットエンリッチメント解析を行ったり、タンパク質相互作用(PPI)の解析を行う事ができる。

 

外部サービスに供する場合、左下のメニューのCopyボタンをクリックして、FinalListの遺伝子名をコピーすると便利。

 

引用

GeneToList: A web application to assist with gene identifiers for the non-bioinformatics-savvy scientist
Joshua D. Breidenbach, E. Francis Begue III, David J. Kennedy, Steven T. Haller

bioRxiv, Posted June 12, 2022

 

関連


参考

HGNCを使ってヒト遺伝子の正式略称(GeneSymbol)を検索する(+ヒトとマウスの遺伝子IDを変換する(統合TV)

doi.org/10.7875/togotv.2019.096

 

全ゲノムアライメントからバリアントを報告する WGAVarHunter

 

WGAVarHunterは全ゲノムアライメントから高速にバリアントコールを行うRustで書かれたプログラム。結果はSNV、smalll and large indels、duplications、inversions、translocationに分けてVCF形式で報告される。

現在はバイナリのみ公開されています。試してみます。

 

Githubより

このプログラム;Welcome to Whole Genome Alignment-based Variation Hunter(WGAVarHunter)はRustで書かれており、samtools, sequence aligner minimap2, winnowmap, unimap, wfmashのいずれかが必要です。WGAVHunterを使用する前に、必要なツールをインストールする必要があります。

 

 

インストール

ubuntu18でテストした。samtoolsに加えて、 minimap2, winnowmap, unimap, wfmashのいずれかのアライナーのPATHが通っている必要がある。アライナーのデフォルトはminimap2だが、現在はベータバージョンであり、今後変更される可能性もある。

Github

git clone https://github.com/yuxuanyuan/WGAVarHunter
cd WGAVarHunter/linux/
chmod +x WGAVHunter

> ./WGAVHunter -h

----------------------------------------------------------------------------------------------------

Program: WGAVHunter

Version: 0.1.0

Author:  Andy Yuan (yuxuan.yuan@outlook.com)

----------------------------------------------------------------------------------------------------

Synopsis: Discover genomic variants based on whole genome alignment through an efficient way

 

USAGE:

    WGAVHunter [OPTIONS] -r <REFERENCE> -q <QUERY>... -o <OUTDIR>

 

OPTIONS:

    -r <REFERENCE>                 A reference fasta file

    -q <QUERY>...                  Query fasta file(s). Can be single or multiple

    -n <N_PLOIDY>                  Ploidy level of the species [default: 2]

    -w <WINDOW_SIZE>...            Window size(s) used to split the query fasta (kb). Can be single

                                   or multiple values [default: 500]

    -P <PERCENTAGE>                Percentage (%) of adjacent windows overlapped [default: 10]

    -a <ALIGNER>                   Aligner (minimap2|winnowmap|unimap|wfmash) [default: minimap2]

    -A <ALIGNER_SETTINGS>          Aligner parameter settings in "" [default: "-x asm20"]

    -u <USE_SPLIT>                 Use 'split-prefix' for (minimap2|winnowmap). Could be pretty slow

                                   and storage demanding if the genome size is big [default: false]

    -c <CHUNK_SIZE>                Chunk size (kb) used to parse each chromosome [default: 1000]

    -R <REMOVE_UNQUALIFIED>        Remove query seq with less than n (bp) aligned [default: 1000]

    -m <MAP_QUALITY>               Mapping quality used for variant calling [default: 30]

    -s <CALL_SNVS>                 Call single nucleotide variants (SNVs) [default: true]

    -I <CALL_SMALL_INDELS>         Call small indels [default: true]

    -S <CALL_SVS>                  Call structural variants (SVs) [default: true]

    -N <NOVEL_REGIONS>             Report novel genomic regions in the input fastas [default: true]

    -M <MAX_INDEL_SIZE>            Maximum small indel size (bp) called [default: 49]

    -d <DEFAULT_SV_SIZE>           Minimum SV size (bp) called [default: 50]

    -D <DIST_DUP>                  Maximum allowed distance (bp) between aligned query coordinates

                                   for duplication calling [default: 1000]

    -T <TRANS_SIZE>                Minimum translocation size (kb) called [default: 10]

    -t <THREADS>                   Number of threads [default: 4]

    -p <PREFIX>                    Prefix of the output files [default: WGAVHunter]

    -o <OUTDIR>                    Output directory

    -i <INTER_DIR>                 Intermediate folder [default: $OUTDIR/tmp]

    -k <KEEP_INTER>                Keep intermediate folder and content [default: false]

    -e <ENABLE_DEBUG>              Enable debug mode [default: false]

    -h, --help                     Print help information

    -V, --version                  Print version information

 

 

実行方法

fasta形式のリファレンス配列と比較するターゲット配列を指定する。

WGAVHunter -r ref.fa -q qry.fa -o .
  • -r     A reference fasta file
  • -q    Query fasta file(s). Can be single or multiple
  • -a    Aligner (minimap2|winnowmap|unimap|wfmash) [default: minimap2]
  • -t     Number of threads [default: 4]
  • -p    Prefix of the output files [default: WGAVHunter]
  • -o    Output directory

 

出力例

 

使用する場合はQ&Aも確認しておいて下さい。

引用

GitHub - yuxuanyuan/WGAVarHunter: Fast and accurate genetic variation identification through whole genome alignment

 

関連


 

ショートリードメタゲノミクスデータから薬剤耐性を分類する AMR-meta

 

 抗菌剤耐性(AMR)は世界的な健康問題である。微生物サンプルのハイスループットなメタゲノムシークエンシングにより、精選されたAMRデータベースとの比較によるAMR遺伝子のプロファイリングが可能になる。しかし、データベースの不完全性や、シークエンシングされたサンプル中の他の非AMR遺伝子との相同性/同形形質の存在により、現在の手法の性能はしばしば妨げられる。
 AMR-metaは、データベースもアライメントも不要で、k-mersに基づく、代数的行列分解と正則化回帰を組み合わせたメタフィーチャの手法である。メタフィーチャーは、主な抗生物質クラスにわたるマルチレベルの遺伝子多様性を捉える。AMR-metaは、メタゲノムショットガンシーケンスから得られたリードを取り込み、それらのリードが特定の抗生物質クラスに対する耐性に寄与しているかどうかを予測し出力する。さらに、AMR-metaは、AMR遺伝子データベースと非AMR遺伝子(ネガティブな例として使用)を結合する拡張学習ストラテジーを使用している。AMR-metaをAMRPlusPlus、DeepARG、Meta-MARCと比較し、さらにvoting systemによりアンサンブルをテストした。クロスバリデーションでは、AMR-metaのfスコアの中央値は0.7(四分位範囲、0.2-0.9)であった。半合成メタゲノム・データ(外部テスト)において、AMR-metaは既存の手法と比較して平均1.3倍のヒット率向上を実現した。実行時間では、AMR-metaはDeepARGの3倍、Meta-MARCの30倍、AMRPlusPlusと同程度の速さである。最後に、AMRオントロジーの違いや、すべてのツールで分類結果にばらつきが見られることから、ベンチマークデータやプロトコルの標準化について、さらなる開発が必要であることを指摘する。AMR-metaは、非AMRネガティブセットを利用して感度と特異性を向上させる、高速かつ高精度な分類器である。AMRオントロジーの違いや分類結果のばらつきが大きいことから、AMR予測ツールを公平に比較するための標準的なベンチマークデータとプロトコルの導入が必要である。

 

インストール

ubuntu18でテストした。

依存

  • AMR-meta is developed in Linux, ad utilizes Bash, C++, and R
  • AMR-meta uses the following R packages: Matrix, stringr, glmnet. 

Github

git clone https://github.com/smarini/AMR-meta.git
cd AMR-meta/
make -j8

# Singularity
download link

> ./AMR-meta.sh: illegal option -- h

********************************************

 

Usage: ./AMR-meta.sh 

 

./AMR-meta.sh -a FASTQ_R1 -b FASTQ_R2 -o OUT_DIR -p NCORES

 

        -a    short read R1 file [fastq]

        -b    short read R2 file [fastq]

        -o    output directory, defaults to output

        -p    # of cores for parallel computing, defaults to 1

 

Singularity:

singularity run amrmeta.sif -a FASTQ_R1 -b FASTQ_R2 -o OUT_DIR -p NCORES

 

********************************************

 

        examples of use:

        ./AMR-meta.sh -a data/example/example_R1.fastq \

                -b data/example/example_R2.fastq \

                -o output \

                -p 4

                

        singularity run amrmeta.sif -a data/example/example_R1.fastq \

                -b data/example/example_R2.fastq \

                -o output \

                -p 4

                

********************************************

 

 

 

テストラン

fastqを指定する。fastqは非圧縮の状態で提供する必要がある。

cd AMR-meta/
./AMR-meta.sh -a data/example/example_R1.fastq -b data/example/example_R2.fastq -o output -p 4

#singularity
singularity run amrmeta.sif -a data/example/example_R1.fastq \
-b data/example/example_R2.fastq -o output -p 4
  • -a    short read R1 file [fastq]
  • -b    short read R2 file [fastq]
  • -o    output directory, defaults to output
  • -p    # of cores for parallel computing, defaults to 1

出力

output/

全てのペアエンドショートリードについて、各モデルが抵抗性であるとラベル付けされる確率がプリントされる(ペアエンドリード数が多いと結果が肥大するので注意)。

AMRのクラスは13種類に分類されている。

  • Aminoglycosides
  • Betalactams
  • Drug and biocide resistance
  • Fluoroquinolones
  • Glycopeptides
  • Lipopeptides
  • MLS
  • Multi-biocide resistance
  • Multi-drug resistance
  • Multi-metal resistance
  • Phenicol
  • Sulfonamides
  • Tetracyclines

 

引用

AMR-meta: a k-mer and metafeature approach to classify antimicrobial resistance from high-throughput short-read metagenomics data 
Simone Marini, Marco Oliva, Ilya B Slizovskiy, Rishabh A Das, Noelle Robertson Noyes, Tamer Kahveci, Christina Boucher, Mattia Prosperi
GigaScience, Volume 11, 2022

 

関連


 

 



 

大規模な系統樹を探索するためのウェブベースのツール Taxonium

2022/06/11 誤字修正

 

 COVID-19の大流行により、シークエンスデータの規模が一変し、SARS-CoV-2のゲノムは地球上のどの生物よりも多く配列決定された。これまでの系統樹探索のためのウェブベースのツールは、この規模の樹に直接スケールアップすることができなかった。本著者らは、WebGLを使用して、数千万ノードの系統樹を探索できる新しいツール、Taxoniumを開発した。Taxoniumは、突然変異を注釈した系統樹を可視化し、各内部ノードの遺伝子型を表示し、各ノードを関連するメタデータにリンクすることができる。オプションのサーバーサイドバックエンドにより、広く利用されているデータセットを迅速にロードすることができる。また、クライアントのみのモードでは、ニッチなデータや機密性の高いデータを探索することができる。Taxoniumはオープンソースのツールであり、どんな大きなツリーにも適用することができる。500万以上のSARS-CoV-2配列の公開系統樹を探索するためのアプリケーションを http://cov2tree.org で、より広範なTaxoniumツールを http://taxonium.org で、ソースコードhttps://github.com/theosanderson/taxonium で提供している。

 

(マニュアルより)特にTaxoniumは、変異が注釈された系統樹に適用すると、特に威力を発揮する(ツイート)。このような系統樹では、突然変異を検索したり、遺伝子型を表示したりすることができます。このような系統樹は、しばしば UShER で生成されます。このような系統樹作成方法については、UShERのドキュメントを参照してください(UShERは、既存の系統樹にサンプルを迅速かつ正確に配置するためのプログラム)。

既存のSARS-CoV-2系統樹に注釈を付けたい場合もあると考えられる。UShERチームによってあらかじめ構築されたMATもダウンロードでき、taxonium_to_usherを使って自分のメタデータを追加することができる。

 

documentation

https://docs.taxonium.org/en/latest/

TaxoniumTools

https://docs.taxonium.org/en/latest/taxoniumtools.html

GIthub

 

 

Taxonium

http://taxonium.orgにアクセスする。

 Newick 系統のファイルをアップロードする。

 

また、任意でメタデータファイルをアップロードできる。その場合、左端の列はツリーと同じようにノードの名前を含んでいる必要がある。見出しと列名も必要。TSVかCSV形式を認識する。

 

立ち上がった。icytreeのexampleファイル;ARG.newickを使用している。

 

右下のボタンから縦に拡大・縮小、移動ができる。

 

横長にした。

 

マウスホイールで縦長にした(縦方向のみの拡大・縮小に対応)。

ドラッグすることで自由に移動できる。

 

右のフィルターメニューから高度な検索をすることができる。

 

Cov2Tree.org 公開インスタンスで高度な検索を試してみる。Cov2Tree.orgは、世界中の研究者が INSDC データベースに提供した公開データを使用して、 UCSC の研究者が構築したツリー。

 

色の指定はデフォルトではPANGOLIN lineage(PANGOLINソフトウェアによる系統分類;PANGO系統)となっている。国などに変更可能。

 

その下のSearchでは、いくつかの情報で検索可能。ここではMutationを選択。

 

置換後のアミノ酸を指定すると自動で検索が始まる。ヒットしたノードは赤丸で表示される。

 

 

Taxonium: a web-based tool for exploring large phylogenetic trees
Theo Sanderson

bioRxiv, osted June 03, 2022.

 

関連


(スモールゲノム)汚染されたシークエンシングデータをフィルタリングしながらアセンブリする半自動化されたパイプライン WGA-LP

 

 DNAシーケンシングの技術進歩に伴い、バクテリアゲノムのショートリードによる全ゲノムアセンブリ(WGA)は、ごく一般的な作業となっている。ゲノムのアセンブリプロセスには絶対的な黄金律がなく、多くの異なるツールを組み合わせて一連のステップを実行する必要がある。しかし、最終的なアセンブリの品質は、常に入力データの品質と強く関連している。このことを念頭に置いて、本著者らはWGA-LPを開発した。このパッケージは、微生物解析のための最先端のプログラムと、サンプルとアセンブリ結果の両方の品質をチェックし改善するための新しいスクリプトを接続するものである。WGA-LPは、保守的な汚染除去アプローチにより、汚染されたリードの場合でも高品質なアセンブリを作成できることが示されている。WGA-LPはGitHub (https://github.com/redsnic/WGA-LP) とDocker Hub (https://hub.docker.com/r/redsnic/wgalp)で公開されている。ノード可視化のためのウェブアプリはshinyapps.io (https://redsnic.shinyapps.io/ContigCoverageVisualizer/)でホストされている。

 

除染手順は、3つのプログラムの呼び出しを含むカスタムスクリプトに基づいており、BWA mem (Li (2013)), Samtools, (Li et al. (2009)), Bazam (Sadedin and Oshlack (2019))の3つのプログラムの呼び出しを含むカスタムスクリプトをベースにしている。生リードと、標的生物用と汚染物質用の2セットのリファレンスを入力とする。この手順は、論文図1および補足資料に詳しく示されている。この除染方法は保守的であり、標的生物のリードが廃棄される確率を減らすことができる。このパイプラインはスタンドアローンでも、他のホールゲノムアセンブリプログラムと組み合わせても使用することができる。WGA-LPは、一般的なラップトップパソコンでも実行可能になっている。

 

Guide (supplementary materials)

https://www.biorxiv.org/content/biorxiv/early/2021/08/03/2021.07.31.454518/DC1/embed/media-1.pdf?download=true

Evaluate Node Coverage in bacterial WGA

https://redsnic.shinyapps.io/ContigCoverageVisualizer/

 

ガイドで丁寧に説明されています。ここでは流れだけ確認しておきます。

インストール

ubuntu18で配布されているdockerイメージをpullしてテストした。

依存

  • bamtools: manage .bam files
  • bazam: convert .bam files back to .fastq
  • bracken: postprocess kraken2 reports to find contamination
  • BWA: align .fastq files to a reference genome
  • FastQC: evaluate .fastq quality
  • kraken2: evaluate possible contaminations of the sequenced sample (minikraken db is required)
  • mauve: program for multiple alignment, used to reorder contigs
  • minia: a simple assembler for bacterial genomes
  • prokka: annotate assembled genomes from bacteria
  • samtools and plot-bamstats: manage .sam and .bam files, create reports
  • SPAdes: a more complex assembler for bacterial genomes
  • TrimmomaticPE: tool to clean .fastq reads
  • checkM, merqury and quast: tools to evaluate WGA quality

Github

#docker (hub)
docker pull redsnic/wgalp:latest

 

実行方法

チュートリアルではこちらのショートリードシークエンシングデータが使用されている。MiseqのペアエンドシークエンシングデータでPediococcus Acidilacticiの全ゲノムショットガンシークエンシングデータとなっている。予めデータをダウンロードしておく(grabseqs紹介)。

grabseqs sra -t 8 -m metadata.csv -o fastq_dir SRR15265000

 

WGA-LPのdocker imageをランする。

docker run --rm -itv $PWD:/root/shared --privileged --name wgalp redsnic/wgalp

立ち上がった。

1、品質トリミングと汚染チェック。fastqc、Trimmomatic、PEkraken2とbrackenが使用される。

cd /root/shared
wgalp trim --fastq-fwd  SRR15265000_1.fastq.gz --fastq-rev SRR15265000_2.fastq.gz --kraken-db $kraken_db --output trimming_step

出力

trimming_step/

trimming_step/kraken/kraken.report

Lactobacillus属が62.94%と主要だが、下の方に行くと

Pediococcus属にも7.29%ヒットしている。単離細菌のシークエンシングとすると汚染が疑われる。

ここでは、このPediococcus属のゲノムを除くことにする。NCBI assemblyからPediococcus AcidilacticiとしてRefSeqに公開されているリファレンス配列全てをダウンロードする(リンク)。

 

 

tarボールを解凍後、中に入ってbwaのindexを作成しておく。チュートリアルにあるようにforループする。

cd genome_assemblies_genome_fasta/ncbi-genomes-2022-06-09/
for f in `ls *.fna`; do bwa index $f; done

リファレンスはLactobacillus rhamnosus とする。同様にダウンロードしてindexを作っておく(リンク)。ガイドではより少ないリファレンスが使用されている(ガイドの一番最後のページ参照)。

 

2、汚染配列を除く。入力されたリードは、汚染配列の各リファレンスに対して独立にマッピングされ、その後マージされ、徐々にフィルタリングされる。

cd /root/shared
wgalp decontaminate \
--fastq-fwd trimming_step/TrimmomaticPE/SRR15265000_1.trimmed.fastq \
--fastq-rev trimming_step/TrimmomaticPE/SRR15265000_2.trimmed.fastq \
--references ref/ncbi-genomes/*.fna \
--contaminants contami/ncbi-genomes/*.fna \
--output decontamination

decontaminantion/に結果は出力される。gzip圧縮されたfastqを使うとエラーになったので、解凍して使った。

decontamination/

 

3、結果を評価する。

wgalp understand-origin \
--fastq-fwd decontamination/decontaminated_fwd.fastq \
--fastq-rev decontamination/decontaminated_rev.fastq \
--kraken-db $kraken_db \
--output kraken_after_decontamination

kraken/

4、アセンブルする。 WGA-LPはSPAdes(とSPAdes-Plasmid)とMiniaアセンブラをネイティブにサポートし、wgalpアセンブルコマンドによる実行のためのインターフェースを提供している。

wgalp assemble \
--assembler SPAdes \
--fastq-fwd decontamination/decontaminated_fwd.fastq \
--fastq-rev decontamination/decontaminated_rev.fastq \
--output SPAdes

SPAdes/SPAdes/

 

 

5、生成されたノードの実際のカバレッジを確認するために、アセンブルされた配列にリードをバックアラインする。

wgalp check-coverage \
--fastq-fwd decontamination/decontaminated_fwd.fastq \
--fastq-rev decontamination/decontaminated_rev.fastq \
--contigs SPAdes/SPAdes/scaffolds.fasta \
--output coverage

wgalp check-coverageは、bwaとsamtools depthに依存し、各ノードのcoverageと長さの概要を作成する。

 

6、カバレッジ分布を視覚化する。

wgalp view-nodes \
--depth coverage/samtools_depth/aligned_to_scaffolds.depth \
--all \
--output coverage_plots

coverage_plots/

1つ開いてみる。

次のように、末端にバレッジのピークが含まれる配列もある。

マニュアルでは、BLASTnサーチによって、末端の同様の末端のピークはバクテリオファージゲノムが細菌ゲノムに挿入されたことが原因である可能性が示唆されている。この配列の末端もBLASTn検索すればデプスが深い理由が推定できるかもしれない。

アセンブラが生成するノードの特徴をよりよく理解するためのウェブアプリも用意されている。

https://redsnic.shinyapps.io/ContigCoverageVisualizer/

ステップ5;wgalp check-coverageの.depth.summaryファイルをアップロードする。

視覚化例

 

縦軸は長さ(nt)、横軸はカバレッジ(リードデプス)。指定したカバレッジカットオフ以上のコンティグは青色のプロットになる。()の数値は左端のグラフに対応。

 

coverageヒストグラムプロットに変更。単離細菌のWGSでは通常は単峰性だが、2峰性のカバレッジプロットになっている。汚染が疑われる。

 

2D-KMeans-Clustering(色はクラスタ番号に対応)

コピーボタンを押すと、カットオフ以上のコンティグ名がコピーされる。ここではそれをselection30.txtとして保存した。

 

7、フィルタリングする。先ほどのselection30.txtを指定する。

wgalp filter-assembly \
--contigs SPAdes/SPAdes/scaffolds.fasta \
--selected-contigs selection30.txt \
--output filtered_contigs

filtered_contigs/

 

8、Kraken2を使って汚染物質のリードのアセンブリがあるかどうかをチェックする。

wgalp understand-origin \
--fasta filtered_contigs/filtered_contigs.fasta \
--kraken-db $kraken_db \
--output node_origin

node_origin/

マニュアルでは、分類がおかしいコンティグについてBLASTn検索している。

 

9、.fastaファイルを手動で編集するか、wgalp filterassembly --complement を使用することで、不要なノードを削除する。

wgalp reorder \
--contigs precise_filter/filtered_contigs.fasta \
--reference ../references/rhamnosus/LrhamnosusGGATCC.fasta \
--output reordering 

 

10、プラスミドを抽出する。SPAdes plasmidかRecyclerを使う。Recyclerはwgalp plasmidコマンドで実行できる。

wgalp plasmid \
--fastq-fwd decontamination/decontaminated_fwd.fastq \
--fastq-rev decontamination/decontaminated_rev.fastq \
--contigs precise_filter/filtered_contigs.fasta \
--assembly-graph SPAdes/SPAdes/assembly_graph.fastg \
--kmer 127 \
--output recycler

このランでは2つの推定プラスミドが得られた。

 

11、QC。WGA-LPには、出来上がったアセンブリの品質テストを行うためのプログラム群が含まれている。これには、Quast,checkM、およびMerquryが含まれる。

wgalp quality \
--fastq-fwd decontamination/decontaminated_fwd.fastq \
--fastq-rev decontamination/decontaminated_rev.fastq \
--assembly reordering/mauve_reorder/alignment2/filtered_contigs.fasta \
--kmer-length 16 \
--output quality_control

quality_control/

 

12、アノテーション。WGA-LPには、NCBI準拠のアノテーションを作成するためProkkaが含まれている。

wgalp annotate \
--contigs reordering/mauve_reorder/alignment2/filtered_contigs.fasta \
--output annotation

annotation/

 

上のガイドの最後の方のページでは、パイプラインで使用されるフィルタリングがゲノムアセンブリ品質をどのように改善させるか、shovillなどと比較して示されています。興味がある方は確認して下さい。

引用

WGA-LP: a pipeline for whole genome assembly of contaminated reads
N Rossi, A Colautti, L Iacumin, C Piazza
Bioinformatics, Volume 38, Issue 3, 1 February 2022, Pages 846–848

 

関連

 

ヒートマップと遺伝子セットエンリッチメント解析のオンラインサービス HemI 2.0

 

 近年のハイスループットオミックス技術により、大量の生物学的データが生み出されている。このようなビッグオミックスデータを可視化することは、様々な生物学的問題に答えるために必要不可欠である。簡潔でありながら包括的な戦略として、ヒートマップは高次元で異質な生体分子発現データを解析し、魅力的なアートワークで可視化することができる。2014年、本著者らはヒートマップイラストレーションのために3つのクラスタリング手法と7つの距離メトリックを実装したスタンドアローンのソフトウェアパッケージ、Heat map Illustrator (HemI 1.0) を開発した。ここで、1.0を大幅に改良し、7種類のクラスタリング手法と22種類の距離メトリックを実装したHemI 2.0をオンラインサービスとしてリリースする。HemI 2.0では、クラスタリング結果や出版品質のヒートマップを直接エクスポートすることができる。また、より詳細な解析のために、12種類のモデル生物と15種類の機能アノテーションを対象としたエンリッチメント解析のオプションを追加した。エンリッチメント結果は、バブルチャート、棒グラフ、コックスコームチャート、円グラフ、ワードクラウドの5つのイディオムで可視化することができる。HemI 2.0は、生体分子発現データの可視化だけでなく、追加のエンリッチメント解析にも有用なウェブサーバーとなることが期待されている。HemI 2.0は、全てのユーザーが自由に利用できるよう、https://hemi.biocuckoo.org/ で公開されている。

 

Github

 

Documentation

HemI - Documentation

 

 

webサービス

https://hemi.biocuckoo.org/にアクセスする。

 

Microsoft Excel ワークブック (97-2003, *.xls; 07-2019, *.xlsx)、カンマ区切りのテキスト (*.csv)、タブ区切りのテキストファイル (*.txt) の3つの形式のファイルの読み込みをサポートしている。

Demo_data1.xlsx

 

ダウンロードしたDemo data1を読み込んだ。

クリックしてヒートマップに読み込む範囲を選択できる。また、行や列のタイトルをクリックすることで、対応するラベルを編集することができる。ここでは全体を視覚化する。下のselect allをクリックし、それからsubmitをクリックする。

 

また、submitクリック前にHeatmap Settingsをクリックすると、サイズや色指定、タイトル、出力時のフォーマットなどの設定を変更できる。

内部に数値を設定したり、対数変換のオプションもある。

Clustering Settingsでは、クラスタリング方法と距離法を設定できる。下側には説明が表示されている。上の行と列のクラスタリングを行う、にチェックを付ける。

 

submitをクリックした。画面が下にスクロールし、ヒートマップが表示された。右側には使用されたテーブルが表示されている。

矢印ボタンをクリックすると矢印方向にスクロールする。

 

デフォルトのクラスタリング適用後。

 

クラスタリングと底2の対数変換適用後。

 

他のデモデータも見てみる。Exampleボタンを押すと読み込まれる。すでにスタイルが適用されており、遺伝子セットエンリッチメント解析結果まで実行済みになっている。

demo1

demo2

demo3

demo4

demo5

 

 

 

その下の画面では遺伝子セットエンリッチメント解析を実行できる。遺伝子シンボルを入力し、生物、データベース、P値を指定する。

 

代表的なモデル生物に対応している。

利用可能なデータベース。Allだと全てのデータベース。データベースについてはDocumentで説明されている。

最後にEnrichment Analysisをクリックする。

 

出力例

サイト上では表と図は小さい。ダウンロードして開くと見やすい。

 

Bubble chart

Bar graph chart

Coxcomb chart

Pie chart

word cloud

 

ローカルアプリケーション

HemIは、macwindowsのアプリケーションとしても利用できる。

HemIを起動してdemoを読み込んだ。ヒートマップを表示するアプリケーションとなっている。

 

引用

HemI 2.0: an online service for heatmap illustration 
Wanshan Ning, Yuxiang Wei, Letian Gao, Cheng Han, Yujie Gou, Shanshan Fu, Dan Liu, Chi Zhang, Xinhe Huang, Sicheng Wu ... Show moreAuthor Notes
Nucleic Acids Research, Published: 07 June 2022

 

補足

このツールとは直接関係ありませんが、良いツイートをされている方がいらっしゃったので、そのツイートを貼っておきます。

"外れ値をチェックしない場合、2つのオブザベーションは、2つの特徴以外では類似しているように見えます。"

"行と列の並び替えをしないと、ヒートマップから有用な情報を得ることはできない。"

”データ可視化における良い慣行と悪い慣行についての意見をまとめた。”


(主にヒト)バリアントを視覚化する ProteinPaint

 

小児がんの遺伝子病変(sequence mutations や遺伝子融合など)とRNA発現を同時に可視化するウェブアプリケーション、ProteinPaintについて説明する。小児がんデータセットは、17サブタイプの小児がんから診断時または再発時に取得された27,188の検証済み体細胞コーディング病変、21サブタイプの1000人以上の小児がん患者から検出された252の病原性または機能喪失性生殖細胞病変6、36サブタイプの928の小児腫瘍のRNA-SEQからなる。データは5つの主要な研究からまとめられたもので、今後、追加の小児がん研究が発表されれば、さらに拡充される予定である。

 

 PeCan Data Portal

https://pecan.stjude.cloud/home

Visualizations

https://viz.stjude.cloud/visualizations?tool=all-tools&research-domain=pediatric-cancer&order=newest

 


 

ヒト以外の生物のゲノムも選択できます (ただしどこまで対応しているかは不明)。簡単に機能を見ていきます。

webサービス

https://proteinpaint.stjude.org/にアクセスする。

 

ゲノムを選択。ヒトゲノム以外にmouse, rat、fruit fly, chickenも選択できる。ここではhg19を使用。

 

ゲノムブラウザ一覧から選択する。

 

もしくは遺伝子名で検索する。

 

検索結果。遺伝子のタンパク質コード領域全長が表示されている。色はドメインを表す(下に注釈)。

 

COSMICをクリック。クリックするとそのデータベースからのバリアント情報が表示される。

もう一度クリックすると非表示になる。

 

genome browserをクリックすると、選んだゲノムのブラウザが追加される。検索した遺伝子が表示されているが、各パネルは独立しており、自由にゲノムのポジションを変える事ができる。

 

上のAppをクリックすると、さらに新しいゲノムブラウザのパネルを追加できる。

左半分がゲノムブラウザのボタン、右半分がそれ以外のAppsのラウンチャーボタン。

 

Hi-Cのパネルを追加した。

 

様々なゲノムブラウザパネルがある。

 

右半分はゲノムブラウザ以外のAppsになっている。ユーザーのファイルをアップロードする。フォーマットについては例が載っているので、それを参照する。

 

example data

 

パネルは自由に追加したり削除する事ができる。

 

ゲノム後から変更すれば、複数のゲノム、例えばマウスとヒトだったり、hg19とhg38を並べたりする事もできる。

 

 

各ゲノムブラウザやAppsの詳細は左上のDocumentationから確認して下さい。詳しい説明ページが用意されています。

 

引用

Xin Zhou et al., Nat Genet. 2016 Jan; 48(1): 4–6.

doi: 10.1038/ng.3466

 

関連

 

(海外では)有名なサイトかもしれませんが、自分はkojix2さんのリツイートで知りました。ありがとうございました。