macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

バクテリアとアーキアの正式名称やタイプストレイン情報などを掲載するデータベース LPSN

2020 9/3、9/6 誤字修正

 

1997年の論文

このリストには、International Journal of Systematic Bacteriologyに掲載された細菌の正式名称がアルファベット順に年代順に掲載されている。5,569種(1996年12月31日現在)を網羅しており、インターネット上で入手可能である(URL: ftp:@ftp.cict.fr/pub/ bacterio/)。

 

2020年の論文

 The List of Prokaryotic names with Standing in Nomenclature(LPSN)は、Jean Euzéby教授によって、1997年に the List of Bacterial names with Standing in Nomenclature(LBSN)として設立された。1997年3月28日に匿名のFTPファイルとして、1998年1月28日にWorld Wide Web上で公開された [ref.1] 。「Euzéby's List」は、細菌や考古学の命名法や分類に興味のある人にとって、急速に重要なオンラインリソースとなった。

 LPSNは、原核生物命名法の急速な変化や新規分類の記述の増加に遅れをとらないための貴重なリソースであり続けている。The International Code of Nomenclature of Prokaryotes(ICNP)[ref.3]に基づいて有効に公開されている原核生物の新しい名称や新しい組み合わせの数は、過去30年間で爆発的に増加しており、今後のコードの変更に関わらず、今後も増加し続けると予想される。

 実際の原核生物名の増加と予想される新しい原核生物名の増加に伴い、LPSNの維持がますます困難になっていたため、より良い技術的・資金的基盤が求められていた。そのため、2019年11月に、LPSNはLeibniz Institute DSMZ - German Collection of Microorganisms and Cell Cultures GmbH(ドイツ)によって買収された。DSMZは1993年からすでにProkaryotic Nomenclature Up-to-date(PNU)サービスを持っており、両サイトの内容には大きな重複があるため、コミュニティでの知名度が高いLPSNの名前のまま、2つのサービスを完全に新しいものに統合することが決定された。2020年2月17日、新しいLPSNは修正されたCreative Commons Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)ライセンスの下、https://lpsn.dsmz.de/ で開始された。

 技術的には、新しいサイトは全く別物である。数千の静的なHTMLページで構成されていた旧LPSNとは対照的に、リクエストに応じてページを提供するために専用のデータベースとスクリプトを使用している。旧サイトは、その全体がアーカイブに移行され、無期限に残ることになった。新しいサイトは、旧サイトのすべてのアドレスが新しいサイトに対応するアドレスを持っていることを保証するために、アドレス間のマッピングを行い、それによってリダイレクトされる。

 

ウィキペディア - LPSN

https://ja.wikipedia.org/wiki/List_of_Prokaryotic_names_with_Standing_in_Nomenclature

 

webサービス

https://www.bacterio.netにアクセスする。

f:id:kazumaxneo:20200902222638p:plain

 

分類階級から検索したり、キーワード検索できる。E.coliを見てみる。

f:id:kazumaxneo:20200903092441p:plain

 

まずNomenclatural statusとTaxonomic statusを見ると両方とも"valid"になっており、Escherichia coliという名称や現在の分類が科学的に問題ないことが確認できる。Synonyms(シノニム)を見ると、Bacillus coliという名称もあることがわかる。リスクグループとは、実験室での感染リスクや毒素がもたらす相対的な危険性を記述する分類だが、これはsubspeciesレベルのリスク評価であり、Escherichia coliという種の全てがこのリスクグループに属する訳ではない。

f:id:kazumaxneo:20200903093441p:plain

 

Basonym(バシオニム)は細菌学では元の学名という意味だが、こちらもBacillus coliとなっている。シノニムの項目でもBacillus coliという名称になっていたが、バシオニムも同じ名称があることから、Bacillus coliは現在も別名で使用されているわけではなく、昔の細菌学で使われていた名前であることがわかる。また、タイプストレインのコレクションがいくつかあることがわかる(タイプ株は1つだけ)。ATCC(アメリカンタイプカルチャーコレクション)株やSwedishのCCUG(Culture Collection University of Gothenburg )、JCM(Japan Collection of Microorganisms)、NCTC(National Collection of Type Cultures)なども利用できる。

f:id:kazumaxneo:20200903094145p:plain

Etymology(語源)にも記載がある。”大腸”から来ている。 

 

外部リンクとしてBacdiveのリンクがある場合がある。Bacdiveでは炭素源や他の栄養源の資化・利用可能性に関する情報、至適pHや温度、サンプリング場所などの情報を確認できるようになっている。また、16S配列をダウンロードしたり(全16S配列ではない)、系統比較できるようになっている。

f:id:kazumaxneo:20200903094828p:plain

 

左のメニューから種よりも上位の階級にアクセスすれば、種としてvalidなNomenclatureの種一覧を調べることができる。

Escherichia属

f:id:kazumaxneo:20200903124043p:plain

 

感想

LPSNでvaildになっているかどうかの情報はよく似たバクテリア間で比較ゲノムを行う際にも重要になる。理由は単純で、よく表現型が分からない種を使ってゲノム比較を行ったとしても、深い議論が難しいからである。よく特徴付けられたタイプストレインのゲノムを使うことで、より意味のある結論を出しやすくなる。一方で、タイプストレインだからとって完全なゲノム情報が使えるとは限らないことには注意(経験上かなり多い)。

補足

おそらくはFundingの関係で、StrainInfoにはアクセスできなくなっています。後になって気が付きましたが、現在管理されているオーサーのAidan C Parteさんは昔からBergey's Manualのエディターとしても活躍されていますね(Linkedin)。

引用

List of Prokaryotic names with Standing in Nomenclature (LPSN) moves to the DSMZ

Aidan C Parte, Joaquim Sardà Carbasse, Jan P Meier-Kolthoff, Lorenz C Reimer , Markus Göker

Int J Syst Evol Microbiol. 2020 Jul 23

 


List of Bacterial Names with Standing in Nomenclature: a folder available on the Internet

J P Euzéby

Int J Syst Bacteriol. 1997 Apr;47(2):590-2

 

関連


German Collection of Microorganisms and Cell Cultures GmbH: List of Prokaryotic names with Standing in Nomenclature/Prokaryotic Nomenclature Up-to-date

 

参考

細菌分類学と Bergey’s Manual of Systematic Bacteriology

http://www.jsmrs.jp/journal/No21_2/No21_2_25.pdf

START App

 

 

 RNAシーケンシング(RNAseq)を用いた転写プロファイリングは、シングルセルから組織全体に至るまで、様々な文脈でのグローバルな遺伝子発現パターンを定量化するための強力な手法として登場した。このプロファイリング技術によって生成された膨大な量のデータは、結果を効果的に可視化して解釈するという点で、非常に困難な課題をもたらしている。研究者がRNAseqデータを簡単にアップロード、解析、可視化するためには、便利で直感的なデータインターフェースが不可欠であり。著者らは、これらの要件を念頭にSTART(Shiny Transcriptome Analysis Resource Tool)アプリを設計した。このアプリケーションは、ローカルコンピュータ上に常駐したり、ウェブベースの環境として機能したりできるパワーと柔軟性を備えており、研究者と共同研究者の間でデータを簡単に共有することができる。STARTアプリのソースコードはすべてRで書かれており、GPLv3でライセンスされたコードを https://github.com/jminnier/STARTapp から自由にダウンロードできる。Rがインストールされているシステムであれば、どのようなシステムでも起動できる。また、STARTアプリは研究者が一時的にデータをアップロードできるように、https://kcvi.shinyapps.io/START でホストされている。

 

Github

 

exampleファイル

https://github.com/jminnier/STARTapp/blob/master/data/examplecounts_short.csv

 

webサービス

https://kcvi.shinyapps.io/START にアクセスする。

f:id:kazumaxneo:20200906133256p:plain

 

またはNASCARのサーバにアクセスする。

http://nasqar.abudhabi.nyu.edu

1、START App

f:id:kazumaxneo:20200906132443p:plain

中央下が START App

 

NASCARはdocker imageを配布しているので、これを立ち上げて使用してもよい。

#pull all application images
docker pull aymanm/nasqarall:latest
docker run -p 80:80 aymanm/nasqarall:latest

ラウンチ後、http://localhost:80/にアクセスする。

 

カウントデータをアップロードする。

f:id:kazumaxneo:20200906134054p:plain

 

Gruop Plots

PCA Plot

f:id:kazumaxneo:20200906134928p:plain

 

Analysiss Plots

f:id:kazumaxneo:20200906135117p:plain

Scatter plots

グループを選択する。Gruop1とGruop2

f:id:kazumaxneo:20200906135209p:plain

Volcano Plot

f:id:kazumaxneo:20200906135251p:plain

Gene Expresion Boxplots

遺伝子を選択する。ここでは2つの遺伝子を選択してプロットした。

f:id:kazumaxneo:20200906135433p:plain

縦軸はlog2cpm_voomになっているが、log2cpmやcountに変更可能。

 

Heatmaps

f:id:kazumaxneo:20200906135804p:plain

 

ローカルマシンでwebサーバを立ち上げてSTART Appを使用する場合、以前はRのコンソールで多くの依存ライブラリをエラーなく導入しておく必要がありました。このため、いつでもどこでも使用するというには少し敷居が高かったのですが、NASCARのdocker imageに含まれてからは、必要な時にいつでも使えるようになっています。

引用
The START App: a web-based RNAseq analysis and visualization resource

Jonathan W Nelson, Jiri Sklenar , Anthony P Barnes, Jessica Minnier

Bioinformatics. 2017 Feb 1;33(3):447-449

 

REscan

 

 リピート拡張は、神経疾患における遺伝的変異の重要なクラスである。しかしながら、従来のシークエンシング法を用いた新規なリピート拡張の同定は、ショートシークエンシングリードに対するそれらの典型的な長さ、およびリピート配列への正確でユニークなアラインメントを生成することの難しさのために、課題となっている。しかし、この後者の特性をペアエンドシークエンシングデータに利用することで、リピート拡張やその他の構造変化の可能性のある位置を推測することができる。
 この論文では、ペアエンドのショートリードシークエンシングデータから、適切にマップされたmateがいない遺伝子座に向けられたリードの割合を報告することで、リピート拡大遺伝子座を推定するコマンドラインユーティリティであるREscanを紹介する。データの母集団に対するREscan統計量が高い場合は、実験的な追跡調査のためのリピート拡大遺伝子座を示唆している。このアプローチは、筋萎縮性側索硬化症の259例のゲノム配列データを用いて検証されており、そのうち24例はC9orf72の大きなリピート拡大が陽性であり、REscan統計はリピート拡大キャリアと非キャリアを容易に区別できることを示している。C のソースコードhttps://github.com/rlmcl/rescan (GNU General Public Licence v3) にある。

 

REscanは、リピート拡張の存在を反映している可能性がある領域にまたがっている、不完全にペアリングされたリードの数をカウントするシンプルなツールである。結果は、マッピングされていない、または遠くにマッピングされたメイトを持つリードの割合として報告される。出力は、REscan統計量のrx/rtを表すフィールドRSを持つVCF形式で、ここでrxはlocusに向かってマップされていないリードの数(VCF出力ではBMまたは "badmapped "として表される)、rtはlocusに向かってマップされている(近くにある)リードの総数(VCF出力ではBMとGMまたは "goodmapped "の合計)である。

 

インストール

macos10.14でテストした。

依存

  • samtools

本体 Github

git clone https://github.com/rlmcl/rescan
cd rescan
gcc -w -o rescan rescan.c
sudo cp rescan /usr/local/bin

rescan -h

$ rescan -h

------------------------------------------

REscan version 1.0.0

Russell McLaughlin, Trinity College Dublin

GNU General Public License v3

------------------------------------------

Usage: samtools view in.bam [ region ] | rescan [ options ]

 

Options:

   --regions (-r)   FILE  : file name for bed-format, position-sorted regions (currently unspecified)

        --id (-i) STRING  : sample ID (NA)

       --chr (-c) STRING  : chromosome for reporting rescan statistics ()

     --start (-s)    INT  : start position for reporting rescan statistics (-1)

       --end (-e)    INT  : end position for reporting rescan statistics (max position in bam)

      --jump (-j)    INT  : number of bases to jump by in printing output (1)

  --distance (-d)    INT  : up/downstream distance for searching (200)

   --maxfrag (-m)    INT  : maximum fragment length allowed (50000)

      --minq (-q)    INT  : minimum mapping quality for good reads (20)

      --help (-h)         : print this help message

 

 

実行方法

bamファイルと染色体名を指定する。

samtools view input.bam chr9 | rescan > output.vcf

 

 

引用

REscan: inferring repeat expansions and structural variation in paired-end short read sequencing data
Russell Lewis McLaughlin
Bioinformatics, Published: 26 August 2020

 

シークエンシングされた単離ゲノムサンプルを分析する nullarbor

 

 公衆衛生微生物学のラボでは、アウトブレイクが疑われる細菌は、通常、IlluminaまたはIon Torrent装置で、全ゲノムシークエンシングされる。これらのWGSサンプルは、カバレッジコンタミネーション、正しい種が含まれているかどうかを品質チェックする必要がある。ジェノタイピング(例:MLST)とresistome(wiki)の特徴付けも必要である。最後に、系統樹を作成し、株間の関係とゲノム距離を示す必要がある。これらの情報はすべて、疫学情報(各サンプルのメタデータ)と組み合わされ、状況を評価し、さらなる行動につなげることができる。

 

インストール

本体 Github

conda create -n nullarbor -y 
conda activate nullarbor
conda install -c conda-forge -c bioconda -c defaults -y nullarbor

>nullarbor.pl  --check 

$ nullarbor.pl 

NAME

  nullarbor.pl 2.0.20191013

SYNOPSIS

  Reads to reports for public health microbiology

AUTHOR

  Torsten Seemann

USAGE

  nullarbor.pl [options] --name NAME --ref REF.FA/GBK --input INPUT.TAB --outdir DIR

REQUIRED

  --name STR             Job name

  --ref FILE             Reference file in FASTA or GBK format

  --input FILE           Input TSV file with format:  | Isolate_ID | R1.fq.gz | R2.fq.gz |

  --outdir DIR           Output folder

  --mode MODE            Run mode: [all] preview

OPTIONS

  --cpus INT             Maximum number of CPUs to use in total (56)

  --force                Overwrite --outdir (useful for adding samples to existing analysis)

  --quiet                No screen output

  --verbose              More screen output

  --version              Print version and exit

  --check                Check dependencies and exit

  --run                  Immediately launch Makefile

ADVANCED OPTIONS

  --conf FILE            Config file (/home/kazu/anaconda3/envs/nullarbor/bin/../conf/nullarbor.conf)

  --gcode INT            Genetic code for prokka (11)

  --trim                 Trim reads of adaptors (0)

  --mlst SCHEME          Force this MLST scheme (AUTO)

  --minctg LEN_BP        Minimum contig length for Prokka and Roary

  --prefill              Use precomputed data as per --conf file. Use --no-prefill to override.

  --link-cmd 'CMD'       Command to symlink/copy FASTQ files into --outdir ('ln -s -f')

  --snippy_opt STR       Options to pass to snippy eg. '--mincov 10 --ram 32' ()

  --roary_opt STR        Options to pass to roary eg. '-iv 1.75 -s -cd 97' ()

  --mask BED | auto      Mask core SNPS in these regions or 'auto' ()

  --auto                 Be lazy and guess --name,--ref,--input,--outdir,--mask

PLUGINS

  --assembler NAME       Assembler to use: megahit shovill skesa skesa_fast spades (skesa)

  --assembler-opt STR    Extra assembler options to pass ()

  --treebuilder NAME     Tree-builder to use: fasttree iqtree iqtree_fast iqtree_slow (iqtree_fast)

  --treebuilder-opt STR  Extra tree-builder options to pass ()

  --taxoner NAME         Species ID tool to use: centrifuge kraken kraken2 (kraken)

  --taxoner-opt STR      Extra species ID builder options to pass ()

  --annotator NAME       Genome annotator to use: prokka_fast (prokka_fast)

  --annotator-opt STR    Extra annotator options to pass ()

DOCUMENTATION

  https://github.com/tseemann/nullarbor

(nullarbor) kazu@kazu:~$ 

 

shovillのエラーが出るが、インストールされていれば問題ない。

#インストールチェック

>nullarbor.pl  --check

f:id:kazumaxneo:20200828225046p:plain


 

データベース

kraken、kraken2、Centrifugeのデータベースを使用する。いずれもビルド済みのデータベースが公開されているので、それをダウンロードすればそのまま使える。

#Kraken
wget https://ccb.jhu.edu/software/kraken/dl/minikraken_20171019_4GB.tgz
tar -C $HOME -zxvf minikraken_20171019_4GB.tgz

wget https://ccb.jhu.edu/software/kraken/dl/minikraken_20171019_8GB.tgz
tar -C $HOME -zxvf minikraken_20171019_8GB.tgz

#Kraken2
wget ftp://ftp.ccb.jhu.edu/pub/data/kraken2_dbs/minikraken2_v2_8GB_201904_UPDATE.tgz
tar -C $HOME -zxvf minikraken2_v2_8GB_201904_UPDATE.tgz

#Centrifuge
wget ftp://ftp.ccb.jhu.edu/pub/infphilo/centrifuge/data/p_compressed+h+v.tar.gz
mkdir $HOME/centrifuge-db
tar -C $HOME/centrifuge-db -zxvf p_compressed+h+v.tar.gz

#データベースのパスを設定(必要に応じて.bashrcなどに書き込んでおく)
export KRAKEN_DEFAULT_DB=$HOME/minikraken_20171019_8GB
export KRAKEN2_DEFAULT_DB=$HOME/minikraken2_v2_8GB_201904_UPDATE
export CENTRIFUGE_DEFAULT_DB=$HOME/centrifuge-db/p_compressed+h+v

 

 

実行方法 

 ランにはイルミナのペアエンドシークエンシングデータが必要。シングルエンドのデータは使用できない。 

リファレンス(fastaファイルかgenbankファイル)とペアエンドfastqのタブファイルを指定する。ランには最低4サンプルのfastqが必要。

nullarbor.pl --name PROJNAME --mlst saureus --ref US300.fna --input samples.tab --outdir OUTDIR

 

 

引用

 

Seemann T, Goncalves da Silva A, Bulach DM, Schultz MB, Kwong JC, Howden BP. Nullarbor Github https://github.com/tseemann/nullarbor

 

 

GATKベストプラクティスに基づいた、RNA seqのバリアントコールを行うnextflowパイプライン CalliNGS-NF

 

 発現情報に加えて、RNAシークエンシング(RNA-seq)データは、分析対象の生物の遺伝子に存在する体細胞変異を取得するために使用することができる。CalliNGS-NFパイプラインは、RNAseqデータを処理して、スモールバリアント(SNV)、SNP、およびsmall INDELs(挿入、欠失)を取得する。このパイプラインは、RNAseq上でのバリアントコールのためのGATKベストプラクティスを実装したもので、解析の主要なステップをすべて含んでいる。GATKのベストプラクティスに加えて、パイプラインには、得られたSNPと既知のバリアントを比較するステップと、オーバーラップしたSNPのアレル特異的カウントを計算するステップが含まれている。

 

 

インストール

依存

  • Nextflow 20.07.1 (or later)
  • Java 8 or later
  • Docker 1.10 (or later) or Singularity engine
  • GATK 4.1.x

Github

#nextflowのダウンロード(ない人だけ)
curl
-s https://get.nextflow.io | bash
mv nextflow /usr/local/bin

#2 docker imageのpull
docker pull cbcrg/callings-nf:gatk4

> nextflow run CRG-CNAG/CalliNGS-NF -profile docker 

 

テストラン

ここではGithubレポジトリ: CalliNGS-NF/data/に置かれているテストデータを使う。

 

現在/home/kazuにいるとして、以下のように実行する。最低限ゲノムとfastqを指定する必要がある。ここではそれに加えて既知変異(または多型)のVCFとブラックリスト領域のbedを指定している。

git clone https://github.com/CRG-CNAG/CalliNGS-NF.git

home=/home/kazu
sudo nextflow run CRG-CNAG/CalliNGS-NF -profile docker \
--genome $home/CalliNGS-NF/data/genome.fa \
--reads '$home/CalliNGS-NF/data/reads/*_{1,2}.fq.gz' \
--variants $home/CalliNGS-NF/data/known_variants.vcf.gz \
--denylist $home/CalliNGS-NF/data/denylist.bed \
--results $home/results

dockerは(権限設定していない場合)sudoをつけて実行する。 

f:id:kazumaxneo:20200827222338p:plain

終了。

 

出力

f:id:kazumaxneo:20200827222130p:plain

f:id:kazumaxneo:20200827222219p:plain

final.vcf

f:id:kazumaxneo:20200827222304p:plain

 

解析フローはGithubで確認してください。マッピングにはSTARが使われています。

引用

GitHub - CRG-CNAG/CalliNGS-NF: GATK RNA-Seq Variant Calling in Nextflow

 

関連


 

CyVerseとIGBを接続するWebアプリケーション BioViz Connect

 

 ゲノミクスの大規模データセットを利用するために、生物学者はデータの保存、処理、分析、アノテーション、可視化のための計算システムを必要としている。CyVerseのようなクラウドベースのサイエンスゲートウェイは、ストレージと解析ツールを提供するが、可視化機能は限られている。これと並行して、Integrated Genome Browser(IGB)などのデスクトッププログラムは、ローカルコンピューティングリソースを使用したインタラクティブで動的なデータの可視化をサポートしている。しかし、CyVerseとIGBは別々に存在しており、ユーザが両者の間でデータを簡単に転送する方法はない。

 ここでは、CyVerse Terrain APIを用いてCyVerseとIGBを接続する新しいWebアプリケーション、BioViz Connectを紹介する。BioViz Connectを使用すると、研究者はデータをIGBにストリーミングして可視化したり、分析を実行して新しい可視化を作成したりすることができる。また、BioViz Connectはダッシュボードスタイルのアプリケーションとしても機能し、ユーザーがデータファイルのゲノムバージョンと視覚的な外観を指定することで、IGBに読み込まれたデータがどのように表示されるかを制御することができる。BioViz Connectのデモンストレーションとして、シロイヌナズナRNA-Seqデータセットの例を紹介する。CyVerseとBioViz Connectを使用して、スケーリングされたカバレッジグラフを作成し、統合ゲノムブラウザで可視化することで、クラウドとデスクトップリソースの融合により、研究者がデータの探索と理解をより強力に行うことができることを示している。BioViz Connectの使用方法については、https://bioviz.org/connect.html に示されている。

  

IGB manual

Quick start - IGB User's Guide - Confluence

 

movie manual

 

webサービス

https://www.bioviz.org/connect.html にアクセスする。Cyverse IDでログインする。

f:id:kazumaxneo:20200824234926p:plain

 

Cyverseにアップロードしたファイルが並んでいる。IGBでブラウズしたいゲノムファイルを指定する。右端のview in IGBボタンをクリックする。

f:id:kazumaxneo:20200826235314p:plain

 

IGBアプリと連携させる。IGBアプリはすでにローカルマシン上で立ち上がっている必要がある。

f:id:kazumaxneo:20200826235627p:plain

 

補足

IGBをインストールしていない場合、BioViz Connectの指示に従ってインストールする。

f:id:kazumaxneo:20200824235437p:plain

 

IGBを立ち上げる。

f:id:kazumaxneo:20200826235905p:plain

 

実際の手順は以下の動画で確認して下さい。ファイルは公開設定にしておく必要があります。 


引用

BioViz Connect: Web application linking CyVerse cloud resources to genomic visualization in the Integrated Genome Browser
Karthik Raveendran, Chaitanya Kintali, Srishti Tiwari, Pawan Bole, Nowlan H Freese, Ann E Loraine

bioRxiv, Posted May 16, 2020

 

関連


ONT ダイレクトRNA seqで修飾された塩基を検出する nanocompore

 

 RNA分子は、その構造や相互作用に影響を与える転写後修飾(PTM)を受けている。現在までに、150以上の天然に存在するPTMが同定されているが、その機能の大部分は未だ不明である。近年、少数のPTMが、ハイスループットシーケンシングを用いた実験的アプローチにより、トランスクリプトームへのマッピングに成功している。オックスフォード・ナノポア・ダイレクトRNAシーケンシング(DRS)技術は、RNAの改変に敏感であることが示されている。著者らは、DRSデータ中の改変の有無を評価するための堅牢な解析フレームワークであるNanocomporeを開発・検証した。そのためには、関心のあるRNAサンプルを、改変されていない対照サンプルと比較する。この戦略は、トレーニングセットを必要とせず、生物学的変動性をモデル化するためのレプリケートの使用を可能にする。ここでは、ヒトpolyA+ RNAや標的とするノンコーディングRNARNAの1分子分解能でのRNA修飾を検出するNanocomporeの能力を実証する。結果は直交法とよく相関し、N6-メチルアデノシン部位の分布に関するこれまでの観察結果を確認し、コード化および非コード化トランスクリプトームにおけるRNA修飾の分布についての新たな洞察を提供するものである。Nanocompore の最新版は https://github.com/tleonardi/nanocompore から入手できる。

 

 

nanocomporeはPythonAPIとしての活用と、コマンドラインでの使用の2種類の使用方法がある。ここではコマンドラインでの基本的な使用手順についてまとめる。 

インストール

condaを使ってpython3.6の仮想環境を作成し、そこでpipを使って導入した(ホストOSはubuntu18.04)。

Github

#bioconda(link)
conda create -n nanocompore python=3.6
conda activate nanocompore
#pip
pip3 install nanocompore

#or conda
conda install -c bioconda nanocompore -y

nanocompore -h

$ nanocompore -h

usage: nanocompore [-h] [--version] {sampcomp,simreads,plot} ...

 

Software package that identifies raw signal changes between two conditions

from https://github.com/jts/nanopolish resquiggled dRNA-Seq data.

 

positional arguments:

  {sampcomp,simreads,plot}

                        Nanocompore implements the following subcommands

    plot                Run downstream analysis and plot results

 

optional arguments:

  -h, --help            show this help message and exit

  --version, -v         show program's version number and exit

 

 

実行方法

ケースコントロールの2サンプルを比較することで修飾された塩基を検出する。入力のTSVファイルはbasecallしたONT.fastqをリファレンスにマッピングし、それからresquigglingして作成する。手順はこちらに記載されている。

nanocompore sampcomp \
--file_list1 ./data/S1_R1.tsv,./data/S1_R2.tsv \
--file_list2 ./data/S2_R1.tsv,./data/S2_R2.tsv \
--label1 S1 \
--label2 S2 \
--fasta ./reference/ref.fa \
--outpath ./results/

 

引用

RNA modifications detection by comparative Nanopore direct RNA sequencing

Adrien Leger, Paulo P. Amaral, Luca Pandolfini, Charlotte Capitanchik, Federica Capraro, Isaia Barbieri, Valentina Migliori, Nicholas M. Luscombe, Anton J Enright, Konstantinos Tzelepis, Jernej Ule, Tomas Fitzgerald, Ewan Birney, Tommaso Leonardi, Tony Kouzarides 

bioRxiv, Posted November 15, 2019

 

関連