2019-09-13

リードやコンティグ配列のリード長ヒストグラム

pyfaidxとRのhistを使えばワンライナーで出力できる。

インストール

#python (link)
pip install pyfaidx

実行方法

FASTAファイルを指定する。

faidx --transform chromsizes input.fa | cut -f2 | Rscript -e 'data <- as.numeric (readLines ("stdin")); summary(data); hist(data)'

ONTのリード

f:id:kazumaxneo:20190913000251p:plain

色#993435（link）をつける。区切りは30とする。タイトルはONTとする。

faidx --transform chromsizes input.fa | cut -f2 | Rscript -e 'data <- as.numeric (readLines ("stdin")); summary(data); hist(data,breaks=30, main = "ONT",col = "#993435")'

f:id:kazumaxneo:20190913182532p:plain

またはsamtoolsのfaidxコマンドを使う。

samtools faidx input.fasta
cut -f2 input.fasta.fai | Rscript -e 'data <- as.numeric (readLines ("stdin")); summary(data); hist(data)'

引用

Read length distribution from FASTA file

nanopore - Read length distribution from FASTA file - Bioinformatics Stack Exchange

2019-09-12

シングルセルとメタゲノムに対応したIDBA-UDアセンブラ

2012 Bioinformatics assembly Reference-assisted assembly RNA seq metagenome

2021 2/7 タイトル修正

2021 4/24,26 追記

　次世代シーケンシングにより、シングルセルシーケンシングまたはメタゲノムシーケンシングテクノロジーを使用して、微生物環境のシーケンシングができる。しかし、両方の技術には、ゲノムの異なる領域または異なる種のゲノムのシーケンシングデプスが非常に不均一であるという問題がある。ほとんどの既存のゲノムアセンブラーは、通常、シーケンスの深さが均一であるという仮定を持っている。これらのアセンブラは、正しい長いコンティグを構築できない。
　単一セルシーケンスまたは不均一なシーケンス深度を持つメタゲノムシーケンステクノロジーのリードをアセンブルするためのde Bruijnグラフアプローチに基づくIDBA-UDアルゴリズムを紹介する。問題に取り組むために、いくつかの重要な技術が採用されている。単純なしきい値を使用する代わりに、multiple depthrelative thresholdsを使用して、低デプス領域と高デプス領域の両方で誤ったk-merを削除する。ペアエンド情報を使用したローカルアセンブリの手法は、低デプスの短い繰り返し領域の分岐問題を解決するために使用される。プロセスを高速化するために、エラー修正ステップを実行して、信頼性の高いコンティグに位置合わせできる高デプス領域のリードを修正する。 IDBA-UDと既存のアセンブラ（Velvet、Velvet-SC、SOAPdenovo、Meta-IDBA）のさまざまなデータセットのパフォーマンスを比較すると、IDBA-UDはより長いコンティグをより高い精度で再構築できることがわかる。

IDBAは、第2世代のシーケンスリード用の基本的な反復de Bruijnグラフアセンブラである。 IDBAの拡張であるIDBA-UDは、ペアエンドリードを使用して低デプス領域をアセンブルし、コンティグのプログレッシブデプスを使用して高深度領域のエラーを減らすように設計されている。これは汎用のアセンブラであり、特にシングルセルおよびメタゲノムシーケンスデータに適している。 IDBA-HybridはIDBA-UDの別の更新バージョンであり、リファレンスゲノムを利用してアセンブリ結果を改善できる。 IDBA-Tranは、RNA-Seqデータ用の反復de Bruijnグラフアセンブラである。

Flowchart of IDBA-UD. 論文より転載

https://i.cs.hku.hk/~alse/hkubrg/projects/idba_ud/

インストール

macos10.14のminiconda3-4.0.5環境でテストした。

本体　Github

#bioconda (link)
conda install -c bioconda -y idba

> idba_ud

$ idba_ud

not enough parameters

IDBA-UD - Iterative de Bruijn Graph Assembler for sequencing data with highly uneven depth.

Usage: idba_ud -r read.fa -o output_dir

Allowed Options:

-o, --out arg (=out) output directory

-r, --read arg fasta read file (<=600)

--read_level_2 arg paired-end reads fasta for second level scaffolds

--read_level_3 arg paired-end reads fasta for third level scaffolds

--read_level_4 arg paired-end reads fasta for fourth level scaffolds

--read_level_5 arg paired-end reads fasta for fifth level scaffolds

-l, --long_read arg fasta long read file (>600)

--mink arg (=20) minimum k value (<=312)

--maxk arg (=100) maximum k value (<=312)

--step arg (=20) increment of k-mer of each iteration

--inner_mink arg (=10) inner minimum k value

--inner_step arg (=5) inner increment of k-mer

--prefix arg (=3) prefix length used to build sub k-mer table

--min_count arg (=2) minimum multiplicity for filtering k-mer when building the graph

--min_support arg (=1) minimum supoort in each iteration

--num_threads arg (=0) number of threads

--seed_kmer arg (=30) seed kmer size for alignment

--min_contig arg (=200) minimum size of contig

--similar arg (=0.95) similarity for alignment

--max_mismatch arg (=3) max mismatch of error correction

--min_pairs arg (=3) minimum number of pairs

--no_bubble do not merge bubble

--no_local do not use local assembly

--no_coverage do not iterate on coverage

--no_correct do not do correction

--pre_correction perform pre-correction before assembly

> fq2fa

$ fq2fa

not enough parameters

fq2fa - Convert Fastq sequences to Fasta sequences.

Usage: fq2fa tmp.fq tmp.fa [...]

fq2fa --paired tmp.fq tmp.fa

fq2fa --merge tmp_1.fq tmp_2.fq tmp.fa

Allowed Options:

--paired if the reads are paired-end in one file

--merge if the reads are paired-end in two files

--filter filter out reads containing 'N'

実行方法

１、fastqはマージして1つの"FASTA"として与える必要があるため、IDBAのラン前にペアエンドfastqをマージする。このコマンドではgzip圧縮fastqは受け付けない。解凍してから指定する。

fq2fa --merge --filter pair_1.fq pair_2.fq read.fa

read.faができる。

２、IDBAのラン

idba_ud -r read.fa -o out_dir

出力

k-merを変えながら繰り返しローカルアセンブリが行われ、最後にscaffoldingされる。

f:id:kazumaxneo:20190912025121p:plain

scaffold.faの配列には”N”が含まれる可能性がある。出力についてはこちらも参照（link）。

32スレッド指定、k値は20から120まで10ずつ増やす。最低サイズ300bpとする。precorrection実行。

idba_ud -r read.fa --num_threads 32 --pre_correction -o out_dir --mink 20 --maxk 120 --step 10 --min_contig 300

--mink arg (=20) minimum k value (<=312)
--maxk arg (=100) maximum k value (<=312)
--step arg (=20) 　 increment of k-mer of each iteration
--pre_correction perform pre-correction before assembly
--min_contig arg (=200) minimum size of contig

長い配列を指定する。

idba_ud -l sequence.fa --num_threads 24 -o out_dir

-l fasta long read file (>600)

引用
IDBA-UD: a de novo assembler for single-cell and metagenomic sequencing data with highly uneven depth

Peng Y, Leung HC, Yiu SM, Chin FY

Bioinformatics. 2012 Jun 1;28(11):1420-8

参考

https://www.researchgate.net/post/IDBA-UD_files-which_one_to_use

不明なoptionについてはレポジトリのissuesを確認してください。

https://github.com/loneknightpy/idba/issues

＊１

IDBA-UDは、de Bruijn graphベースのアセンブラとしては珍しく、k-mer長kに偶数の値許容している。

2019-09-11

Pacbioのロングリードのシミュレータ PaSS

2019 BMC Bioinformatics Pacbio simulator

　PacBioやSMRT（1分子リアルタイム）シーケンスやナノポアシーケンスを含む第3世代のシーケンス技術は、これまでにないシーケンスリード長をゲノムを研究する研究者に提供し、ゲノミクス研究に革命をもたらしている[ref.1]。 Pacific BioSciencesが開発したSMRTシーケンシングは、最も広く使用されている第3世代のシーケンシングテクノロジーの1つである[ref.2]。

　シーケンスアラインメントプログラムBLASR [ref.3]およびGraphMap [ref.4]、ゲノムアセンブリプログラムcanu [ref.5]およびminiasm [ref.6]、構造バリアントコーラーPBHoney [ref.7]およびSniffles [ref.8]など、バイオインフォマティクスツールおよびアルゴリズムはますます増えている。さらに、PacBioシーケンスは複数のバージョンで迅速に開発された。（一部略）

　PacBioリードの特性は、第2世代のシーケンスリードの特性とはまったく異なる。約10〜15 kbのリードを生成できる。これは、既存の第2世代のシーケンス方法よりもはるかに長い。長いリードによりゲノム上でリードのマッピング位置をより正確に決定できるため、大きな構造変化がリピートまたは複雑な領域にまたがる場合に役立つ。したがって、長いリードは、repetitive領域および大きな構造変異の分析において優位性を示す。対照的に、第2世代のシーケンシングでは、アセンブルやギャップが発生する可能性がある。ただし、ベースごとのエラー率は、第2世代のシーケンステクノロジの1％に比べて約15％になる可能性があり、indelエラーが支配的である[ref.11]。それにもかかわらず、一分子の環状シーケンスまたはマルチパスシーケンスにより、高いエラー率を緩和することができる。シーケンシングプロセスでは、環状テンプレートを使用して、標的分子の順方向鎖と逆方向鎖を複数回シーケンスすることができる[ref.12]。polymerase readと呼ばれる出力配列は、subreadsと呼ばれる複数のリードに分割できる。これらのsubreadsのコンセンサスを生成することにより、最終出力シーケンシングのリードクオリティを向上させることができる。スループットはまだ低いが、最新のシーケンサーSequelは、古いシーケンサーPacBio RSIIよりも7倍から10倍多くのシーケンスを生成できる。実行ごとに5〜10Gbの約365 k〜500 kのリードを生成できる[ref.13]。さらに、NGSメソッドと比較して、PacBioシーケンスは高速で、GCバイアスがない[ref,14]。

　現在、PBSIM [ref.15]、LongISLND [ref.16]、NPBSS [ref.17]など、PacBioのリードをシミュレートするためのツールがいくつか存在する。これらのシミュレータはすべてリード長の分布を推定できるが、PacBioプラットフォームのマルチパスシーケンスを考慮するのはLongISLNDのみである。 PBSIMは、モデルベースまたはサンプリングベースの方法を使用してリードをシミュレートできる。ただし、PBSIMのリード長の分布は、現在のデータとは一致しない。 LongISLNDは、ホモポリマー依存のバイアスに対処するために、拡張kmerと呼ばれるシーケンスコンテキスト依存メソッドを採用しており、複数のファイル形式で出力できる。 NPBSSは、シミュレーションに長い時間がかかりるものの、実際のエラー率とクオリティ値（QV）の関係を使用できる。最新のシーケンサーSequelのシーケンスでは、固定クオリティ値（QV）が使用されたため、QVは実際のエラー率を表さないのに対して、PBSIMおよびNPBSSのシーケンスエラーのシミュレーション方法はQVに基づいている。さらに、LongISLNDはSequelデータのファイル形式を処理できない。とりわけ、これらの3つのシミュレーターは、アラインメント結果からのアラインメントされた領域のみに基づいてシーケンスエラーモデルを構築したため、シーケンスエラー、特に品質の低い領域に関する情報が欠落していた。

　シーケンス技術の革新をキャッチし、既存の方法を改善するために、新しいPacBioシーケンスシミュレータPaSSを提案する。 PaSSは、実際のPacBioデータからカスタマイズされたシーケンスパターンモデルを生成し、カスタマイズされたまたは経験的なシーケンスモデルを使用して、入力リファレンスゲノムのsubreadsを生成できる。最後に、PaSSといくつかの一般的な既存のシミュレーターを比較する。結果とアセンブリテストは、PaSSがPacBioリードを高い忠実度でシミュレートできることを示している。

インストール

依存

Linux operation system, memory 1G or up; Perl and gcc is needed.

HPからダウンロードする。

http://cgm.sjtu.edu.cn/PaSS/

wget http://cgm.sjtu.edu.cn/PaSS/src/PaSS.tar.gz
tar xzvf PaSS.tar.gz
cd PaSS/
gcc -lm -lpthread PaSS.c -o PaSS

> ./PaSS

$ ./PaSS

This is a sequencing simulator for PacBio sequencing: PaSS.

PaSS can be helpful to evaluate or develop tools for PacBio sequencing.

Usage: ./PaSS [options]

[options]:

-list <input_file> percentage.txt

-index <index_file> index

-m <sequencing_method> 'pacbio_RS' or 'pacbio_sequel'.

-c <error_model_file> error model file. e.g. 'sim.config'.

-r <reads_number> number of reads to generate.

-t <threads_number> number of threads to use.default is 1.

-o <output_file> output file.

-d If '-d' is set, the ground truth of simulation will output concurrently.

テストラン

１、シミュレートするゲノム配列のindexファイル作成

perl pacbio_mkindex.pl E.coli/ecoli_ref.fa ./

カレントに indexとpercentage.txtができる。

２、 indexとpercentage.txt、エラーモデルファイルsim.configを指定する。シーケンシングマシンはRSかsequelを選ぶ。

./PaSS -list percentage.txt -index index -m pacbio_RS -c sim.config -r 1000 -t 4 -o out

-list percentage.txt
-index index file
-m pacbio_RS or pacbio_sequel, the sequencer that can choose
-c the profile that generated in the error model stage. sim.config is the profile of the example dataset. There are three profiles prepared for E.coli,C.elegan and A.thaliana respecti
-r number of reads to simulate
-t number of threads to use, default is 1.
-o name of output file
-d If '-d' is set, the ground truth of simulation will output concurrently.

リアルデータを使ったエラーモデルの作成方法はHPで確認して下さい。

引用

PaSS: a sequencing simulator for PacBio sequencing
Wenmin Zhang, Ben Jia, Chaochun Wei

BMC Bioinformatics. 2019; 20: 352. Published online 2019 Jun 21

関連

2019-09-10

fungiのゲノムアセンブリ完全性評価ツール FGMP

2019 BMC Bioinformatics assembly evaluation tool phylogenetic marker genes fungi テスト失敗

　ハイスループットシークエンシングおよび分析ツールの最近の爆発により、培養不可能な生物を含む生命のツリーを横切るほぼ全ての種のシークエンシングがより容易かつ安価になった。しかしながら、これらのゲノムの質と完全性は、リピート領域をアセンブリするチャレンジと可変または不十分なシーケンシングカバレッジ[ref.1]のために変化する可能性がある。microbial dark matter project [ref.2 link]、 Human Microbiome Project [ref.3]または1000 fungal genomes project（http://1000.fungalgenomes.org）などの大規模シーケンシングプロジェクトは、何千もの微生物ゲノムアセンブリを生み出してきた。ドラフトデータの迅速な作成と公開により、病理学、進化、および酵素またはpathwayの発見の研究に広く使用される重要かつ有用なデータセットとして貢献できる。ドラフトゲノムの質と完成度が様々であると、遺伝子量、 transposable element の量、ゲノムサイズに関して推論に影響を与える可能性がある。それから推論することができる情報の質のコンテキストを提供するためにゲノムの完全性を定量化する必要がある。この研究はまた、系統特異的な遺伝子の喪失が、特に真菌において進化における重要な推進力であるという観察によって動機付けられており[ref.4, 5]、欠けている遺伝子のパターンについて描かれた結論の正確さは類似の品質ゲノム間の比較を必要とする。

　ゲノムの品質と完全性を評価するためのアプローチは、ほぼ100の異なる測定基準を使用して提案されています[ref.6]。残念なことに、これらの測定基準のほとんどは一般に非モデル種には適用できない。なぜならそれらは高価であるか、または多数のものを取得するには実行不可能であるかなりの量の追加の高品質データ（例えばフォスミド、リファレンスゲノム、optical maps）を必要とする。現在のところ、アセンブリの欠落データ量を事前知識なしに見積もることを試みる方法はほとんどない。最も一般的なアプローチの1つであるCEGMAは、248のシングルコピーマーカー遺伝子セットの存在により完全性を推定する[ref.7、8]。 CEGMAは数多くの研究で使用されてきたが、重要な問題はマーカーが6つのモデル真核生物種から選択されただけであり、より遠い系統がサンプリングされるためこれらのマーカーの遍在性と検出は矛盾することである。 CEGMAは最近サポートが中止されており、著者は代替ツールの使用を推奨している（http://www.acgt.me/blog/2015/5/18/goodbye-cegma-hello-busco）。この概念は最近BUSCOでクレードに焦点を絞ったタンパク質コーディング遺伝子マーカーのセットで再検討され更新された[ref.9]。 246のシングルコピー真菌遺伝子ファミリーの別のセットがFUNYBASEによって提案された[ref.10]。後者は一連の保存された真菌遺伝子を提供するが、そのツールはゲノムの完全性を評価するために明確に開発されていない。さらに、FUNYBASEデータベースは2010年に作成されたが、多様な真菌ゲノムのより幅広いサンプリングが利用可能になった[ref.11 link]。

　完全性を評価するための独立したマーカーのデータセットを構築するためには、典型的には、シングルコピーオルソログ遺伝子が選択される。マルチコピー遺伝子ファミリーはこれらの選択において系統的に除外されているが、それらの有用性、ならびに代替の非タンパク質コード遺伝子マーカーは、ゲノムの完全性を評価する際に十分に検討されていない。ゲノムアセンブリの2つの要約統計量は、品質と完全性を評価するために頻繁に使用される。アセンブリの断片化レベルを記述するN50およびL50統計[ref.12]は、アセンブリのscaffoldsまたはcontigsの長さに基づいて計算される（一部略）。

　本研究では、真菌界に焦点を当てた。真菌のゲノムサイズは、数メガベース（Mb）から1000 Mb近くまでさまざまである[ref.11]。この論文の主な動機は真菌ゲノムのためのアセンブリの完成度の現実的な推定を提供することである。精度は、不完全なアセンブリによって人工的に断片化されているように見えたり、系統によっては急速に進化する遺伝子座によって失われたように見えたりする可能性がある遺伝子について、正確に識別する能力に依存する。遺伝子の内容からゲノムの完全性を計算する際には、遺伝子の性質、進化の軌跡、および損失の可能性を考慮する必要がある。本著者らは、マーカーの新規セットを提案し、FGMP（Fungal Genome Mapping Project）と呼ばれるゲノムアセンブリにおけるそれらの存在を評価するためのパイプラインを構築した。FGMPの多段階アプローチは、同定可能な真菌タンパク質と高度に保存された非コード領域を統合することによって以前のアプローチを拡張する。選択されたタンパク質マーカーは、シングルコピーマーカーとマルチコピーマーカーの両方を含み、以前に公表されたデータセットとのオーバーラップは50％のみで、完全性を評価するための異なる次元の配列進化を提供する。真菌ゲノムの高度に保存された非コード領域は、本著者らが開発しFGMPのゲノム完全性評価に組み込んだ新規のリソース源である。最後に、アセンブリの必要性を回避する、シーケンシングリードにおいてマーカーを検索するために、rarefaction analysisに結合されたmultisampling approachを使用する。したがって、研究者は、計算コストが高くなる可能性があるアセンブリを試みる前に、FGMPを使用することで手元にある一連のリードの品質を迅速に評価できる。最後に、様々な範囲のクオリティのゲノムアセンブリからなる246の真菌種についての最新の方法と本ツールを並べて比較した。 NCBI アセンブリアーカイブに1つ以上のアセンブリがリリースされ記録されている57の真菌種において、アセンブリの改善/低下を捉えた。本ツールのモジュール構造は、より複雑なパイプラインに簡単に組み込むことができ、ゲノムの完全性推定のための貴重なツールになる。　

　FGMPの典型的な実行は3つのステップから成る。第一に、生の遺伝子モデル（タンパク質）セットがクエリのアセンブリから生成され、それはその後のステップでさらにフィルタリングされ高信頼性遺伝子になる。第二に、高度に保存された非コード真菌DNA elements（> 200ヌクレオチド）の存在が推定される。第三に、possibleミスアセンブリまたは崩壊した重複領域を追跡するため、遍在性マルチコピータンパク質ファミリーのコピー数を決定する。 FGMPのワークフローを論文図1に示し、その方法論を次のセクションでさらに詳しく説明する。 FGMPはメタゲノムアセンブリの完全性を評価することを意図していない。入力データは単一の種に属すると期待され、バクテリアコンタミネーションは事前に除去する必要がある。

f:id:kazumaxneo:20190422234225p:plain

The FGMP workflow.　論文より転載。

インストール

依存

System requirements

Perl 5 (tested with the version 20)
BioPerl-1.6.924 http://bioperl.org
HMMER v3.0 http://hmmer.org/
NCBI BLASTALL (tested using version 2.2.31+) ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/2.2.31/
Exonerate (tested using version 2.2.0) https://www.ebi.ac.uk/about/vertebrate-genomics/software/exonerate
Augustus (tested using version 3.0.3) http://augustus.gobics.de/

本体　Github

#Anaconda環境ならcondaで
conda install -c bioconda fgmp

condaではperlのライブラリの一部が@INC配列に認識されなかった。cpanmで手早く導入（-lでパス指定）。

cpanm IO/All.pm

本体のfgmpも認識されない。git cloneしてsrc/fgmp.plを直接叩く。

git clone https://github.com/stajichlab/FGMP.git
cd FGMP/src/

> perl fgmp.pl

# perl fgmp.pl

fgmp

SOFTWARE:

fgmp - 1.0.2

USAGE

fgmp [options] -g < genome_fasta_file >

DESCRIPTION

REQUIRES

fgmp requieres the installations of the following softwares

- hmmer (HMMER 3.0)

- NCBI blast+

- Exonerate

- BioPerl xxx

- IO::All

- Emboss sixpack & csplit

ENVIRONMENT VARIABLES

You can specific the path where the fgmp can find the default files

with the shell variable "fgmp".

o Using a Bourne-SHell

export FGMP="path"

export FGMPTMP="path"

export PERL5LIB="$PERL5LIB:$FGMP/lib"

COMMAND-LINE OPTIONS

Available options and a short description are listed here;

-g, --genome genome in fasta format

-p, --protein protein seeds

-o, --output output file prefix

-d, --blastdb blast database for the genome sequence

-c, --cutoff_file profiles cutoff file

-m, --mark_file completeness markers

-r, --reads reads

--fuces_hmm fungal Ultra Conserved Elements (hmms)

--fuces_prefix fungal Ultra Conserved Elements (names - one per line please!)

--multicopies default: multicopy genes from 1FKG data

-t, --tag tag to use OMA for fgmp, FUNY (Funybase) or CEG (cegma)

-T, --threads Specify the number of processor threads to use

-v, --verbose show progress

-q, quiet suppress show log

-h, --help show this help

--tmp keep temporary files

-augTraingCutoff specify the num of genes for augustus training

--nsampleSize Specify the # of samples for "SEARCH IN READS" module

--nsampleSize Specify the sample size for the "SEARCH IN READS" module

BUGS:

Please report bugs to 'ousmanecis@gmail.com'.

AUTHORS:

fgmp has been developped by Ousmane H. Cisse and Jason E. Stajich.

GNU-GPL (C) date fgmp

テストラン

ドラフトゲノムのfastaを指定する。

perl fgmp.pl -g ../sample/sample_test.dna > fgmp_report.out

パスが違ったり割と色々なエラーが起きる。修正できたら追記します。

引用

FGMP: assessing fungal genome completeness

Ousmane H. Cissé, Jason E. Stajich
BMC Bioinformatics 2019 20:184

関連

2019-09-09

ユーザー指定の文献リストを使って文献を仕分ける分類器 BioReader

2019 BMC Bioinformatics web tool database 文献検索

　現在、生物医学科学が直面している「ビッグデータ問題」は、分析能力を超えるゲノム配列、プロテオミクス、トランスクリプトームおよびメタゲノムプロファイルなどの大量のraw biological dataによるものである。生物医学文献でも同様の傾向が観察されている。生物医学文献は、現在2700万以上の文献から構成されており、毎年ほぼ100万の新しいpublicationsが増え続けている。科学文献のニッチのトピック中でさえ、文献数は手に負えないことがありえる：執筆の時点で、腫瘍抑制遺伝子p53だけについて91M以上の文献がPubMedにある（2018年8月25日に検索用語“ p53”） - ドメインの専門家にとってさえ圧倒的な文献量になる。「big literature」問題は、より多くの注目を集め、そしてさらに多くの引用を受ける引用論文の循環的な効果によって増幅される。 2010年に発表された文献の約0.5％のみが30を超える5年 impact factor を持ち、84％は5を下回る5年 impact factor を持ち、そしておよそ15％は決して引用されないだろう（http：// opencitationsからのデータ）。論文図1参照。
　引用メトリクスに関係なく、多くの論文は潜在的に価値のある情報を含み、いくつかの科学プロジェクトはMetaCycを含む非常に有用なデータベースを編集するためのデータと一次文献からの情報の抽出によって組み立てられたデータベースの手動キュレーションに基づいている。 [ref.2]、免疫エピトープデータベース（IEDB）[ref.3]、および腫瘍T細胞抗原データベース[ref.4]。具体的なユースケースには、ペプチドワクチン接種のためのT細胞エピトープ配列[ref.5、6、7]の検索、またはインシリコ癌免疫療法標的選択に有用な分子表面マーカー発現測定[ref.8]が含まれる[ref.9]。典型的なキュレーションプロセスは論文図2に概説されている。最初に、PubMedなどの文献データベースの基本的または高度な検索機能を使用して予備的な文献検索が行われる。これにより、関心のあるデータまたは情報を潜在的に含む文献リストが得られる。手作業による検査では、これらの文献の一部は関連性があると判断され、その内容に対してマイニングされるが、一方、一部の文献は無関係であることが判明する。その後、これらのコーパスを使用して、将来の検索の分類のためのトレーニングセットを作成することによって、今後の検索方法を改良することができる。これは、学芸員が時間を費やす無関係な文献数を最小限に抑えることによって、キュレーションプロセスを大幅にスピードアップすることが証明されている[ref.5、6、7]。訓練データセットは分類の各反復で拡張され、それにより分類アルゴリズムの性能が向上する。
　したがって、分類技術は生物医学文献の全コーパスからの体系的な知識抽出を容易にする。より広いコミュニティがこのワークフローから利益を得ることを可能にするために、著者らはPubMed、Google Scholarなどに固有の単純なキーワード検索機能を上回る文献分類と検索を行う、テキストマイニング、機械学習、バイオインフォマティクスから関連する方法をWebサービスに実装した。より良い、よりきめの細かい分類を達成する際のBioReaderの有用性を説明するために、そのパフォーマンスを最も類似している既存のWebサービスMedlineRanker [ref.10]と比較し、その方法を使用したいくつかのユースケースについて説明する。

instructions

BioReader - Biomedical Research Article Distiller

Bioinformatics Tools

http://www.cbs.dtu.dk/biotools/

BioReaderの仕組み

ステップ１、トレーニングに使う文献のabstract抽出。2つのリスト（例えば、興味のあるコンテンツについてのポジティブとネガティブに対応するPubMed ID）から、NCBIのEntrezプログラミングユーティリティEユーティリティを使用してabstractを抽出する。

ステップ２、テキストの前処理とコーパスの形成。abstractを検索し、次の操作が実行される。小文字変換、単語の削除の停止、句読点の削除、単語のステミング、スペース削除。多くの遺伝子名に数字が含まれているので、数字は削除されない。操作はすべて、Rの「NLP」および「tm」パッケージを使用して実行される。

ステップ3、用語の行列形成と分類器の訓練コーパス形成後、テキストを document term matrices（DTM）でトークン化し、単語数は用語頻度 - 逆文書頻度変換するRのtmパッケージによって補正される。得られた訓練コーパス DTMは、10種類の分類アルゴリズム（使われたアルゴリズムは論文で確認してください。ツールレベルではRTextToolsが中心に使われているようです）のトレーニングとテストに使用される。最良の実行アルゴリズムが決定され、そのアルゴリズムにより分類されるリストは２つのクラスのうちどちらかがアサインされる。

本アルゴリズムを使い文献を集め、データベースも作成されています（Document example3より）。

Immune Epitope Database

使い方

http://www.cbs.dtu.dk/services/BioReader/ にアクセスする。

Pubmed IDを指定する。元のデータセットの数とクオリティが結果に大きく影響して来るため、手動で選抜することが推奨されている。最小でも20のリストを与える必要がある。ただし、精度をあげるため100以上の文献でトレーニングすることが推奨されている。上限は1000となっている。

左端のウィンドウに研究している内容に関連ある文献のPubmed ID、中央のウィンドウに研究している内容に関連ない文献のPubmed ID、右端のウィンドウに分類したい文献のPubmed IDをそれぞれ入力する。ここではExample データをランする。

f:id:kazumaxneo:20190909025926p:plain

3つのウィンドウそれぞれ1つでもオーバーラップがあるとエラーが出るので注意する。

Pubmed IDはPubmed検索時に取得できる。右上のFile => PMID LIst

f:id:kazumaxneo:20190909032351p:plain

Exampleラン結果。ジョブが終わるまで数分かかった。結果はPrecision、RecallとそのF scoreとして計算される。

f:id:kazumaxneo:20190211230109p:plain

分類結果の表も表示される。Class Iが関連あると判断された文献、Class2が関連ないと判断された文献になる。

f:id:kazumaxneo:20190211230049p:plain

表はソートや発表年でフィルタリングできるようになっている。

感想

"long read assembly”でヒットした文献のIDをpositive、"sanger sequencing assembly"でヒットした文献のIDをnegativeとして、"overlap layout consensus”の文献を分類してみた。結果は、ドライのMethodよりも特定の生き物のアセンブルが中心にClass Iに分類された。もう少し頑張ってリストを峻別するとより良い結果を出せると感じました。

引用

BioReader: a text mining tool for performing classification of biomedical literature

Christian Simon, Kristian Davidsen, Christina Hansen, Emily Seymour, Mike Bogetofte Barnkob, Lars Rønn Olsen
BMC Bioinformatics 2019 19 (Suppl 13) :57

関連

2019-09-08

tRNA配列を比較する tRNAviz

2019 Nucleic Acids Research tRNA web tool 結果の視覚化 (visualization) 系統解析

　比較研究および豊富なシーケンシングに基づく分子アッセイに何千ものゲノムが利用可能な現在、tRNA遺伝子の全相補体がどのように展開され調節されるかについての我々の理解が進んでいる。トランスファー RNA（tRNA）はタンパク質翻訳の中心であり、さまざまな機能において細胞代謝の調節因子として作用することが知られている（ref.1〜3）。これらの機能は、最終的にはtRNA遺伝子の一次ヌクレオチド配列に関係している。これは生命の領域を超えて種によって驚くほど変化し、この分子の絶え間ない進化を証明している（ref.4–7）。多くの種、特に多細胞真核生物において、名目上同じ翻訳機能を実行する、同じアンチコドンを有するtRNAの複数の異なるバージョン（isodecoders）がしばしば存在する（ref.8、9）。しかしながら、多様なisodecodersの調節、処理および特定の生物学的役割におけるいかなる差異も、大部分は探求されていない。 tRNAのライフサイクルと機能は膨大な数のタンパク質によって調節され、その多くはtRNA転写産物と直接相互作用し、細胞内で最も高密度に修飾されたRNAを生成する（ref.2,10–14）。体細胞性または生殖細胞系のtRNA変異（例、一塩基多型）が個々のtRNAとタンパク質の相互作用をどのように変化させるかは、大多数のtRNAおよびtRNAプロセシングタンパク質では明確に定義されていない。例えば、哺乳動物ゲノムには一般に４〜５個のArg-TCT isodecodersがあるにもかかわらず、単一のユニークなArg-TCT isodecodersが哺乳動物ゲノムには高度に保存されており、正常な脳機能において重要な役割を果たす（ref.15）。特殊化した機能を持つtRNAのさらに多くの症例が、生命の領域を通して発生する可能性があり、それらは保存パターンの例外を調べることによって同定することができる。

　数千のシークエンスされたゲノムと数十万のtRNA遺伝子（ref.16-18）の中で、個々のtRNAの位置のレベルであらゆるクレードの保存パターンを調べるユニークなopportunityがある。ただし、tRNAの比較ゲノム解析のために設計されたいくつかのツールは、クエリの柔軟性とシーケンスデプスを欠いている。 tRNA db（ref.16）、tRNA DB-CE（ref.17）、およびGtRNA db（ref.18）には、クレードおよびアイソタイプによってtRNAをフィルタリングするための強力な検索エンジンが含まれているが、さらなる分析はこれらの配列のダウンロードおよび探索に限定される。A landmark comparative analysis of tRNAs（ref.5）は包括的ではあるが、わずか50のゲノムを用いてシーケンシング時代初期に行われた。生命の3ドメインにおけるコドン節約の徹底的な分析（ref.19）は1000以上の追加のゲノムを利用したが、アンチコドン（tRNAの位置34〜36）にのみ焦点を合わせた。

　本著者らは、ウェブブラウザを用いて任意の研究者によるtRNA配列の保存パターンの研究を容易にするためにtRNAvizを開発した。 tRNAvizは、コンセンサス機能の要約、異なる系統学的クレードの任意の組み合わせにわたる配列機能の分布のグループ化および視覚化を行い、ユーザー提供のtRNA配列のあらゆる位置の標準的または非定型的性質を確率論的に評価できる。すべてのビジュアライゼーションはpublication品質の図としてダウンロード可能で、1500以上の種からの15万以上のtRNAが比較およびカスタムビジュアライゼーションに利用できる。

about

http://trna.ucsc.edu/tRNAviz/about/

使い方

http://trna.ucsc.edu/tRNAviz/taxonomy/#にアクセスする。

Compareには3つのモードがある。

f:id:kazumaxneo:20190908020051p:plain

speciesレベルで比較するBy Speciesを選んでみる。

比較するspeciesをタイプする。

f:id:kazumaxneo:20190908020352p:plain

調べるポジション、isotype、アンチコドンを選択する。

f:id:kazumaxneo:20190908020521p:plain

さらに追加するにはAdd focusをクリックする。

頻度が表示される。この部位はどちらの生物もC（緑色）かU（青色）が占めている。

f:id:kazumaxneo:20190908021507p:plain

カーソルを合わせると詳細が表示される。

sequenceからは、全ポジションを直接比較できる。

f:id:kazumaxneo:20190908024114p:plain

Summaryからは、cladeや生物名をタイプして全部位の要約を表示できる。

f:id:kazumaxneo:20190908024727p:plain

f:id:kazumaxneo:20190908024735p:plain

f:id:kazumaxneo:20190908024743p:plain

f:id:kazumaxneo:20190908024741p:plain

f:id:kazumaxneo:20190908024748p:plain

taxonomy - Reference clade-specific aggregated tRNA annotations across taxonomic ranks

f:id:kazumaxneo:20190908020136p:plain

f:id:kazumaxneo:20190719005606p:plain

f:id:kazumaxneo:20190719005818p:plain

引用

tRNAviz: explore and visualize tRNA sequence features
Brian Y Lin, Patricia P Chan, Todd M Lowe
Nucleic Acids Research, Volume 47, Issue W1, 02 July 2019, Pages W542–W547

2019-09-07

Functional enrichment analysisとID変換を行う g:Profiler

functional enrichment analysis 2019 Nucleic Acids Research Gene ID Conversion web tool orthologue SNP protein domain GO enrichment analysis KEGG GMT format

2019 9/12 誤字修正、おかしな文章削除

　ハイスループット研究からの遺伝子リストの解釈には、最新のデータに基づいた有能で便利なツールが必要である。 Enrichr（ref.1）、WebGestalt（ref.2）、Metascape（ref.3）、KOBAS（ref.4）、AgriGO（ref.5）などのfunctional enrichment analysisツールがいくつか存在する。これらのツールのランドスケープは、さまざまなデータソース、種、識別子の種類、および方法をカバーする多様なものである。サービスの大半は、最も広く使用されているナリッジリソースGene Ontology（GO）（ref.6）のマッピングを提供するが、他のデータソースの選択はツールによって異なる。たとえば、Human Phenotype Ontology（ref.7）はEnrichr、WebGestalt、Metascape、およびg:Profiler（ref.1–3,8）で使用できるが、mirTarBase miRNAターゲット情報はEnrichrおよびg:Profiler（ref.1,8）などのいくつかのツールにのみ含まれる。特定の種に焦点を当てたサービスもある。 AgriGOは主に植物に関するデータを提供する（ref.5）。

　これらのツールは、さまざまな技術プラットフォームに実装されている。たとえば、WebGestaltには有名なWebサーバー（ref.2）があり、GSEAはスタンドアロンアプリケーション（ref.9）で知られる。Enrichrは、Webサービスに加えてRパッケージ（ref.1）もある。他のツールは、さまざまな技術プラットフォームにわたってユーザーにサービスを提供している。たとえば、g:Profilerは、WebクライアントとAPI、Python、Rパッケージを介してユーザーにサービスを提供し、Galaxyプラットフォームのツールとして利用できる（ref.10）。

　Functional enrichmentツールの入力遺伝子リストは、幅広い実験プラットフォームに由来し、それぞれがデフォルトでサポートされる一意の識別子タイプを持っている。ほとんどのツールは、可能な識別子の限られたサブセットのみを受け入れるため、ユーザーが外部ツールを介して克服する必要がある障害が存在する。 g:Profilerはこのハードルを回避でき、同じクエリで混在する可能性のある100種類近い識別子タイプを自動的に検出して受け入れる。このネームマッピング機能は、いくつかのツールへの相互運用機能としてすでに組み込まれて、独立したg:Convertサービスとしても提供されている（ref.11–13）。

　Functional enrichment analysisに使用される方法は、ツールによって異なる。EnrichrおよびWebGestalt（ref.1,2）と同様、g:Profilerは、超幾何テストを使用して入力遺伝子リストのFunctional termの有意性を測定する、最も広く使用されているover-representation解析アプローチを提供している。遺伝子リストの追加ランキング情報を考慮に入れる他の方法を提供するツールがある（WebGestalt、GSEA（ref.2,9））、または遺伝子調節ネットワークからの事前知識を使用する（WebGestalt（ref.2））。これらの方法にはすべて独自の制限があり、さまざまな方法を評価および比較するための優れたベンチマークデータがない（ref.14）。ユーザーに使いやすく高速なツールを提供するために、g:Profilerは1つのアプローチのみに焦点を合わせている。

　Enrichment analysis専用のツールのうち、最初のリリース後に継続的かつ最新のサービスを提供しているのはごくわずかしかない。 g:Profilerは、2007 NAR Webサーバーの問題で最初に公開されて以来、非常に重要であり、2011年と2016年に更新論文を出している（ref.8、15、16）。さまざまな科学分野の研究者を継続的にサポートするために、サポートされる種と遺伝子識別子の種類を増やし、データ更新頻度、プログラム可能なアクセス、コアの高品質データソースを年間を通じて安定的に維持している（論文図1）。基礎となるデータの複雑さとサイズが増大するにつれて、g:Profilerの完全な技術的書き換えを導入した。これにより、最新のユーザーインターフェースとプログラミングインターフェースを介してユーザーに迅速かつ便利にサービスを提供できるだけでなく、機能を追加して安定したサービスを維持するための新しい道を開く。

FAQ

https://biit.cs.ut.ee/gprofiler/page/faq

List of organisms

https://biit.cs.ut.ee/gprofiler/page/organism-list

使い方

https://biit.cs.ut.ee/gprofiler/gost にアクセスする。

１、 g:GOSt - 入力遺伝子リストからfunctional enrichment analysisを実行

g：GOStは500近い生物をサポートし、数百の識別子タイプを受け入れる。遺伝子を既知の機能情報源にマッピングし、統計的に有意に豊富な用語を検出する。 Ensemblデータベースと菌類、Ensembl Genomesの植物または後生動物、およびWormBase ParaSiteの寄生虫固有のデータから定期的にデータを取得している。 Gene Ontologyに加えて、KEGG、 Reactome、WikiPathways、 miRTarBaseのmiRNAターゲットとTRANSFACの規制モチーフマッチからのパスウェイ、 Human Protein Atlasの組織特異性、CORUMからのタンパク質複合体およびHuman Phenotype Ontologyからのヒト疾患表現型、が含まれる。

デフォルトでは、g:GOStはアノテーション付きのすべてのタンパク質コーディング遺伝子のセットをバックグラウンドとして使用する。一部の実験では、遺伝子またはタンパク質のサブセットを使う。例えば、疾患特異的遺伝子のみのターゲットシーケンスではカスタムバックグラウンド情報を使用することが推奨される。

遺伝子リストをウィンドウ内にペーストするか、アップロードする。

f:id:kazumaxneo:20190906044014p:plain

ラン前に右の設定を確認する。まず生物種を選ぶ。

f:id:kazumaxneo:20190907002258p:plain
代表的なモデル生物の他、Ensemblの様々な生物をサポートしている。

様々なフォーマットをサポートしている。Gene OntologyのIDの他、遺伝子名、領域指定、dbSNPのIDも使える。

f:id:kazumaxneo:20190907001319p:plain

データソースを選択する。GOの他、KEGG 、Reactome、Wikipathway、Human Protein Atlasなど選択できる。

f:id:kazumaxneo:20190907001225p:plain

選べるデータソースは生物によって変わる。

f:id:kazumaxneo:20190907001228p:plain

上のリストにないカスタムアノテーションから絞り込んだリストを使う場合、pathway IDとGO termなどの関係を示したGMT formatのファイルをアップロードする。

f:id:kazumaxneo:20190907001231p:plain

結果はマンハッタンプロットで示される。

f:id:kazumaxneo:20190906044054p:plain

図の他、遺伝子とtermに関する詳細な情報を示したテーブルも出力される。

f:id:kazumaxneo:20190907003037p:plain

f:id:kazumaxneo:20190907003039p:plain

図と表はダウンロードできる。

２、 g:Convert – 遺伝子識別子の自動変換と詳細の表示
さまざまな遺伝子、タンパク質、マイクロアレイプローブ、および他の多くを変換できる。Ensembl Biomartを使う。ヒトでは98種類の識別子に対応している。

f:id:kazumaxneo:20190907003240p:plain

複数混合していても対応する。

結果はCSVとしてダウンロードできる。

f:id:kazumaxneo:20190907004504p:plain

３、g:Orth – 生物種間でオルソログ遺伝子をマッピング
入力遺伝子リストに対応するターゲット生物種のオルソログ遺伝子を自動的に取得する。マッピングは、ユーザーが入力した入力遺伝子IDをEnsembl ENSG識別子に最初に変換し、次に対象種の対応するオルソロガスな遺伝子情報を取得することにより、2段階で実行される。

クエリの生物種、ターゲットの生物種を指定する。

f:id:kazumaxneo:20190907004934p:plain

よく研究されたモデル生物について収集された知識を、あまり研究されていない種に転送するために使用できる。例えばオルソログマッピング後にエンリッチメント解析を実行すると、元の種のみを使用した場合よりもわかりやすい結果が得られる場合があるとされる。

４、g：SNPense – SNP識別子マッピング
human SNP rsコード（rs7961894など）を遺伝子名に簡単にマップし、その染色体座標と予測される変異効果を取得できる。すべての基礎となるデータは、Ensembl Variation Dataから取得される。

f:id:kazumaxneo:20190907005136p:plain

バリアントエフェクトは、シーケンスオントロジーで定義されている、色分けされたバリアント結果のtermセットで説明される。

f:id:kazumaxneo:20190907005447p:plain

出力例

f:id:kazumaxneo:20190907005522p:plain

g:Profilerはユーザーがアップロードしたカスタム GMT ファイルもサポートしています。これにより、g:Profiler はあらゆる生物のデータを分析することができます。

2020 2/1追記

統合TVの解説

https://togotv.dbcls.jp/20200127.html

引用

g:Profiler: a web server for functional enrichment analysis and conversions of gene lists (2019 update)
Uku Raudvere,1 Liis Kolberg,1 Ivan Kuzmin,1 Tambet Arak,1 Priit Adler,1,2 Hedi Peterson,1,2and Jaak Vilo

Nucleic Acids Res. 2019 Jul 2; 47(W1): W191–W198

関連

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

リードやコンティグ配列のリード長ヒストグラム

シングルセルとメタゲノムに対応したIDBA-UDアセンブラ

Pacbioのロングリードのシミュレータ PaSS

fungiのゲノムアセンブリ完全性評価ツール FGMP

ユーザー指定の文献リストを使って文献を仕分ける分類器 BioReader

tRNA配列を比較する tRNAviz

Functional enrichment analysisとID変換を行う g:Profiler