2019-09-06

興味があるタンパク質情報を文献やデータベースからマイニングする PaperBLAST

　ゲノムシーケンスは、タンパク質の機能が決定される速度をはるかに超えて、新規タンパク質の発見を加速している（ref,1）。ゲノムシーケンスを解釈し、これらの予測されたタンパク質の役割のアノテーションを付けるには、新規タンパク質と特徴付けられたタンパク質の類似性に依存している。 30％を超える類似性を持つタンパク質は同様の機能を持っている可能性が高い（ref.2）が、酵素の基質を90％確信するためには、60％を超える類似性が必要な場合があります（ref.3）。

　残念ながら、アノテーションを作成するために使用されるタンパク質機能のデータベースは完全にはほど遠い。例として、Swiss-Protデータベース（ref.4）は、タンパク質に関する機能情報の最大のキュレーションリソースであり、約80,000のタンパク質に関する実験的証拠がある。それにもかかわらず、Swiss-Protキュレーターは、タンパク質機能に関する新しい論文の35％から45％だけをキュレートし、よく研究されたいくつかのモデル生物に焦点を当てている（ref.5）。「彼らは小規模な科学コミュニティによって研究された生物を積極的にキュレートするのに十分なリソースを持っていない」（ibid (ref.5)）。

　専門的なキュレーションに代わるものとして、テキストマイニングツールは、目的のタンパク質を議論する文献を見つけることができる（例えば参考文献6を参照）。生物学者はこれらのツールを使用して、興味のあるタンパク質に関する文献をすばやく見つけ、その機能をキュレーターに頼るのではなく、文献自体を読んでその機能を判断できる。ただし、これらのテキストマイニングツールのほとんどはモデル生物に焦点を合わせており、相同性によるアノテーションには適していない。具体的には、目的のタンパク質が与えられた場合に、類似のタンパク質に関する情報を検索するテキストマイニングツールを認識していない。 BLAST検索とUniProtおよびGenBankの文献へのリンクを組み合わせたツールがあるが（ref.7、9）、これらのツールは文献を検索しないため、対象範囲が制限される。

　相同性による検索のために文献にアクセスできるようにするために、PaperBLAST Webサイト（http://papers.genomics.lbl.gov/）を開発した。タンパク質識別子またはタンパク質配列が与えられると、PaperBLASTは、文献で議論されている類似のタンパク質を迅速に見つけ、それらのタンパク質およびそれらに関する文献へのリンクを提供する。

Example

　Pseudomonas fluorescens FW300-N2E3によるさまざまな炭素源の利用を研究しているときに、L-カルニチンの利用にはAO353_07705タンパク質が必要であることを発見した（10）。 2017年4月現在、AO353_07705はRefSeq（ref.11）で「（Fe-S）結合タンパク質」（NCBIアクセッション番号WP_054594379.1を参照）とアノテーションが付けられ、SEED（ref.12）によりpredicted L-乳酸デヒドロゲナーゼ、鉄硫黄クラスター結合サブユニットYkgF（GenBank accession no. FIG00138298を参照）。これらのアノテーションはどちらも、カルニチンの利用におけるこのタンパク質の役割を説明していない。 InterProScan（ref.13）またはUniProt（ref.4）に対するBLASTingを実行すると、同様のあいまいな情報が得られ、KEGG（14）は予測を提供しなかった。

　対照的に、PaperBLASTは、AO353_07705の多くのホモログに関する公開情報を発見した。2つの最も近いホモログは、シュードモナスの他の株からのものである（論文図1を参照）。検索には3秒もかからなかった。（P. syringaeからの）最も近いホモログに関する文献は、遺伝子調節について議論しており、機能的に有益ではないかもしれない。しかし、2番目のホモログに関する論文の1つである緑膿菌のPA5399は、グリシンベタインの異化とジメチルグリシンの脱メチル化に必要であると報告している（ref.15）。 PaperBLASTのスニペットではこのレベルの詳細は明らかではないが、スニペットにはPA5399のトランスポゾン変異株が記載されている。 AO353_07705がジメチルグリシンの分解に必要であるという仮説を考えると、AO353_07705の変異株の表現型を説明できる。（以下略）

PaperBLASTは、文献にリンクされているタンパク質配列からデータベースを構築する。これらのリンクは、EuropePMCの文献に対する自動テキスト検索と、GeneRIF、UniProtKB / Swiss-Prot、BRENDA、CAZy（dbCANで利用可能）、CharProtDB、MetaCyc、EcoCyc、REBASE、およびFitness Browserからの手動キュレーション情報から取得される。このデータベースとタンパク質配列クエリを考慮し、PaperBLASTはタンパク質-タンパク質BLASTを使用して、E <0.001の類似配列を見つける。

使い方

http://papers.genomics.lbl.gov/cgi-bin/litSearch.cgiにアクセスする。

例えば、論文と同じAO353_07705をタイプする。抽象的なワードより、IDなどの具体的なワードを使う方が研究対象のタンパク質の情報を含む文献にヒットしやすい。例えばchaperoneと打つよりはHSP90と打つ。

結果が表示される。

f:id:kazumaxneo:20190906024317p:plain

ヒットしたキーワードが赤になる。検索したAO353_07705という文字が含まれていないもの（例えばAO353_07705のホモログタンパク質の文献）も多数ある。

引用

PaperBLAST: Text Mining Papers for Information about Homologs
Morgan N. Price, Adam P. Arkin

mSystems. 2017 Jul-Aug; 2(4): e00039-17

2019-09-05

viral quasispeciesのハプロタイプを再構成する PEHaplo

2018 Bioinformatics quasispecies Viruses assembly assembly graph haplotype reconstruction

　高い突然変異率、自然選択および組換えは、RNAウイルス集団の高い遺伝的多様性につながる可能性がある（Domingo-Calap et al、2016）。これらはclosely relatedだが異なるウイルス株で構成されている。ウイルス集団のこれらのグループは、しばしばquasispeciesと呼ばれる（Nowak、2006）。これらの各系統は、そのハプロタイプ配列によって定義される。高速変異ウイルスのよく知られた例には、ヒト免疫不全ウイルス（HIV-1）やC型肝炎ウイルス（HCV）などの臨床的に重要なウイルスが含まれる。ウイルス集団の遺伝的不均一性は、適応行動の鍵である。自然選択は1つではなく一連の配列で機能し、遺伝的多様性が高いため、ウイルスは宿主の免疫応答を回避したり、薬剤耐性を発現したりし得る。ウイルスハプロタイプの再構築は、ウイルス集団の構造を特徴づけ、ウイルス表現型を予測し、最終的に臨床治療と予防に重要な情報を提供するための基本的なステップである（Schirmer et al、2014）。

　次世代シーケンシング技術の開発により、ハプロタイプの特性評価と異種ウイルス集団におけるそれらの豊富さが向上する。ウイルス集団サンプルの詳細なシーケンスが利用可能になり、ウイルスハプロタイプ再構築のためのさまざまな方法とツールが考案されてきた（Baaijens et al、2017; Jayasundara et al、2015; Malhotra et al、2015; Mangul et al、2014; Töpferet al、2014）。方法は、リファレンスゲノムへの依存に基づいて2つのグループに分けることができる（Beerenwinkel et al、2012）。メソッドの最初のグループは、リファレンスゲノムを必要とし、リファレンス配列に対するリードアライメントを使用してハプロタイプを推測する。ただし、突然変異率が高いため、ウイルス集団の高品質のリファレンスゲノムが常に利用できるとは限らない。特に、ブレイクアウトのリファレンスゲノムを欠くSARSなどの新興の感染性ウイルス疾患では、リファレンスベースの方法は妥当ではない。メソッドの2番目のグループは、リファレンスゲノムを必要としないde novoハプロタイプ再構成に属する。これらの方法は、新しいウイルス株または新しいハプロタイプを特徴付けることができる。著者らの仕事は2番目のグループに属している。

　ハプロタイプ再構成ツールの最近のレビューは、ハプロタイプのリカバリが計算上チャレンジングな問題であることを示している（Schirmer et al、2014 pubmed）。一連のデータに関する著者のベンチマーク結果は、シーケンスの相違が少ない場合、テストされたプログラムのパフォーマンスが低いことを示した。さらに、これらのプログラムはレアなハプロタイプを回復できなかった。したがって、より正確なハプロタイプの再構築のための新しい方法とツールに対する差し迫った必要性が生じている。

　レビューでテストされたプログラム（Schirmer et al、2014）はすべてグループ1に属し、入力としてリファレンス配列に対するアラインメントが必要である。リファレンス配列を使用せずに、ディープシーケンスデータからのハプロタイプ再構築の方法では、de novoゲノムアセンブリと同様の方法を使用する。ウイルスのハプロタイプの再構築にアセンブリを適用すると、いくつかの課題に直面する。最初の課題は、異なる系統の非常に類似したゲノムを区別することである。論文補足図S3および表S1は、対象のゲノム間の高い配列類似性を示している。既存のアセンブリ方法は、非常に類似したゲノムを含むディープシーケンスデータから短いまたはキメラのコンティグを生成する傾向がある。 2番目の課題は、シーケンスエラーをまれなハプロタイプの変異と区別するのが非常に難しいことである。 3番目の課題は、存在量の少ないハプロタイプを回復することである。

（複数段落省略）

論文図3に示すように、PEHaploのパイプラインは5つの主要なコンポーネントからなる。最初の前処理段階では、低品質またはあいまいなベースコールのリードがフィルター処理またはトリミングされる。塩基エラーまたはインデルは、アライメントベースのエラー修正ツールKarectを使用して、フィルター処理されたリードセットから修正される（Allam et al、2015）。 Karect（紹介）を選択したのは、最近公開されたものであり、エラー修正にk-merではなくリード全体を利用しているためである。Duplicatedリードと部分文字列のリードは、修正されたリードから削除される。詳細な前処理の説明は、補足資料セクションS2にある。第二に、Readjoiner（Gonnella and Kurtz、2012）によって計算されたオーバーラップを使用して、前処理されたリードからオーバーラップグラフが作成され、グラフを走査することでリードのストランドが調整される。ストランド調整に関する詳細な戦略については、論文補足資料セクションS3にある。出力のリードは同じ向きになる。第3段階では、Apspによって計算されたオーバーラップを使用して、ストランド調整済みのリードからオーバーラップグラフを再度構築し（Haj Rachid and Malluhi、2015）、さまざまなグラフのプルーニング手法を使用して、可能なランダムオーバーラップを削除し、効率的なアセンブリのためにグラフを単純化する。第4段階では、ペアエンドのガイド付きパス検索アルゴリズムが適用され、ペアエンドのオーバーラップグラフからコンティグが生成される。最後に、bowtie2（Langmead and Salzberg、2012）によって生成されたコンティグに対してペアエンドリードがアラインメントされ、潜在的な誤った結合を特定して修正する。

インストール

miniconda2.4.0.5環境でテストした（docker使用、ホストOS macos10.14）。

依存

Python 2.7.x
Python module: networkx 1.11
Apsp（git clone && make）

#networkx1.11
pip install networkx==1.11

#Apsp
git clone https://github.com/chjiao/Apsp.git
cd Apsp/
make

本体　Github

git clone https://github.com/chjiao/PEHaplo.git
cd PEHaplo/

> python pehaplo.py -h

$ python pehaplo.py -h

usage: pehaplo.py [-h] -f1 INPUT_F1 -f2 INPUT_F2 -l OVERLAP_LEN

[-l1 OVERLAP_LEN1] -r READ_LEN [-F FRAGMENT_LEN]

[-std FRAGMENT_STD] [-n DUP_N] [-correct CONTIG_CORRECT]

[-t THREADS] [-m MEMORY]

Program: PEHaplo - De novo haplotype reconstruction in virus quasispecies

using paired-end reads Version: 0.1 Contact: Jiao Chen - chjiao3456@gmail.com

optional arguments:

-h, --help show this help message and exit

-f1 INPUT_F1 input .1 part of paired-end fastq or fasta file

-f2 INPUT_F2 input .2 part of paired-end fastq or fasta file

-l OVERLAP_LEN, --overlap_len OVERLAP_LEN

overlap threshold between reads for reads orientation

adjustment

-l1 OVERLAP_LEN1, --overlap_stage1 OVERLAP_LEN1

overlap cutoff to remove potentially wrong overlaps

after merging linked cliques, default same as -l

-r READ_LEN, --read_len READ_LEN

reads length

-F FRAGMENT_LEN, --fragment_len FRAGMENT_LEN

paired-end reads insert size, default as 2.5*read_len

-std FRAGMENT_STD standard deviation of paired-end reads insert size,

default as 100

-n DUP_N, --dup_n DUP_N

the reads kept should be duplicated at least n times,

default as keep all the duplicates removed reads

-correct CONTIG_CORRECT

whether apply alignment based contigs

correction(yes/no), default = no

-t THREADS, --threads THREADS

threads for karect, sga, bowtie2

-m MEMORY, --memory MEMORY

maximal memory for readjoiner (xGB), default: 2GB

テストラン

cd PEHaplo
mkdir assembly
cd assembly
python ../apsp_overlap_clique.py ../processed_test_data/Plus_strand_reads.fa ../processed_test_data/pair_end_connections.txt 180 250 600 210

実行方法

python pehaplo.py -f1 pair1.fq -f2 pair2.fq \
 -l OVERLAP_LEN -r READ_LEN [-l1 OVERLAP_LEN1] [-F FRAGMENT_LEN] [-std FRAGMENT_STD] [-n DUP_N] [-correct CONTIG_CORRECT] [-t THREADS]

-f1 input .1 part of paired-end fasta file
-f2 input .2 part of paired-end fasta file
-l overlap threshold between reads for overlap graph construction
-l1 overlap cutoff to remove potentially error overlaps after merging linked cliques, default same as -l
-n keep the reads that are duplicated at least n times
-r reads length
-F paired-end reads insert size, default as 2.5*read_len
-std standard deviation of paired-end reads insert size, default as 100
-correct whether apply alignment based contigs correction(yes/no), default: no
-t threads for karect, sga, bowtie2

引用

De novo haplotype reconstruction in viral quasispecies using paired-end read guided path finding

Chen J, Zhao Y, Sun Y

Bioinformatics. 2018 Sep 1;34(17):2927-2935

2019-09-04

DAVIDデータベース

review 2009 Nucleic Acids Research database Gene ID Conversion RNA seq web tool GO enrichment analysis

2019 10/20 誤字修正

2019 10/26タイトル修正

　従来の生物学的研究アプローチでは、通常、一度に1つの遺伝子またはいくつかの遺伝子を研究する。対照的に、ハイスループットゲノム、プロテオミクス、およびバイオインフォマティクススキャニングアプローチ（発現マイクロアレイ、プロモーターマイクロアレイ、プロテオミクス、ChIP-on-CHIPなど）は、研究者がゲノムの変化と調節を同時に特定の生物学的条件下での幅広い遺伝子で測定できる代替技術として出現している。これらのハイスループットテクノロジーは、通常、最終的な出力として大きな「興味深い」遺伝子リストを生成する。しかし、大規模な「興味深い」遺伝子リスト（サイズが数百から数千の範囲に及ぶ）の生物学的解釈は、依然として困難で困難な作業である。過去数十年にわたって、公共データベースに蓄積された生物学的知識を使用したバイオインフォマティクス手法[e.g. Gene Ontology（ref.1）]により、最もエンリッチされた適切な生物学の要約を組み立て大きな遺伝子リストを体系的に分析することを可能にする。 Onto-Express、MAPPFinder、GoMiner、DAVID、EASE、GeneMerge、およびFuncAssociateなど（ref.2〜10）を含むがこれらに限定されない多くのハイスループットエンリッチメントツールが2002〜2003年に独立して初期研究として開発されている。それ以来、エンリッチメント解析分野は非常に生産的であり、より多くの同様のツールが一般に利用可能になった。 2005年、約14のそのようなツールが収集され、Khatriらによってレビューされた。

（一部略）
　過去数年間、バイオインフォマティクスエンリッチメントツールは、さまざまなハイスループット生物学研究のための大規模な遺伝子リストの遺伝子機能分析に貢献する非常に重要かつ成功した役割を果たしてきた。ただし、これらのバイオインフォマティクスエンリッチメントツールは、統一された方法やゴールドスタンダードがないため、まだ活発に成長および改善の段階にある。科学コミュニティでより多くのエンリッチメントツールが登場するにつれて、個々のツール開発グループまたはエンドユーザーは、自分の研究に対する既存のすべての研究の有用性を包括的に追跡することがますます困難になっている。この紛らわしいツールは、次のようないくつかの問題をもたらした。（i）圧倒的に多数のツール（論文の表１、約68ツール）の中で、ツールごとにアルゴリズム/機能を包括的に比較および記憶することが難しい。（ii）良い仕事が見落とされる可能性。（iii）開発者が分野の広さを把握するのが難しいため、すでに存在するアイデアを開発するための冗長な努力。（iv）開発者が最新の方法を認識していないため、新しくリリースされたツールで使用されている古いアイデア。（v）エンドユーザーが非常に多くの圧倒的な選択肢の中から、どのエンリッチメントツールが分析ニーズに最も適しているかを判断するのが難しい。

　この研究では、前述の状況に対処するための4つのセクションが含まれる。まず、現在利用可能な68のエンリッチメントツールを特定し (論文執筆時点)、その背後にある理論的根拠をさらに説明する。これにより、ツールの設計者、開発者、およびエンドユーザーは、既存のツールの全てではないにしても、ほとんどのツールを認識できるようになる。第二に、基礎となるアルゴリズムに従ってツールを3つの主要なカテゴリに一意に分類する。したがって、読者は、ツールごとのレイアウトを検索するのではなく、カテゴリロジックに従って68ツールのキーとなるスピリットをより簡単かつ迅速に把握できる。第三に、このペーパーでは、この分野に関連するいくつかの重要ではあるが、ほとんど回答のない質問や問題に焦点を当てる。議論される質問/問題が、より多くの注意、独立した思考、および分野での議論を促し、その後、近い将来により良いソリューションにつながることを願う。最後に、このペーパーは、フィールドの現在のステータスとトレンドで締めくくる。

（一部略）

ツールの開発者またはエンドユーザーが利用可能な多くのツールの中から特定の機能を検索しているとき、適切な分類なしに68すべてのツールの機能を理解することは簡単な作業ではない。ここでは、アルゴリズムの違いに基づいて、現在の（論文執筆時点）68のエンリッチメントツールを3つのクラス、Singular enrichment analysis （SEA）、Gene Set Enrichment Analysis (GSEA); modular enrichment analysis（MEA）に分類した。

　クラス1：SEA
エンリッチメント解析の最も伝統的な戦略は、ユーザーが事前に選択した（例えば、P値≤0.05および倍率変化≥1.5のt検定による実験サンプルと対照サンプル間で選択的に発現した遺伝子）「興味のある」遺伝子を取得し、線形モードで各アノテーションterm1つずつのエンリッチを繰り返しテストすることである。その後、エンリッチメントP値の閾値をパスしエンリッチメントされた個々のtermは、エンリッチメント確率（エンリッチメントP値）の順に並べられ表形式でレポートされる。エンリッチメントP値の計算、つまり純粋なランダムチャンスと比較して特定の生物学的クラスに有意にヒットするリスト内の遺伝子数は、いくつかの一般的によく知られた統計的手法（11,12,76）を使用して実行できる。これにはカイ二乗、フィッシャーの正確確率検定、二項分布、超幾何分布などが含まれる（表1）。エンリッチメントのP値に関する詳細は、このペーパーの後半のセクションで説明している。

SEAの戦略と出力形式は単純だが、SEAは、あらゆる種類のハイスループットゲノム研究またはバイオインフォマティクスソフトウェアパッケージから生成される可能性のある、大きな遺伝子リストの背後にある主要な生物学的意味を抽出する非常に効率的な方法である。初期のツールのほとんど（GoMiner、Onto-Express、DAVID、EASEなど）と最近リリースされた多くのツール（GOEAST、GFinderなど）は、この戦略を採用し、多くのゲノム研究で大きな成功を収めた。ただし、このクラスのツールの一般的な弱点は、termの線形出力が非常に大きく、数百から数千に及ぶことである。したがって、データ分析者の焦点と関連termの相互関係を薄めることがあり得る。たとえば、アポトーシス、プログラムされた細胞死、アポトーシスの誘導、抗アポトーシス、アポトーシスの調節などの関連するGO termは、大きな線形出力のさまざまな位置に広がっている。数百または数千の他のtermの中で、関連する生物学termの相互関係に焦点を合わせるのは困難である。さらに、事前に選択された遺伝子リストの品質は、エンリッチメント解析に大きく影響する可能性があり、異なる統計的手法またはカットオフしきい値を使用すると、SEA分析がある程度不安定になる。

　クラス2：遺伝子セット濃縮分析（GSEA）
GSEAはSEAの核心を担うが、SEAと比較してエンリッチメントP値を計算する明確なアルゴリズムを備えている（35）。この分野の人々は、GSEA戦略に大きな関心と期待を寄せている。GSEAのユニークなアイデアは、「カットオフなし」戦略であり、重要な遺伝子を選択せずにマイクロアレイ実験からすべての遺伝子を取得する（例：P値≤0.05および倍率変化≥1.5の遺伝子）。この戦略は、2つの側面でエンリッチメント解析に役立つ。1）従来のエンリッチメント解析に影響を与える可能性のある、典型的な遺伝子選択ステップの任意の要因を削減する。2）マイクロアレイ実験から得られたすべての情報を使用して、選択閾値を超えることができない最小の変化遺伝子をさまざまな程度でエンリッチメント解析に寄与できるようにする。最大エンリッチメントスコア（MES）は、アノテーションカテゴリのすべての遺伝子メンバーのランク順から計算される。その後、MESをランダムにシャッフルされたMES分布（Kolmogorov–Smirnovのような統計）に一致させることにより、エンリッチメントP値を取得できる（35）。 ErmineJ（31）、FatiScan（55）、MEGO（36）、PAGE（29）、MetaGF、Go-Mapper（22）、ADGO（45）など、「ノーカットオフ」戦略を使用するGSEAクラスのその他のエンリッチメントツール）など、zスコア、t検定、順列分析などのパラメトリック統計アプローチを採用している。これらのアプローチは、すべての遺伝子の実験値（たとえば、倍数変化）を各アノテーションされたtermの計算に直接取り込む。総じて、総実験値を機能データマイニングに統合する最近のGSEAツールは、従来のSEAを補完する多くの可能性を持つ興味深いトレンドである（47,77–79）。

ただし、GSEAクラスのツールには、いくつかの一般的な制限も関連付けられている。まず、「カットオフなし」戦略はGSEAの主な利点だが、多くの生物学的研究において大きな制限になりつつある。GSEAメソッドでは、入力としてゲノム全体の遺伝子のそれぞれについて、要約された生物学的価値（例：倍数変化）が必要となる。生物学的研究とゲノムプラットフォームが複雑な場合、遺伝子の多くの生物学的側面を1つの意味のある値に要約することは困難な場合がある。たとえば、SNPマイクロアレイに由来する各遺伝子は、サイズ、P値、物理的距離、疾患領域、LD（連鎖不平衡）強度およびSNP遺伝子の位置（エクソン、またはイントロン) など。このような生物学のさまざまな側面を1つの包括的な値にまとめることは、まだ非常に実験的な手順である。同様の課題は、新興のゲノムプラットフォームの多く（SNP、エクソン、プロモーターマイクロアレイなど）で見られる場合がある。例の状況は、GSEAで必要な入力データ構造の要件で完全にまたは部分的に失敗する。別の例として、多くの臨床マイクロアレイ研究には、疾患/正常、年齢、性別、薬物治療/制御、試薬バッチ効果、動物バッチ効果などの複数の因子（交絡因子のこと）/バリアントが同時に含まれる。 ANOVA、時系列分析、生存分析などは、多変量、複数のタイムポイント、バッチ効果などを同時に処理して、データマイニングの興味深い遺伝子リストを作成するより強い検定力になる。多くの同様のケースでは、上流のデータ処理と包括的な遺伝子選択統計を単純に回避したり、GSEAに置き換えることはできない。さらに、より高い位置にランク付けされた遺伝子（通常、より大きな違い、たとえば倍数変化を伴う）は、GSEAのエンリッチメントのP値を駆動する（非常に重要な）大きな検定力である。したがって、根本的な仮定は、大きな調節（例えば、倍数変化）を持つ遺伝子が生物学により貢献しているということになる。明らかに、これは実際の生物学では必ずしも真実ではない。生物学者は、いくつかのシグナル伝達遺伝子の小さな変化が下流の生物学的影響を大きくする可能性があることを知っている。対照的に、代謝遺伝子のいくつかの大きな変化は、他の小さいが重要なシグナル調節イベントの結果である可能性がある。研究者が尋ねている質問では、わずかに変化したシグナル伝達遺伝子が主要に調節されている遺伝子よりも興味深い/重要なのかもしれない。

GSEAおよびSEAメソッドは、長年にわたってコミュニティで利用されてきた。驚くべきことに、包括的で体系的な並列比較はまだ利用できない。最近の研究では、DAVIDメソッド（SEA / MEAメソッド）とErmineJ（GSEAメソッド）を使用して同じデータセットを実行した（60）。予想どおり、両方の方法の結果は互いに非常に一貫していた。 GSEAのエンリッチメント計算の主な推進力は、大きく変化する遺伝子であるため、一貫性は理にかなっている。さらに、これらの遺伝子は、従来の遺伝子選択手順で選択される可能性が高いため、SEA方法とGSEA方法で非常に類似した結果が得られる。

　クラス3：MEA
MEAは、SEAで見られる基本的なエンリッチメント計算を継承し、term間の関係を考慮することで追加のネットワーク検出アルゴリズムを組み込んでいる。Ontologizer（69）、topGO（41）、GENECODIS（59）、ADGO（45）、ProfCom（68）などの最近のツールは、エンリッチメント計算でGO termの相互関係を考慮することで発見の感度と特異性を改善すると主張した。すなわち、複合（結合）アノテーションtermの遺伝子をリファレンスバックグラウンドとして使用する。このアプローチの主な利点は、研究者がtermとtermの関係を利用できることである。この共同termには、個々のtermではなく、特定の研究のユニークな生物学的意味が含まれる。さらに、異種のアノテーションコンテンツを使用する場合、アノテーションtermは非常に冗長であり、同じ生物学的プロセスのさまざまな側面に関する強力な相互関係もある。このような関係を構築することは、データマイニング中の生物学の本質に一歩近づくことである。GoToolBox（18）は、関連するGO termまたは遺伝子をクラスター化する機能を開発した。これは、ネットワークコンテキストで遺伝子機能アノテーションを提供する。ただし、これらの関数は小さなスコープとGO termでのみ機能する。

（一部略）

現在のデータマイニング環境におけるエンリッチメントP値の役割の現実的位置付け
高スループットのエンリッチメントデータマイニング環境は非常に複雑である。ユーザー遺伝子リストのサイズのバリエーション、各アノテーションに関連付けられた遺伝子の数の偏差、注釈間の遺伝子の重複、アノテーションコンテンツの不完全性、遺伝子間の強い接続性/依存性、アノテーションコンテンツの不均衡な分布、および高/低アノテーションコンテンツの頻度は、この複雑さとバリエーションにつながるソースの例である。（一部略）

1.現在のデータマイニング環境におけるエンリッチメントP値の役割の現実的位置付け

実際の実践では、多くのデータ分析者は、得られたエンリッチメントのP値を、助言的な役割を果たすスコアリングシステムとして扱うことがある。つまり、絶対的な意思決定の役割とは対照的に、関連するアノテーションtermのランク付けと提案を行う（82 ）。分析者自身は、エンリッチメント解析ツールによって強調表示される最も関連性の高いエンリッチメントtermの観点から最終決定を下す際に依然として重要な役割を果たしている。アノテーションtermは非常に重要なエンリッチメントP値に関連付けられている場合があるが、先験的な生物学的知識に基づいて「意味をなさない」ため、エンリッチメントアノテーションterm（エンリッチメントP値<0.001のtermなど）の一部を破棄/無視することは珍しくない。このタイプの状況の類似した例は、ユーザーの元のクエリに関係のない結果を返すGoogle検索の例に似ている。結果について最終的な判断を下すのは、状況に関するユーザーの知識に基づいて、ユーザー次第である。まとめると、現在のエンリッチメント解析は、純粋な統計的解法ではなく、エンリッチメントのP値の助けを借りた、より探索的な手順である。豊富なtermが研究の先験的な生物学的知識に基づいて意味をなすという概念は、ユーザーが分析の閾値を調整し、それによって次のような質問に答えるのに役立つ最も重要なガイドラインとなる：「私のエンリッチメントP値のカットオフは0.05または0.01にすべきですか？ 'または' 0.001のような有意なエンリッチメントP値を持つtermがあれば常に熟考する必要がありますか？ 'または'どのエンリッチメントツールが私のデータセットでよりセンシティブになる可能性がありますか？

ユーザーのデータセットで多くの統計的手法を試して、可能な限り結果を比較することが、ユーザーの最大の利益になる。（一部略）

2.エンリッチメントのP値に関する複数のテスト修正の制限を理解する
標準的な統計原則によれば、テストされるアノテーションが多いほど、ファミリー全体の偽陽性率が増加する可能性が高くなる（85,86）。結果リストでファミリー全体の偽陽性率を制御するために、Khatriらによるレビュー（11,12）では、エンリッチメントP値の複数のテスト修正を、同時にテストされる機能アノテーションカテゴリで実行する必要があることを示している。実際、ツールの大半は、Bonferroni、Benjamini–Hochberg、Holm、Q値、Permutationなどの方法でこのような修正を実行する（論文補足データ1）。前のセクションで説明したように、非常に複雑な遺伝子機能データマイニング環境を考えると、重要な問題は、実際の診断でそのような修正を適用することによって、発見の感度と特異性（1-偽陽性率）がどの程度改善されるかである。

多くのエンリッチメントツールがそのような修正方法を実装しているが、統計原則だけに基づいた利点を信じるのではなく、実際の分析環境でそのような修正の有無にかかわらず発見結果の改善に関する証拠を体系的に提供するツールはわずかである。最近、GOSSIP（27）は、実際のデータセットを備えたさまざまなツールによって提供されるさまざまな修正手法にわたって、発見の感度と特異性を包括的に比較した。分析に数千またはそれ以上のアノテーションtermが含まれている場合に過度に保守的なアプローチであることが知られている一般的な複数テスト修正技術は、人々が信じていたほど特異性を改善しない可能性があると結論付けられた。実際、これらの補正の保守的な性質のために、感度が悪影響を受ける可能性がある（27）。

生物学的データマイニング環境の複雑さを考えると、一般的な統計手法から導出されたエンリッチメントP値は非常に脆弱であり、統計手法自体だけでなく、アルゴリズム、データソース、個々の生物学的要因、処理によっても大きく影響される。発見の特異性は、非統計層の影響を大きく受ける。これは、複数のテスト修正で簡単に修正することはできない。（一部略）

3.複数の遺伝子リストから導き出された濃縮分析結果のクロス比較
遺伝子リストが大きいほど統計的検出力が高くなり、わずかにエンリッチされたtermやに対して高い感度（よりsignificantなP値）が得られる。一方、大幅にエンリッチされたterm群とより幅広い termについては向かって低下する。したがって、遺伝子リストのサイズはエンリッチメントのP値に影響を与え、遺伝子リスト間でエンリッチとメントP値の絶対値を直接比較することを困難にする。課題に関係なく、複数のタイムコースデータセット間の変更/傾向を調査する際に、相互比較が必要かつ重要な場合がある。 GOBar（32）、Go-Mapper（22）、GOAlie、PageMan（51）high-throughput GoMiner（39）、GOEAST（70）などのツールは、これらの機能の一部を提供することを目的としている。ただし、これらのツールを使用する場合、ユーザーはP値比較の問題に留意する必要がある。特に遺伝子リストのサイズが互いに劇的に異なる場合、問題はさらに重大になる。比較に関するより包括的で適切なアルゴリズムは、この分野で依然として高い需要がある。

4.「正しい」遺伝子リファレンスバックグランドを設定する
ヒトゲノムの遺伝子の1％はキナーゼであり、ユーザーがマイクロアレイ実験で選択したユーザーの遺伝子のおよそ10％はキナーゼである。したがって、エンリッチメントを定量的に測定できる。特定の例について結論が得られる場合がある。つまり、キナーゼはユーザーの研究で豊富になり、したがって研究で重要な役割を果たす。ただし、10％だけでは、遺伝子リファンレスバックグラウンド（1％など）と比較しない限り、このような結論に至ることはできない。したがって、同じ統計手法とアノテーションコンテンツを使用している場合でも、異なる遺伝子リファンレスバックグラウンド設定はエンリッチメントをP値に大きな影響を与える可能性がある（12）。たとえば、GOToolBox（18）、GOstat（14）、GoMiner（10）、FatiGO（13）、GOTM（24）などのツールは、ゲノムの全遺伝子をグローバルリファレンスバックグラウンドとして使用する。遺伝子のリファンレスバックグラウンドとして絞り込まれた遺伝子セット（例：マイクロアレイにのみ存在する遺伝子）を使用するツール（例：Onto-Express）と比較して、より有意なP値が得られる傾向がある。さらに、DAVID（61）は、アレイ上に存在し、対応するアノテーションカテゴリの用termに関連付けられている遺伝子を遺伝子リファンレスバックグラウンドとして使用することで、より保守的になる傾向がある。さらに、多くのツールは、カスタマイズされた遺伝子リストを遺伝子リファンレスバックグラウンドとしてアップロードできる（論文補足データ1）。リファンレスバックグラウンドには「ゴールド」の基準はないが、一般的なガイドラインは、リファンレスバックグラウンドを研究対象のアノテーションカテゴリで選択できる遺伝子のプールとして設定することである（12）。たとえば、分析遺伝子リストが特定のチップで実施されたマイクロアレイ研究から得られた場合、マイクロアレイチップで見つかった総遺伝子は「正しい」リファンレスバックグラウンドであると思われる。しかし、マイクロアレイ検出範囲を下回る低発現レベル、および/または「悪い」プローブ設計などにより、研究中にチップ上の一部の遺伝子を選択する機会がほとんどまたはまったくない可能性があるため、完全ではない。遺伝子リファンレスバックグラウンドはエンリッチメントP値に直接影響を与えるが、同じ分析内で比較的類似した方法ですべてのtermのP値に影響を与える。異なる遺伝子リファレンスバックグラウンドで分析された同じデータセットの場合、termが異なるP値に関連付けられている場合でも、エンリッチされtatermの出力ランク/順序は比較的同じままである。出力におけるこのような安定したエンリッチの順序/ランクは絶対P値よりも重要であるため、同じデータセットでのアノテーションの調査と結論は、異なる遺伝子リファレンスバックグラウンドを使用する場合に類似して比較できる。この意味で、遺伝子リファレンスバックグラウンドを設定する別の重要な原則は、同じ分析内で一貫した遺伝子リファレンスバックグラウンドを使用することである。

5.バックエンドアノテーションデータベースの拡張
（省略）

6.ユーザーの入力遺伝子識別子を利用可能な注釈に効率的にマッピングする
遺伝子識別子（ID）を対応するアノテーションコンテンツに効率的にマッピングできない場合、その後のデータマイニングは大幅に損なわれる。したがって、データベース内のIDからID、およびIDからアノテーションコンテンツのマッピングの包括性は、遺伝子リストを可能な限り高いアノテーションコンテンツに最大限に変換する最初のステップとして不可欠である。しかし、遺伝子/タンパク質を表す識別子が非常に冗長であり、それぞれ独立したバイオインフォマティクス組織によって維持されている場合、これは単純で些細な問題ではない。 NCBI Entrez Gene（89）、UniProt UniRef（90）、PIR-NREF（91）などの各主要バイオインフォマティクス組織内で識別子のクロスマッピングの問題が効果的に対処されたとしても、組織間でのリファレンス機能の弱さは以前存在する。たとえば、UniProtはRefSeq IDをカバーせず、NCBI Entrez GeneはPIR IDをまったく参照しない。異なるアノテーションデータベースが主要な遺伝子識別子システムとしてその１つだけを使用する場合、例えば、GeneRifは主要な関連識別子としてNCBI IDを採用し、InterProは主要な関連識別子としてUniProt / SwissProtを使用する（65）。一部のアノテーションコンテンツは特定のタイプのユーザー入力IDを優先しない。したがって、特定のタイプのIDについて、この問題に特に注意を払わなければ、重要なアノテーションコンテンツはユーザーの気付かないうちにハイスループット分析から簡単に除外される可能性があり、エンリッチメント分析が不完全または失敗することさえある。残念ながら、エンリッチメントツールは一般に、ID-to-IDおよびID-to-annotationマッピングの問題をどのように処理するかを十分に文書化していない。ほとんどのツールは、NCBI Entrez Geneデータベース（89）などの別の主要グループの既存の作業を採用している可能性がある。このような場合、ツールは多くのIDシステムをサポートすると主張するかもしれないが、前述の組織間の問題のために、すべてのタイプのIDがバックエンドアノテーションデータベースに完全に統合されることを意味しない。Onto-Translate（62）、MatchMiner（92）、IDConverter（93）、DAVID ID Converter（61）などの最近の取り組みにより、ユーザーは1つのタイプのIDを別のタイプに簡単に変換できる。さらに、それらは改善された相互リファレンス機能を提供するだけでなく、注釈コンテンツを充実させる。たとえば、DAVID Gene Conceptと呼ばれる手順によって遺伝子IDが再凝集された後、個々のソースのアノテーションと比較して、DAVIDナレッジベースの対応する遺伝子に10〜20％多いGO term を割り当てることができた（65）。

7.探索機能とグラフィック表示の強化

（省略）

8.新しい強化ツールの分析機能の評価
68のツールと、このコレクションに含まれていない可能性のある追加ツールにより、すでにこの分野は非常に混雑している。ツールの多くは、他のツールとの相互比較を最小限に抑えている。適切な標準評価手順は、特に新しいツールの場合、ツール間で分析機能をより比較可能にする。さらに、優れた標準は、いくつかの新しいツールを本当に際立たせ、publicationsに余分な作業が現れるのを防ぐことができる。このような標準には、次のものが含まれるが、これらだけに限定はされない。分析のための異なる困難なレベルの予想される既知の生物学を備えた共通のデータセット（遺伝子リスト）相互比較の重要な側面（バックエンドデータベース、エンリッチメントP値、速度、探索能力、グラフィック表示など）など。まだ詳細な提案はないが、明らかにこの分野では標準が必要である。

9.さまざまな選択肢から最も適切なエンリッチメントツールを選択する
最適なエンリッチメントツールの選択は、ユーザーの調査ニーズ、ITエクスペリエンス、およびクエスチョンに大きく依存している。研究目標はプロジェクトごとに非常に多様であるため、正確なガイドラインはほとんど不可能である。ツールを選択する前に、ユーザーは「GOデータソースで十分ですか？、それ以上（パスウェイ、タンパク質ドメイン、タンパク質間相互作用など）必要ですか？」などの質問をすることができる。「SEAのレポートで十分ですか、それとも相互関係を調べるためにMEAが本当に必要ですか？」; 「私の実験デザインは、GSEAの入力要件に適合するほど単純ですか、または遺伝子選択に包括的な統計的手法が必要ですか？」; 「R、スタンドアロンツール、またはWebツールを処理するIT機能は何ですか？」。その後、ユーザーの要件を最大限に満たすツールが論理的に選択できる。論文表2は、各ツールクラスの強度と制限を比較したものである。圧倒的な選択肢の中から個々のツールを検索する代わりに、研究者は最初に目的のツールクラス（つまり、SEA、GSEA、およびMEA）を見つけ、そのクラス内の個々のツールにさらに絞り込むことを勧める。補足データ1には、すべてのツールについて、ユーザーが興味を持ちそうな側面の一部がリストされている。

（一部略）

結論と展望
生物学的データマイニングの状況は複雑であるため、現在の状態では、現在のエンリッチメントツールを使用した大規模な遺伝子リストの分析は、純粋な統計的ソリューションというよりも、探索的データマイニングの手順である。最良の分析的結論は、研究者のバイオ知識、統合されたアノテーションデータベース、コンピューティングアルゴリズム、および統計的手法から導出されたエンリッチメントP値を使用して作られる。（一部略）最後に、現在のエンリッチメント分析方法のニーズが満たされていないことと制限が存在するために、新しいエンリッチメントツールの開発と活動の情熱が続くことが予想される。新しいツールを評価するための標準が、本分野の成長を促進する。

help

https://david.ncifcrf.gov/helps/functional_annotation.html#EXP2

Frequently Asked Questions

https://david.ncifcrf.gov/content.jsp?file=FAQs.html

A Quick Tutorial/An Example to Use the DAVID Bioinformatics Resources

https://david.ncifcrf.gov/helps/tutorial.pdf

books

david: Database Annotation Visualization Integrated Discovery

DAVIDのこれまでのcitation

https://scholar.google.com/citations?user=dMn7gzYAAAAJ

使い方

https://david.ncifcrf.gov/home.jsp

基本的な使い方は統合TVの動画をみてください。わかりやすく説明されています。

DOI: 10.7875/togotv.2012.079

DOI: 10.7875/togotv.2013.033

ここではGene IDの変換ツールについて紹介する。

https://david.ncifcrf.gov/helps/conversion.html#submission

１、左側のメニュー上のUploadタブに切り替える。Gene IDのテキストをアップロードするかウィンドウ内にペーストする。

f:id:kazumaxneo:20190904022101p:plain

変換前のIDのタイプを選択し、submitする。

f:id:kazumaxneo:20190904023140p:plain

２、メニュー上からリストタブに切り替える。List managerにより複数のファイルを同時に扱うことができるようになっている。

f:id:kazumaxneo:20190904021728p:plain

helpより転載

特定の生物種のIDに限定するなら、生物を選ぶ。左下のリストマネージャで、変換するファイルを選択する。

f:id:kazumaxneo:20190904023602p:plain

変換先のIDを選ぶ。submit to conversion toolをクリックして変換スタート。

f:id:kazumaxneo:20190904023814p:plain

変換結果。

f:id:kazumaxneo:20190904024052p:plain

変換したIDを使い、ダイレクトにFunctional enrichment解析を実行することもできるようになっている（右の表の上の緑のボタンをクリックしてリストマネージャに登録する）。

結果をまとめた表を見てみる。149 ID全て変換に成功している。 f:id:kazumaxneo:20190904025227p:plain

変換したIDは右上のリンクからダウンロードできる。

どちらかと言えば、DAVIDは昔アフィメトリクスのアレイのID変換でお世話になっていました。
引用

Bioinformatics enrichment tools: paths toward the comprehensive functional analysis of large gene lists

Huang DW, Sherman BT, Lempicki RA

Nucleic Acids Res. 2009;37(1):1-13

Systematic and integrative analysis of large gene lists using DAVID Bioinformatics Resources

Huang DW, Sherman BT, Lempicki RA.

Nature Protoc. 2009;4(1):44-57

参考

遺伝子 ID 変換 | 複数のデータベースを利用してデータ解析を行うときに必要な遺伝子 ID 変換の方法

NCBI GEO のRNA-seqデータを分析する GREIN

2019 Nature Scientific Reports web tool docker GO enrichment analysis human genome GEO download 結果の視覚化 (visualization) normalize evaluation tool NCBI shiny

　RNA-seqデータセットをGene Expression Omnibus（GEO）およびSequence Read Archive（SRA）のリポジトリに保存すると、公開されている研究の再現性が保証され、再利用が容易になる。これらのデータの再分析は、新しい科学的洞察をもたらす可能性があり、新しい研究のデザインを知らせるために日常的に使用されてきた。しかし、GEO RNA-seqデータの再利用は、バイオインフォマティクスに特化していない生物医学研究者には、しばしばアクセスできない処理プロトコルおよび分析ツールの複雑さによって困難になっている。

　GEO / SRA RNA-seqデータの再処理における最近の取り組みは、処理済みおよび転写産物ごとにまとめられた多数のRNA-seqデータセットへのアクセスを提供することによってこの問題を軽減する。他のリソースは特定のデータセットのためのアクセスと分析ツールを提供する（ref.11, 12）。これらのプラットフォームは非常に便利だが、ダウンストリーム分析用の追加機能はサポートされていない。例えば、探索的データ分析、バッチ効果調整を伴うdifferential expression分析、または統計的出力分析（論文表1）。したがって、公共のRNA seqデータの再分析のための包括的な分析ツールボックスを備えたオープンソースのユーザーフレンドリーなツールはまだ欠けている。 GEO RNA-seqデータの分析のためのGEO RNA-seq Experiments Interactive Navigator（GREIN）ウェブツールを開発、展開することによってこの問題に対処する。分析ツールの豊富なレパートリーに加えて、GREINは分析の準備ができた> 400,000サンプルで6,500以上の均一に処理されたヒト、マウス、およびラットGEO RNA-seqデータセットへのアクセスを提供する。これらのデータセットはGEOから取得され、バックエンドのGEO RNA-seq実験処理パイプライン（GREP2）によって一様に再処理された。このパイプラインはまた、各データセットのメタデータを管理し、各サンプルにMetaSRAが提供する生物医学的オントロジーでアノテーションを付ける。新しい研究がGEOに含まれるにつれて、より多くのデータセットが定期的に処理されてGREINに追加される。前処理済みのデータセットとは別に、GREINは、ユーザーが要求したGEO RNA-seqデータセットのオンザフライ処理も容易にする（表1）。また、GREP2をRパッケージとして、GREINをDockerコンテナとしてリリースする。

　GREINの概念的な概要を論文図1に示す。個々のRNA-seqデータセットはGREP2パイプラインによって処理され、R Expression Setsとしてローカルに保存される。ユーザーはGREINグラフィカルユーザーインターフェース（GUI）を介して前処理済みのデータセットにアクセスして分析するか、まだ処理されていないデータセットの処理を依頼することができる。 GUI駆動のワークフローは、データの検査と視覚化、統計分析、転写シグネチャ構築、およびDE genesのシステム生物学的解釈を容易にする。 GREINとバックエンドパイプライン（GREP2）はどちらもRで書かれており、それぞれDockerコンテナとRパッケージとしてリリースされている。 GREINのグラフィカルユーザインタフェースは、Rで動的Webアプリケーションを構築するためのWebフレームワークであるShinyに実装されている。https://shiny.ilincs.org/greinのWebインスタンスは、ロードバランスのとれたShinyサーバの堅牢なDocker群を介してデプロイされる。処理パイプラインを含む完全なGREINインフラストラクチャはDockerコンテナを介して展開される。
GREINのユーザーフレンドリーなGUI主導のワークフローは、品質管理対策の検査や全データセットにおける発現パターンの視覚化、将来の実験の実験デザインを知らせる目的でのサンプルサイズおよび検出力分析、などのRNA-seqデータの典型的な再利用シナリオ、differential gene expression、 gene list enrichment、およびネットワーク分析を容易にする。標準的な2群間比較の他に、differential gene expression解析モジュールは共変量またはバッチ効果を説明するための一般線形モデルでのフィッティングもサポートする。実装されたインタラクティブな可視化および探査ツールは、クラスター分析、インタラクティブヒートマップ、主成分分析（PCA）、t-distributed stochastic neighbor embedding（t-SNE）などを含んでいる（論文補足表S1）。ユーザーは、MetaSRAプロジェクトによって提供されたヒトRNA-seqサンプルとデータセットのオントロジーアノテーションを検索することもできる。処理された各ヒトRNA配列サンプルは、疾患オントロジー、細胞オントロジー、実験因子オントロジー、Cellosaurus、およびUberonを含む生物医学オントロジーのMetaSRAマッピングで標識される。Differential gene expressionの生物学的解釈は、遺伝子リストおよび pathway enrichment analysis、ならびにDE genesのネットワーク分析などの典型的な事後分析を実施するための他のオンラインツールへの直接リンクによって補助される。これらの分析用ウェブサービスへの接続は、DE genesのシグネチャ（すなわち、分析された全ての／上方／下方制御された遺伝子についての遺伝子発現の平均変化および関連p値リスト）をiLINCS（ref.17）(Integrative LINCS) にサブミットすることによって実施される。 iLINCSは最近リリースされたConnectivity Map L1000シグニチャ（ref.18）のシグニチャ接続性分析も提供する。 GREIN解析のワークフローに関する詳細な手順は、GREINの補足資料および「ヘルプ」セクションに記載されている。

Help

http://www.ilincs.org/apps/grein/?gse=

ローカル環境での実行

docker pull ucbd2k/grein
docker run -d -p 3838:3838 ucbd2k/grein

http://localhost:3838 にアクセスする。

web版

https://shiny.ilincs.org/grein にアクセスする。

どれか１つアクセスしてみる。１ページ目に表示されていた人のRNA seqGSE100027をクリックした。

f:id:kazumaxneo:20190601234755p:plain

必要なほとんどの情報がコンパクトにまとめられている。

f:id:kazumaxneo:20190602001314p:plain

１、メタデータ

f:id:kazumaxneo:20190601235721p:plain

２、Counts table

Rawかnormalizedを選んで表にできる。

f:id:kazumaxneo:20190601235736p:plain

表は左のボタンからダウンロードできる。

３、QC report

MultiQCを使ってQC結果はまとめられる。

f:id:kazumaxneo:20190602004115p:plain

f:id:kazumaxneo:20190602004732p:plain

f:id:kazumaxneo:20190602004119p:plain

f:id:kazumaxneo:20190602004129p:plain

f:id:kazumaxneo:20190602004157p:plain

f:id:kazumaxneo:20190602004737p:plain

f:id:kazumaxneo:20190602004210p:plain

f:id:kazumaxneo:20190602004244p:plain

f:id:kazumaxneo:20190602004323p:plain

f:id:kazumaxneo:20190602004754p:plain

４、Visualization

多くの図はインタラクティグに操作して編集できるようになっている。

相関プロット

f:id:kazumaxneo:20190602000523p:plain

どの図も左のDrawボタンを押すまで描画は開始されない。

密度プロット

f:id:kazumaxneo:20190602000136p:plain

ヒートマップ

static

f:id:kazumaxneo:20190602000141p:plain

interactive

f:id:kazumaxneo:20190602000147p:plain

2D PCA plot

f:id:kazumaxneo:20190602000158p:plain

3D PCA plot

f:id:kazumaxneo:20190602000216p:plain

2D PCA plot

f:id:kazumaxneo:20190602000224p:plain

3D PCA plot

f:id:kazumaxneo:20190602000228p:plain

Analyze dataset

一番上のタブから選択する。

Analyze datasetはパワーカーブとDEG検出のは2つから構成されており、DEG検出を目的としたRNA-seq実験を計画する際の必須ステップである検出力分析についてユーザーを支援する。

１、パワーカーブ
BioconductorパッケージのRNASeqPowerを使用してpowerを計算する。

f:id:kazumaxneo:20190602110455p:plain
検出力曲線

biological coefficient of variation（BCOV）vs average log2(Counts per million)プロット。

f:id:kazumaxneo:20190602005927p:plain

選択された関心のある因子に基づいて差別的に表される各遺伝子の検出可能性に関するアイデアを与える。False discovery rate およびDEGsの予想数に基づいて有意水準を推定する。また、遺伝子を検索してその遺伝子の位置を確認したり、遺伝子記号を表示する点の上にマウスを移動することもできる。

f:id:kazumaxneo:20190602005932p:plain

f:id:kazumaxneo:20190602005936p:plain

f:id:kazumaxneo:20190602010251p:plain

NCBI GEOから探してもいいのですが、利用できない場合もあります。手順はこちらのページが分かりやすいと思います。

https://www.ncbi.nlm.nih.gov/gds

引用

GREIN: An Interactive Web Platform for Re-analyzing GEO RNA-seq Data

Mahi NA, Najafabadi MF, Pilarczyk M, Kouril M, Medvedovic M

Sci Rep. 2019 May 20;9(1):7580

MG-RAST（簡単な紹介）

生物種の推定 (taxonomic profiling) metagenome metatranscriptome 2016 Methods in Molecular Biology abundance estimation in metagenomics data geographic distribution

2022/06/26 追記

　分子生物学、とりわけ、微生物群集（メタゲノミクス分野）のハイスループットシーケンシングは、気候変動、環境汚染、人間の健康などに関わる微生物群集の組成と機能的内容の理解を急速に進歩させている。メタゲノミクスは、以前は実験室制御の培養に難しかったネイティブにサンプリングされた微生物群集の分類学的（すなわち、どのような微生物が存在するか）および機能的（すなわち、微生物が何をしているか）の最も完全な絵を研究者に提供する。現在、これらは地球上のすべての微生物の大部分を占めている。環境サンプルに含まれる全ての生物は、サンプル非依存性コミュニティの機能的な内容を調査するために、分類学的または全ゲノムのショットガンベースの方法を調査するために、培養に依存しない方法で、最も頻繁には16Sリボソームアンプリコン法でシーケンシングされる。メタゲノミクスは、研究者が微生物群集のコミュニティ構成と機能的内容を特徴付けることを可能にするが、どの機能的プロセスが活性であるかを示すことはできない。しかし、transcriptomicsの平行進化により、この分野でも知見が劇的に増加することが約束される。

　2008年から、MG-RAST（Meyer et al、BMC Bioinformatics 9：386、2008）は、メタゲノム配列データのアノテーションと分析のための公共リソースとして役立っており、現在150,000以上のデータセットを提供している。 MG-RAST、またはメタゲノミクスRASTサーバーは、ユーザーが（好ましくは）fastqまたはfasta形式で生メタデータとシーケンシングデータをアップロードすることを可能にする。ポストアノテーション分析と視覚化は、Webインターフェイスを介して直接行うことが可能で、さらに、MG-RAST APIを利用するmatRを使用して、MG-RAST処理パイプラインの任意のステージからデータを簡単にダウンロードすることもできる。MG-RASTは、メタゲノミクスおよび関連する分子化学（例えば、メタトランスクリプトーム）における絶えず進化し続ける発展に伴って大幅な改訂を行った。

f:id:kazumaxneo:20180402102010j:plain

v2とv3のワークフロー。マニュアルより転載。

MG-RAST

マニュアル

ftp://ftp.metagenomics.anl.gov/data/manual/mg-rast-manual.pdf#page=28

使い方

パブリックデータを閲覧する機能と、マイデータをアップロードして分析する機能がある。

https://www.mg-rast.org/mgmain.html?mgpage=mydataにアクセスする。

初回はアカウント作成する。

新しく解析を始めるには上のアップロードボタンをクリックする。

f:id:kazumaxneo:20190830222336p:plain

fastq（.gzも対応）をアップロードする。左上の↑ボタンをクリックしてfastqを選択する。複数同時選択も可。

f:id:kazumaxneo:20190830223328p:plain

右側のウィンドウに表示されるのでstart ボタンをおしてアップロードする。

f:id:kazumaxneo:20190830223442p:plain

このステップはかなりの時間がかかる。1GB程度なら１時間くらいでアップできるが、データサイズがHiseqクラスのサンプルとなると、サンプル数が多ければ1週間くらいはかかるかもしれない。落ち着いて進めること。

また、たまに接続が切れることがあるので、その時はやり直す（途中から継続できる）。

右上のboxには常に対応したhelpが表示されるので、わからないことがあれば積極的に調べていく。

f:id:kazumaxneo:20190830224212p:plain

全てUPし終えたら、サンプルの詳細な情報をまとめたmetadataをアップロードする（ *1）。

f:id:kazumaxneo:20190830224004p:plain

submitに切り替える。submitをクリック。

プロジェクト名、どのサンプルを使うかなどを順番に指定していく。先ほどのステップでmetadataをアップしていない場合は、ここで用意することもできる。

f:id:kazumaxneo:20190830224032p:plain

最後にsubmitをクリック。問題なければジョブが開始される。

進捗は画面で確認できるようになっている。

f:id:kazumaxneo:20190830223033p:plain

パブリックデータはサーチから探せる。

https://www.mg-rast.org/mgmain.html?mgpage=search

自分のデータを非公開にしていても、ログインIDが同じならばここに表示される。勘違いしないこと。

2022/06/26 追記

サーチでは、右端のメニューで絞り込み検索できる。門レベルでシアノバクテリアのアバンダンス10％以上、光合成遺伝子を含むで検索した。

805ヒットした。

ヒットした中には、非公開データ（ダウンロードできない）、アセンブリ配列が登録されているものなども含まれる点に注意。

引用

MG-RAST, a Metagenomics Service for Analysis of Microbial Community Structure and Function.

Keegan KP, Glass EM, Meyer F

Methods Mol Biol. 2016;1399:207-33.

メタデータは非常に細かな項目まで記入することができますが、その分、登録する時はかなり苦労します。個人的には、しんどさはゲノム登録と同じくらいです。半日使う覚悟で気合いを入れて取り組んでください。

例を見たい方は、サーチでから自分のサンプルに似た公共データを探し、そのメタデータを参考にすると良いでしょう。サンプル一覧の右端のカラムからダウンロードできます。

f:id:kazumaxneo:20190830225402p:plain

2019-09-01

追加配列のアノテーションを含めるように既存のfastaとgff3を改変する reform

fasta/fastqの操作 GTF annotation tips

タイトルの通りのスクリプト。使い方は下のテストラン参照。

インストール

依存

reform requires Python3 and Biopython.

本体　Github

pip install biopython

git clone https://github.com/gencorefacility/reform.git 
cd reform/

> python3 reform.py -h

$ python3 reform.py -h

usage: reform.py [-h] --chrom CHROM --in_fasta IN_FASTA --in_gff IN_GFF

[--upstream_fasta UPSTREAM_FASTA]

[--downstream_fasta DOWNSTREAM_FASTA] [--position POSITION]

--ref_fasta REF_FASTA --ref_gff REF_GFF

optional arguments:

-h, --help show this help message and exit

--chrom CHROM Chromosome name (String)

--in_fasta IN_FASTA Path to new sequence to be inserted into reference

genome in fasta format

--in_gff IN_GFF Path to GFF file describing new fasta sequence to be

inserted

--upstream_fasta UPSTREAM_FASTA

Path to Fasta file with upstream sequence. Either

position, or upstream AND downstream sequence must be

provided.

--downstream_fasta DOWNSTREAM_FASTA

Path to Fasta file with downstream sequence. Either

position, or upstream AND downstream sequence must be

provided.

--position POSITION Position at which to insert new sequence. Note:

Position is 0-based. Either position, or upstream AND

downstream sequence must be provided.

--ref_fasta REF_FASTA

Path to reference fasta file

--ref_gff REF_GFF Path to reference gff file

テストラン

実行するには、元のリファレンス配列（fasta）とそのアノテーション情報（GFFまたはGTF）、そこに追加する新規配列（fasta）とそのアノテーション（GFFまたはGTF）が必要。挿入位置はポジションか上流配列と下流配列のfastaで指定する。

cd test_data/1/

#リファレンスref.faとアノテーションref.gff3のchrの"X"の4-bp目に、in.fastaとアノテーションin.gff3を挿入
python3 reform.py 
 --chrom=X \
 --position 3
 --in_fasta=in.fa \
 --in_gff=in.gff3 \
 --ref_fasta=ref.fa \
 --ref_gff=ref.gff3

--chrom Chromosome name (String)
--position Position at which to insert new sequence. Note: Position is 0-based. Either position, or upstream AND downstream sequence must be provided.
--in_fasta Path to new sequence to be inserted into reference genome in fasta format
--in_gff Path to GFF file describing new fasta sequence to be inserted
--ref_fasta Path to reference fasta file
--ref_gff Path to reference gff file

ref_reformed.faとref_reformed.gff3が出力される。

元のアノテーションref.gff3

f:id:kazumaxneo:20190828020650p:plain

追加するアノテーションin.gff3

f:id:kazumaxneo:20190828020737p:plain

ref.gff3の4-bp目にin.gff3を組み込む。出力されたとref_reformed.gff3

f:id:kazumaxneo:20190828020850p:plain

青がin.gff3由来アノテーション。挿入された配列mの位置に応じて影響を受けるアノテーションのポジションが変更されているのが確認できる（上記は5つともポジションが変更されている）。

引用

GitHub - gencorefacility/reform: Modify existing reference fasta and gff3/gtf files to include a new sequence

2019-08-31

UniProtKBデータベースを３つのレベルでクラスタリングした Uniclust データベース

2017 Nucleic Acids Research protein search annotation database multiple sequence alignment (MSA) UniProt

　UniProt（ref.1）やGenBank（ref.2）などの公共データベースのタンパク質配列の数は、さまざまな大規模ゲノミクスプロジェクト（ref.3〜5）のために急速に増加している。急速な成長により、多くのアプリケーションが代表的なサブセットで動作するようになった。代表的なサブセットは、類似のシーケンスを一緒にクラスタリングし、クラスターごとに1つの代表を選択することで計算される。計算リソースの節約とは別に、そのようなクラスター化されたデータベースのシーケンス空間をより均等にカバーすることで、シーケンス類似性検索の感度を向上させることができる（ref.6–8）。

　人気のあるUniProt Reference Clusters（UniRef）（ref.9）は、CD-HITソフトウェアを使用して3つのステップでUniProtKBシーケンスをクラスター化することにより生成される3つのデータベースで構成されている（ref.10）：UniRef90シーケンスは、少なくとも90％の配列同一性と80％の配列長重複を持つUniRef100配列をクラスター化することによって取得される（Uniref紹介）。

　ここでは、UniRefと同様に、3つの異なるクラスタリングレベルでクラスター化されたUniProtKBシーケンスの代表的なセットであるUniclustシーケンスデータベースを紹介する。ただし、UniRefはクラスタリングをCD-HITソフトウェアに依存しているが、UniclustはソフトウェアスイートMMseqs2（github.com/soedinglab/mmseqs2、Steinegger＆Söding）を使用している。以下の特徴により、Uniclustデータベースはユニークで便利になる：まず、MMseqs2のリモートな相同配列に対する感度の高さにより、UniProtKBを30％の配列同一性までクラスター化できる。第二に、可能な限りコンパクトで機能的に均質な配列クラスターを生成するたをめに、MMseqs2内でカスケードクラスタリングワークフローを開発した。その結果、Uniclust90クラスターとUniclust50クラスターは、同様のクラスタリングデプスで、それぞれUniRef90とUniRef50よりも高い機能整合性スコアを示す。第三に、Pfam（ref.11）およびSCOP（ref.12）を使ってUniclustシーケンスのディープアノテーションを提供し、さらにリモート相同性検出ソフトウェアスイートであるHH-suiteを使用してPDBシーケンス（ref.13）にマッチさせる。 HH-suiteの機密性により、これらのアノテーションにInterProとHMMER3を使用するUniProtよりも17％多くのPfamドメインにアノテーションを付けることができる。第4に、すべてのUniclustクラスターのMSAと、Uniclust30クラスターをローカルシーケンス一致で強化することで得られる異なる多様性レベルのMSAを備えた3つのUniboostデータベースを提供する。

　ここで説明するすべてのデータを生成するために、オープンソースのbashパイプライン（github.com/soedinglab/uniclust-pipeline）を開発した：Uniclustクラスタリング、クラスターサマリーヘッダー、シーケンスのドメインアノテーション、および複数のシーケンスアラインメントのUniboostデータベース。パイプラインスクリプトを補足的なアーカイブファイルとして提供し、コマンドラインオプションや理解に関係のないその他の詳細が記載されている説明が煩雑になるのを防ぐ。

Uniclust90、Uniclust50、Uniclust30データベースは、UniProtKBシーケンスをMMseqs2ソフトウェアにより90％、50％、30％のペアワイズシーケンスアイデンティティのレベルでクラスター化したものになる。Uniclustの配列には、Pfam、SCOPドメイン、およびPDB内のタンパク質に対してアノテーション付けられている。ドメインのアノテーションには高感度な相同性検出ツールであるHHblitsが使用されており、UniProt / InterProではアノテーションされない多くのPDB / SCOP / PFamドメインアノテーション付けが可能になっている。

データベースのダウンロード

Index of /~compbiol/uniclust/2018_08

引用

Uniclust databases of clustered and deeply annotated protein sequences and alignments
Milot Mirdita, Lars von den Driesch, Clovis Galiez, Maria J. Martin, Johannes Söding, Martin Steinegger
Nucleic Acids Research, Volume 45, Issue D1, January 2017, Pages D170–D176

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

興味があるタンパク質情報を文献やデータベースからマイニングする PaperBLAST

viral quasispeciesのハプロタイプを再構成する PEHaplo

DAVIDデータベース

NCBI GEO のRNA-seqデータを分析する GREIN

MG-RAST（簡単な紹介）

追加配列のアノテーションを含めるように既存のfastaとgff3を改変する reform

UniProtKBデータベースを３つのレベルでクラスタリングした Uniclust データベース