macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

2017

世界中の微生物種の生態を調べる Microbe Atlas Project(MAP)データベース

https://microbeatlas.org/index.html?action=aboutより メタゲノム配列が決定された大規模なサンプル群を集約的に解析することで、未知あるいは研究が不十分な微生物分類群が存在する典型的な存在量や環境に関する情報を蓄積できる。これにより、未知の微生…

StrainPhlAn3

チュートリアルより StrainPhlAnは、保存された種マーカー遺伝子およびユニークな種マーカー遺伝子内の一塩基多型(SNPs)に基づき、大規模サンプルセット全体の種を系統レベルで解決するためのツールです。StrainPhlAn ワークフローの最初のステップは、Met…

バリアントコーラー 16GT

16GTは、イルミナ社の全ゲノムおよび全エキソームシーケンスデータ用のバリアントコラーである。16GTは、新しい16の遺伝子型の確率モデルを使用して、一塩基多型と挿入および欠失のコールを単一のバリアントコールアルゴリズムに統合している。36コアのサー…

Minhashをメタゲノム解析へ応用する CMash

Minhashは、2つの集合の類似性をJaccard指数(集合の和に対する交点の大きさの比として定義される)の観点から推定する確率的な手法である。この手法は、対象となる集合の大きさが似ている場合に最も優れた性能を発揮し、集合の大きさが大きく異なる場合には…

Pathview

パスウェイ解析はオミックス研究で広く用いられている。パスウェイベースのデータ統合と可視化は、解析の重要な要素である。このニーズに応えるために、本著者らは、Pathviewという新しいRパッケージを開発した。Pathviewは、多種多様な生物学的データを分子…

mmquant

現在、RNA-Seqは日常的に使用されており、遺伝子の転写に関する正確な情報を得ることができる。しかし、この方法では、重複した遺伝子の発現を正確に推定することができない。これまでに、いくつかの方法(重複した遺伝子を削除する、リードを一様に分配する…

真菌ゲノムのアノテーションパイプライン FunGAP

ゲノム解析が成功するかどうかは遺伝子予測の質にかかっている。fungalゲノムの解読とアセンブルは容易になったが、そのアノテーション手順はまだ標準化されていない。FunGAP は、真菌ゲノムアセンブリ中のタンパク質をコードする遺伝子を予測するプログラム…

Nextflowを使ってバイオインフォマティクスのツールを動かす

2021 5/5 コードのsamtoolsへパイプする部分でWSLのランがエラーになったため、改行を除去 2021 5/9 画像追加 Nextflowなどのworkflow managerを使って解析パイプラインを記述しておくことで、再現性のある解析が可能になります。午後の空き時間を使って簡単…

マニュアルキュレーションされたシアノバクテリアのデータベース CyanoType

ここで紹介するデータセットは、CyanoType(http://lege.ciimar.up.pt/cyanotype)と名付けられた、関連するシアノバクテリア株のオンラインデータベースの基礎となるものである。このデータベースは、分類学的、系統学的、あるいはゲノム学的に有用なシアノ…

植物の発現データの視覚化と探索を行う ePlant

現在のシステムバイオロジー研究では、異なる種類のデータを別々のソースからアクセスし、別々のツールを使って視覚化しなければならないという大きな課題がある。このようなワークフローをナビゲートするために必要な高い認知的負荷は、仮説の生成に悪影響…

ゲノム中のISエレメントを探す ISEScan

2021 8/7 コマンド修正 ISEScanは、ゲノム中のIS(Insertion Sequence)エレメントを同定するためのPythonパイプラインである。完全なISエレメントを報告するか、完全なISエレメントと部分的なISエレメントの両方を報告するかのオプションがある。メテゲノムア…

Webベースのデータ分析プラットフォーム NASQAR その3 (SHAMAN)

2回目の続きになります。今回はNASCARで利用可能なメタ16S分析ツールSHAMANを簡単に紹介していきます。 SHAMANのPreprintよリ 定量的メタゲノム技術は、マイクロバイオームと環境や個人の要因(例えば、疾患、地理的起源など)との関連を特定するために広く…

START App

RNAシーケンシング(RNAseq)を用いた転写プロファイリングは、シングルセルから組織全体に至るまで、様々な文脈でのグローバルな遺伝子発現パターンを定量化するための強力な手法として登場した。このプロファイリング技術によって生成された膨大な量のデー…

OLCのメタゲノムアセンブラ BBAP

メタゲノムアセンブリの精度は、通常、シークエンシングおよびアセンブリの際に、同じゲノム領域からの発散性のあるリードが異なる遺伝子座として認識されるため、高レベルの多型によって損なわれる。ウイルス準種(viral quasispecies)とは、単一のキャリ…

植物ゲノムの代謝遺伝子クラスターを検出する PhytoClust

代謝遺伝子クラスター(MGC)は、特定の代謝パスウェイのゲノム上で共局在し、潜在的に共制御される遺伝子である。細菌のオペロンとは対照的に、それらは単一の転写ユニットの制御下にはない。 MGCは真菌ゲノムによく見られ、MGCは植物の例外としてのみ発生…

CRISPR/Cas9編集後のアンプリコンシークエンシングからindelのレポートを生成する CRISPR-DAV

CRISPR/Cas9システムの簡便さと精度の高さは、遺伝子編集の新時代をもたらした。CRISPRを介在させたゲノム編集を用いた目的のクローンのスクリーニングは、その多重化により次世代シークエンシング(NGS)によって可能になった。ここでは、CRISPR NGSデータ…

VCFファイルを分析するCRANパッケージ vcfR

2020 4/15 コマンド修正, 手持ちのファイルを使う例を追記 一塩基多型や関連する遺伝的変異を呼び出すソフトウェアは、選択された出力フォーマットとしてバリアントコールフォーマット(VCF)に収束してきている。これにより、VCFファイルを扱うツールの必要…

オルガネラゲノムをターゲットアセンブリする NOVOPlasty

次世代シークエンシング(NGS)技術の進化により、様々なアセンブルアルゴリズムが開発されてきたが、オルガネラゲノムのアセンブルに焦点を当てたものはほとんどない。これらのゲノムは、系統研究や食品の同定に利用されており、GenBankに登録されている真…

アセンブリ結果を評価するwebサービス gVolante

2021 5/12 ツイート追記 全ゲノムやトランスクリプトームなどの包括的な配列情報へのアクセスが増加するとともに、それらの品質を評価する必要性が高まっている。N50などのシーケンス長に基づくメトリックが標準になったが、これはアセンブリ品質の1つの側面…

(モデル生物 )MNase-seqやchip-seeのアラインメントを2D plotで視覚化する plot2DO

ヌクレオソーム、これは147 bpのDNAがA約1.7ターンでヒストンオクタマーに包まれる真核生物のDNAパッケージングの基本単位である(Luger、et al、1997)。標的部位へのDNA結合因子のアクセスは、これらの部位がヌクレオソームフリー領域(NFR)にある場合、…

指定したCOG近傍の遺伝子を視覚化するwebサービス COGNAT

2020 2/27 コメント追加 原核生物のゲノムでは、機能的に結合した遺伝子を保存された遺伝子クラスターに組織化して、それらの協調的な調節を可能にしている。このようなクラスターには、1つまたは複数のオペロンが含まれる可能性がある。これは、同時転写さ…

機能アノテーション付けを行うwebサービス eggNOG-Mapper

2020 9/1 説明追記 2021 8/6 リンク追加 2023/08/10 気づいた事追記 重複イベントではなく種分化に由来するオーソロガス遺伝子の同定(Fitch 1970)は、新規遺伝子の機能的特性化に深い意味を持つ長年にわたる進化の問題である。 「オルソログ推測」では、同…

circosVCF

1000米ドル未満で全ゲノムをシーケンスするという目標が現実になり、医療における全ゲノムシーケンス利用が次第に増えている。 Genomics England (http://www.genomicsengland.co.uk/)などの大規模ゲノムプロジェクトは、数千のゲノムから収集された情報を…

GFF3を正確にソートする GFF3sort

HTML5とJavaScriptに基づく強力なゲノムブラウザとして、JBrowseは2009年にリリースされて以来広く使用されている[ref.1、2]。その構成ドキュメント[ref.3]によると、まず組み込みスクリプト「flatfile-to-json.pl」によってGFF3ファイル形式のゲノムアノテ…

haplotype-awareなVCFのアノテーションを行う BCFtools/csq

シーケンシングされたエクソームおよび全ゲノムサンプルの数が急速に増加しており、最も関心のあるバリアントの膨大な量のデータを迅速に選別できることが重要になっている。このプロセスの重要なステップは、シーケンスバリアントを取得し、機能効果のアノ…

植物の生合成遺伝子クラスターを予測するwebサービス plantiSMASH

バクテリア、菌類、植物は、それぞれが関与する多様な生物間相互作用において、地球全体で独自の特定の生態学的役割を持つ特殊な代謝産物の非常に多様性を生み出している。この多様な特殊な代謝は、医薬品、農業、製造業で広く使用されている天然物の豊富な…

ゲノム間のオロソログを予測してシンテシーブロックとして視覚化する Synima

オーソロガス遺伝子は、タンパク質または機能的RNA分子をコードする核酸のセクションであり、単一の祖先遺伝子から派生し、その後に種分化により分岐している[ref.1、2]。対照的に、パラロガスな遺伝子は、単一の種内の重複から生じたものである。 OrthoDB […

パンゲノム解析を行うためのprokaryotesゲノム情報のデータベース proGenomes2

2019 10/27 twitter追記2 019 10/27 ブラウザについて追記 大規模ゲノミクスは、微生物の理解を深めるために役立っている。微生物学は、数千のシーケンスされたゲノムを利用できるデータ集約型の分野に発展した(ref.1–3)。過去20年以上にわたり、シークエ…

包括的なメタゲノム解析パイプライン ATLAS

2019 10/26関連ツール追加、10/26 インストール手順修正、10/29 同上、10/29 コメント追加 2020 6/28 論文とツイート追記、実行手順は確認中、2/7, 4/27, 4/29 インストール手順とラン手順追記 2021 5/1 dockerインストール追記、5/12 バグ修正手順追記(非…

VCFとPEDから予測される家系、性別、祖先関係を元にサンプルの潜在的な汚染を見積もる Peddy(ヒト向け)

ヒトDNAシーケンス研究では、多くの場合、複数の研究所や個人によるDNAサンプルと関連するマニフェストの取り扱いが含まれる。 WESとWGSの両方のプロトコルには、シーケンス前の複数のDNA操作が含まれる。新しい手順や処理はそれぞれ、サンプルの混同、汚染…