macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

2016

ANIを計算する改善されたアルゴリズム orthoani

細菌・古細菌における種の分類は、主にゲノム全体の関連性に基づいて行われており、現代の微生物学の枠組みとなっている。現在、2つの系統間の類似度は、実験的に決定されたDNA-DNAハイブリダイゼーション(DDH)による類似度から、ゲノム配列に基づく類似度…

多様なヒートマップを作図できるwebサービス Heatmapper

2021 1/19 誤字修正 Heatmapperは自由に利用できるWebサーバであり、ユーザーは使いやすいグラフィカルなインターフェースを使って、データをヒートマップの形でインタラクティブに視覚化することができる。既存の非商用のヒートマップパッケージは、グラフ…

高速なハプロタイプバリアントコーラー LocHap

Somatic mosaicismとは、単一の生物学的サンプル中の体細胞の一部に体細胞変異が存在することである。その重要性は主に理論的に議論されてきたが、実験的な研究により体細胞モザイクと疾患診断との関連性が明らかになりつつある。本研究では、健康なドナーの…

(主に微生物)代謝モデルのデータベース BiGG Models

BMC Bioinformatics. 2010 Apr 29;11:213 COBRA(Constraint Based Reconstruction and Analysis)フレームワークに基づくゲノムスケールの代謝再構成は、生物の代謝能力を解析し、実験データを解釈するための貴重なツールである。このような再構成や解析手…

RepeatMasker

RepeatMasker は、DNA 配列をスクリーニングして、散在したリピート配列や、複雑性の低い DNA 配列を検出するプログラムである。プログラムの出力は、クエリ配列に存在するリピートの詳細なアノテーションと、アノテーションされたリピートがすべてマスクさ…

NCBI Genome のBrowse by Organism機能

2020 10/25 追記 ハイスループットシークエンシング技術の普及により、NCBIなどの塩基配列データベースに登録されるゲノム数は爆発的に増大している。BLAST検索をやり直したら少し前は無かったゲノム情報が出てきた、という話も度々耳にする。特にバクテリア…

バクテリアゲノムの比較ゲノム解析を行うwebサービス EDGAR

Bergey's Manual of Systematics of Archaea and Bacteriaより 次世代シークエンシングアプローチの展開により、完全にシークエンシングされたゲノムの数は急速に増加している。その結果、単一ゲノムだけでなく、関連する大規模なゲノム群を比較的に解析する…

De brujin アセンブラ BCALM 2

シーケンシング実験あたりのデータ量が増加するにつれて、フラグメントアセンブリはますます計算量が増加している。De Bruijn graphは、フラグメントアセンブリアルゴリズムで広く使用されているデータ構造で、リードのセットからの情報を表現するために使用…

インタラクティブなオンラインの系統樹ツール Interactive Tree Of Life (iTOL) v4

2020 7/2 誤字修正 系統樹は、生物学やその他の科学分野において重要なツールであり、様々なデータタイプのコンテキスト化としても機能している。このことは、このような系統樹を作成するためのツールが頻繁に使われていることからもわかる(MEGA, (ref.2))。…

IQ-TREE をwebで使える W-IQ-TREE

IQ-TREEはTREE-PUZZLEの後継プログラムであり、大規模な系統樹データの最尤解析を行うための効率的で汎用性の高い系統樹ソフトウェアである。IQ-TREEは効率的にツリー空間を探索し、RAxMLやPhyMLよりも高い尤度を達成することが多い。IQ-TREEの他の重要な特…

(ヒトゲノム)遺伝子の変異プロットを描く Lollipops

2020 4/22 重複した説明を削除 簡潔な可視化は、大量の情報を最小限のスペースで迅速に解釈できるよう提示するために非常に重要である。精密医療における臨床応用は、解釈の時間依存性のため、重要な使用例となっているが、生命科学の分野では可視化の必要性…

単一のメタゲノムアセンブリゲノム(MAGs)とシーケンシングデータからバクテリアの増殖率を推定する iRep

培養に依存しない微生物群集の研究により、微生物群集の複雑さと代謝の可能性に対する理解が深まった。ただし、コミュニティへの個々のマイクロバイオームメンバーの貢献を理解するには、どの細菌が活発に複製しているかを判断することが重要になる。ドラフ…

バクテリアゲノムの進化をシミュレートする SimBac

バクテリア全ゲノムシーケンシングは急速に普及しており、高解像度の遺伝情報を迅速かつ費用対効果の高い方法で提供することにより、multilocus sequence typing(MLST)に取って代わっている(Didelot et al、2012; Wilson、2012)。遺伝学的データを使用し…

Trinotateを使ってde novo transcriptome のアセンブリ配列にアノテーションをつける

2020 9/16 pythonのバージョンを指定して導入, configファイルについて追記 2020 9/16 コメント追加, signalPとTMHMM、rnammerの初期設定追加 2020 9/27 わかりにくい表現を修正 以前紹介したTrinotarteの説明が分かりづらかったので、簡潔にまとめ直します…

体細胞コピー数変化イベントを調べるFACETSをワンライナーで実行するcnv_facets

2019 12/27 誤字修正 Cancer Genome Atlas(TCGA)およびInternational Cancer Genome Consortium(ICGC)プロジェクトを含む大規模なシーケンス研究により、腫瘍と正常なサンプルペアの何万もの全ゲノム(WGS)および全エキソーム(WES)が生成された。対立…

ガン遺伝子パネルなどの変異をまとめた図を生成する GenVisRのwaterfall

超並列シーケンシング技術の継続的な開発により、生成されるゲノムデータの量が指数関数的に増加した(Kodama et al、2012)。この成長により、科学者はますます大規模なコホートレベルのゲノムデータセットを調査できるようになった。直感的な視覚化の生成…

CRISPR arrayを探すwebサービス CRISPRDetect

CRISPR-Casシステムは、バクテリオファージやプラスミドなどの外来遺伝物質からの保護を提供する原核生物の適応免疫システムである。特異性は、侵入するDNAまたはRNAを認識する短い非コーディングRNA(crRNA、CRISPR RNAと呼ばれる)によって提供される。こ…

PHYLUCE

保存された領域、または超保存 (ultraconserved) された領域(以下、保存された遺伝子座 (conserved loci) )のエンリッチメントは、非モデル生物(Faircloth et al、2012、2013、2015)の複数の時間スケールでの普遍的なphylogenomic analysesを可能にする…

GATKのgenotyping結果を反映したゲノム配列を出力する VCF2Genome

このメソッドはEAGERの機能の1つで、VCFファイルのバリアントを組み込んだFastAファイルを生成するために使用できる。 バクテリアのデータに特に有用である。この機能により、ユーザーは、ジェノタイピングの最低品質、カバレッジ、およびSNP対立遺伝子頻度…

MG-RAST(簡単な紹介)

分子生物学、とりわけ、微生物群集(メタゲノミクス分野)のハイスループットシーケンシングは、気候変動、環境汚染、人間の健康などに関わる微生物群集の組成と機能的内容の理解を急速に進歩させている。メタゲノミクスは、以前は実験室制御の培養に難しか…

多機能な配列処理ツール VSEARCH(USEARCHの代替)

2019 8/9 説明の誤り修正 2019 9/15 両鎖クラスタリングのコメント追加 Rockström et al. (2009) とSteffen et al. (2015) は、生物多様性の損失を人類の短期生存のための主要な脅威として提示した。シークエンシング技術における最近の進歩は、深海熱水孔か…

アンプリコンシーケンスのペアエンドリードマージツール MeFiT

次世代シークエンシング技術は,その開始以来,研究者が複雑なシステムから多面的な生物学的情報を抽出する方法を変え、ヒト疾患,環境科学、進化科学などの分野における研究を促進してきた。16S rRNA小サブユニット遺伝子、またはより一般的にはその一部のシー…

メタゲノムアセンブリを評価する MetaQUAST

2019 5/27 追記 メタゲノミクスは、環境サンプルから直接採取した遺伝物質を研究する。 NGS技術は、クローニングなしに少量の生物からDNAを抽出しショートリードシーケンシングすることを可能にする。しかし、そのような実験で作成されたデータは膨大でノイ…

proteomeをクラスタリングするデータベース FastaHerder2

タンパク質データベースのますます加速する成長により配列類似性および配列保存によるタンパク質機能研究に対して大きな可能性が提供される。しかしながら、これらのデータベースに蓄積された膨大な数のタンパク質配列はデータを分析しそしてオーガナイズす…

ロングリードを使ってハプロタイプフェージングを行う HapCol

ヒトなどの二倍体生物は、それぞれの親から1つずつ、2組の染色体を含んでいる。ハプロタイプと呼ばれる、各染色体の2つの異なるコピーを再構築することは、個体のゲノムを特徴付けるために重要である。このプロセスは、フェージングまたはハプロタイピングと…

ゲノムをダウンロードして総当たりANI比較を実行する pyani

2020 2/12 タイトル修正 2020 2/20 コメント追加 2020 2/25 インストール手順修正 2020 10/5 コマンド微修正 2020 10/9 インストール微修正 このモジュールはいくつかの代替方法のうちの1つに従って平均ヌクレオチド同一性ANIを計算する。ANIは、DNA-DNAハ…

DADA2

2019 10/26 boioconda インストール追記 Preprintより 微生物群集の人間および環境への健康への重要性は、それらの効率的な特徴付けのための方法に動機を与えている。最も一般的で費用効果の高い方法は、標的遺伝子エレメントの増幅および配列決定である。 1…

アンプリコンシーケンシングのアセンブルとクオリティフィルタリングツール moira

16SリボソームRNAなどのマーカー遺伝子のハイスループットシークエンシングは、複雑な微生物群集の分析においてこれまで到達できなかった詳細なレベルの分析を可能にするため、微生物生態の研究者にとって非常に貴重なツールとなっている。 Roche 454、Illum…

seqkitに新しく追加されたコマンドを確認する

2019 8/7 誤字修正 seqkitを以前ブログで紹介した時は0..6.0でしたが、1年半近く経ち、2018年12月20日現在ではバージョンが0.9.4まで上がっています。ありがたいことに、bug fixだけでなく、新しいコマンドが複数追加されています。v0.6.1以降に追加された…

multi-FASTA alignmentからSNPを抽出する SNP-sites

次世代シーケンシング(NGS)技術は、 Single Nucleotide polymorphism(SNP)発見のためにゲノムを大規模にリシーケンシングすることを容易にした。そのようなプロジェクト中に発見された何千ものSNPは、生物学的解釈および計算解析のためにいくらかの困難…