macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

cgMLSTコールから距離行列を出力する cgmlst-dists

タイトルの通りのツール。 ChewBBACA(Github)の出力に対応している。 インストール Github #bioconda (link)conda install -c bioconda cgmlst-dists#from sourcegit clone https://github.com/tseemann/cgmlst-dists.gitcd cgmlst-distsmake > cgmlst-dis…

infernal

infernalは、入力として与えられた構造的にアノテーションされた複数の配列アラインメントから、共分散モデル(CM)と呼ばれるRNAファミリーの配列と二次構造の確率的プロファイルを構築する。infernalは、共分散モデルを使用して、配列データベース内の新し…

メタゲノムのシーケンシングリードからアセンブリしてCRISPRsを探す Crass

Clustered Regularly Interspaced Short Palindromic Repeats (CRISPRs) は、バクテリオファージ(ファージ)から細胞を保護する細菌および古細菌の適応免疫システムを構成する。 CRISPR遺伝子座の分析により、ファージ感染の履歴が明らかになり、ファージと…

トランスポーターのデータベース TCDB

膜輸送体は、細胞の分子組成やエネルギー状態を決定するチャネル、キャリア、ポンプ、group translocators、電子輸送体などの複雑なネットワークを形成する多様なタンパク質のグループを構成している(ref.1)。これらのタンパク質は、細胞内の全タンパク質の…

ロングリードおよび長い配列のアライナー LRA

1分子シークエンシング(SMS)装置からのロングリードや、SMSアセンブリからのメガベーススケールのコンティグをアラインメントしてバリエーションを検出することは、計算量的に困難である。長い配列を効率的にアラインメントするための1つのアプローチは、…

ショートリードのアセンブラ Clover

次世代シーケンシング技術は、低コストでハイスループットのリードを生産することでゲノミクスに革命をもたらし、この進歩に伴いde novoアセンブラの開発が促された。de Bruijnグラフに基づく複数のアセンブラ法は、Illuminaリードに対して効率的であること…

NCBIのGenBankゲノムアセンブリ (GCA) とRefSeqゲノムアセンブリ(GCF)

2020/11/19 誤字修正 識別子がGCA_で始まるゲノムアセンブリは、GenBankアセンブリと呼ばれる。GenBankアセンブリは、ユーザーがサブミットしたゲノムアセンブリを意味する。一方、識別子がGCF_で始まるゲノムアセンブリは、RefSeqのアセンブリになる。こち…

ヒトとマウスのショートオープンリーディングフレーム(sORF)のデータベース MetamORF

ハイスループット技術の開発により、ほとんどの真核生物のRNAにnon-canonicalなショートオープンリーディングフレーム(sORF)が存在することが明らかになった。これらは、種を超えて高度に保存されたユビキタスな遺伝的要素であり、多くの細胞プロセスに関…

Viral quasispeciesのアセンブリを行う virus-vg

ウイルスは、遺伝的に関連のある突然変異株のコレクションであるquasispeciesとして宿主に寄生する。Viral quasispeciesのアセンブリは、リードデータから株固有のハプロタイプを再構築することであり、株間の相対的な存在量を予測することは、治療に関連し…

ターゲットの菌株の種類と豊富さを調べる mixtureS

環境試料中の細菌株を研究することは不可欠である。既存の方法やツールは、既知の菌株や変異株に依存していることが多く、個々のサンプルに対応できない、信頼性が低い、使い勝手が悪いなどの問題がある。そのため、より正確に菌株を同定できる、より使いや…

様々な種のバリアント情報をまとめたデータベース Genome Variation Map(GVM)

Genome Variation Map (GVM; http://bigd.big.ac.cn/gvm/) は、ゲノム変異の公開データリポジトリである。幅広い種のゲノム変異を収集・統合することを目的としており、世界中から様々な変異タイプの投稿を受け付けており、世界中の研究活動を支援するために…

ウィルスゲノムのアノテーションを行う VIGOR

遺伝子予測プログラムVIGOR(Viral Genome ORF Reader)は、2010年にJ.Craig Venter Instituteで開発され、感染症ゲノムシークエンシングセンターのプロジェクトでコロナウイルス、インフルエンザ、ライノウイルス、ロタウイルスの遺伝子コールに成功してい…

リピートの多いゲノム配列にロングリードをマッピングするために最適化されたアライナー Winnowmap

ヒトゲノムの約5~10%は、セグメント重複やタンデムリピート配列などの繰り返し配列が存在するため、機能解析にアクセスできない状態になっている。高品質な個人ゲノムのリシークエンシングを可能にするためには、リピートを考慮したリードマッピング手法を…

NCBIのデータベースへのリモート検索によって保存された遺伝子クラスターを探索し、クラスタリングして視覚化する cblaster

2020 11/11 extractコマンド追記 代謝、薬剤耐性、病原性などの生物学的パスウェイに関与する遺伝子は、多くの場合、遺伝子クラスターとしてクラスター化されている。相同な遺伝子クラスターを特定することは、その機能や進化の研究に役立つが、既存のツール…

GO enrichmet解析結果を視覚化する MonaGO

2020 11/10 誤字修正 MonaGOは、遺伝子オントロジー(GO)エンリッチメント解析を実行し、結果を可視化するための直感的でインタラクティブな応答性の高いインターフェイスを提供する、新しいウェブベースの可視化システムである。MonaGOは、ダイナミックな…

バクテリアの遺伝子配列を比較する LS-BSR

細菌単離株からの全ゲノム配列データが安価に入手できるようになるにつれ、配列データと生物学的観察結果を相関させる計算手法が必要とされている。ここでは、数百から数千の細菌ゲノムの遺伝的内容を迅速に比較し、調査した全ゲノムの全コーディング配列(C…

遺伝子クラスターを比較してインタラクティブな図で視覚化する clinker(clustermap.js含む)

2020 11/8 誤字修正 2020 11/10 preprint引用追加 生物学的パスウェイに関与する遺伝子は、多くの場合、遺伝子クラスターに集まっており、それらを比較することで、その機能や進化の歴史についての貴重な洞察を得ることができる。しかし、遺伝子クラスターの…

(主に植物)LTRレトロトランスポゾンを識別可能な割合でゲノムアセンブリを評価するIndex; LAI

2020 11/7 タイトル修正 2020 11/8 感想追加 2020 11/11 誤字修正 構造的特徴に基づくコンピュータプログラムを用いたLTR要素の同定は効率的であるが(10,11)、多数の偽陽性(4)に悩まされている。最近、インタクトなLTRレトロトランスポゾンの正確なde novo同…

ゲノムアセンブリからLTR-RTを同定する LTR_retriever

2020 11/6 追記 Long terminal repeat retrotransposons (LTR-RT)は植物ゲノムに多く存在する。LTR-RTの同定は、高品質な遺伝子アノテーションを実現するために重要である。しかし、これらのプログラムは特異性が低く、偽発見率が高いという問題があった。こ…

バクテリアの高精度なアセンブリツール Platanus_B

2020 11/6 誤字修正 ショート DNA リードのデノボアセンブリは、特に大規模プロジェクトや疫学における高解像度の変異解析に不可欠な技術であり続けている。しかし、既存のツールでは、近縁の菌株を比較するのに必要な十分な精度が得られないことが多い。こ…

16S rRNA OTUピッキングと視覚化を行うデータベース OTUX

多くのマイクロバイオーム研究では、リファレンスベースのoperational taxonomic unit (OTU)picking法を採用しているが、一般的には、完全長16S rRNA遺伝子のクラスタリングによって同定されたリファレンスOTUをカタログ化したデータベースに依存している…

複雑な構造多型の分析と視覚化を行う Svpluscnv

ほとんどの腫瘍種において体細胞構造変化(SV)が広く普及しているにもかかわらず、その分子的意味合いについての理解が不十分な場合が多い。SVはその大きさと複雑さが非常に不均一であり、その病原性の役割の解釈を妨げている。ガンの体細胞構造を完全に特…

異なるphylogenetic cladesで保存されているタンパク質を検索するwebサービス PhyloGene

同じパスウェイ、タンパク質複合体、または同じ環境条件で機能するタンパク質は、系統発生クレード全体で類似した配列保存パターンを示すことがある。特定のタンパク質複合体またはパスウェイをもはや必要としない種では、これらのタンパク質は、グループと…

データベースのFASTAファイルをBLASTでのアラインメントに適した小さな断片に分割する AlignBucket

次世代シークエンシング時代では、増え続ける生物学的配列やそのバリエーションを正確にアノテーションするための信頼性の高い、高速かつ効率的なアプローチが求められている。類似性検索に基づくアノテーションのtransferは、標準的なアプローチである。全…

10x genomicsのシングルセルRNA-seq解析パイプライン cellranger(version4について)

2020 10/31 説明を追加 Cell Rangerは、ChromiumのシングルセルRNA-seq出力を処理して、リードのアラインメント、フィーチャ-バーコードマトリックスの生成、クラスタリングと遺伝子発現解析を行う解析パイプラインのセットである。Cell Rangerには、シング…

配列比較結果を視覚化する

2020 11/2 誤字修正 先日紹介したneedleallやvsearchによるall versus allの配列比較のテキスト出力をもとに、ヒートマップで視覚化する。ここではggplot2パッケージを使う。 EMBOSS needleallによるall versus allの配列比較 1、配列の準備 all versus all…

All Versus Allの配列比較(sequence comparison)を行うEMBOSSの needleall

2020 10/29 vsearchのコマンド追記 needleall は入力された一連の配列を読み込み、それらをすべて 1 つ以上の配列と比較し、最適なグローバル配列のアラインメントをファイルに書き込む。Needleman-Wunschアライメントアルゴリズムを使用して、全長に沿った2…

タンパク質をコードする遺伝子配列の組換えイベントや正の選択下にある部位を見つける PoSeiDon

2020 10/27 テストデータ結果追記 選択圧力は、遺伝子の進化に継続的に影響を与え、多くの方法で研究することができる(Vittiら、2013)。例えば正の選択、または多様化する選択は、オルソロガスな遺伝子のアラインメントにおける非同義置換(dN)と同義置換…

高速かつ低メモリ使用量でlarge genomeのde gbrujin graphを構築する Cuttlefish

ゲノム解析において、リファレンスゲノムの大規模なコレクションからコンパクトなde Bruijnグラフを構築することは、ますます関心が高まっている課題である。例えば、compacted colored reference de Bruijn graphsは、ショートリードとロングリードのアライ…

柔軟な出力パラメータをもつ高速なORF予測ツール orfipy

転写物中のORFを検索することは、新たに配列決定されたゲノム中のコーディング領域をアノテーションする前の重要なステップであり、既知の遺伝子内の代替リーディングフレームを検索するための重要なステップである。RNA-Seqデータの驚異的な増加に伴い、大…