macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

2018

ディープラーニングを用いた微生物ゲノムのビンニングツール Vamb

メタゲノミクスワイドゲノム配列データからの微生物種の同定と再構築は、重要かつ挑戦的な課題である。現在の既存のアプローチは、複数のサンプルにわたる遺伝子またはコンティグの共分散情報と、配列中のk-mer組成情報に依存している。ここでは、最近のディ…

: 高次元データのクラスタリングと可視化のためのインタラクティブな教育用ウェブリソース ClusterEnG

クラスタリングは、何らかの尺度に従って類似したデータポイントをグループ化することにより、大規模データセットの構造を発見するための最も強力で広く利用されている分析手法の一つである。R(R Core Team, 2015)やPython(Pedregosa et al., 2011)のような…

ヒトとマウスの ロングノンコーディングRNAのアノテーションをつける lncFunTK

ロングノンコーディングRNA(lncRNA)とは、200塩基より長いノンコーディング転写物を指す。現在までに、約58,000のlncRNAが様々な細胞型・組織に集積されているが、そのうち79%が新規性の高いものであり、その生物学的機能は未だ解明されておらず(Iyer et a…

ChIP-Atlas

代表的なモデル生物6種(ヒト、マウス、ラット、ミミズバエ、線虫、出芽酵母)から得られた公開されているクロマチン免疫沈降シークエンス(ChIP-seq)とDNase-seqデータ(n>70,000)を完全に統合し、ChIP-Atlas(http://chip-atlas.org)と名付けられたデー…

kallistoのアセンブリツールabeona

(途中まで省略) アノテーション付きのリファレンスゲノムを持つ生物のハイブリッドシーケンシング研究により、Iso-Seqリードを含める転写産物アイソフォームの選択的スプライシングに対する感度が向上したという証拠が見つかった。(一文省略) Iso-Seqリ…

ユーザー提供のゲノムfastaからwgMLSTおよびcgMLST解析 を行う chewBBACA

細菌ゲノム疫学やアウトブレイク検出において、遺伝子ごとのアプローチがますます普及してきている。しかし、これらの方法論のためのスキーマ定義や対立遺伝子呼び出しのためのオープンソースのスケーラブルなソフトウェアが不足している。chewBBACAスイート…

LTRレトロトランスポゾンを識別可能な割合でゲノムアセンブリを評価するIndex; LAI

2020 11/7 タイトル修正 2020 11/8 感想追加 2020 11/11 誤字修正, タイトル修正(”主に植物”を削除) 構造的特徴に基づくコンピュータプログラムを用いたLTR要素の同定は効率的であるが(10,11)、多数の偽陽性(4)に悩まされている。最近、インタクトなLTRレ…

ゲノムアセンブリからLTR-RTを同定する LTR_retriever

2020 11/6 追記 Long terminal repeat retrotransposons (LTR-RT)は植物ゲノムに多く存在する。LTR-RTの同定は、高品質な遺伝子アノテーションを実現するために重要である。しかし、これらのプログラムは特異性が低く、偽発見率が高いという問題があった。こ…

fastqのクオリティ分析を行う Quack

ハイスループットDNAシーケンシングツールによって生成されたデータの品質は、そのデータが生物学的発見にどの程度役立つかを判断するために迅速に評価されなければならない。データセットのサイズがますます大きくなり、迅速な品質評価が重要になっているた…

入力プロテオームから類似したタンパク質のデータベースを自動検索し、プロテオームから近い種を調べる AAI-profiler

全ゲノムショットガンシーケンスは、分類学的分類の再評価を推進し、シングルセルゲノミクスの出現は生物多様性に関する知識を大きく広げている(1)。これらすべての応用分野において、分類学的分類に関するオリジナルの文献を検索するよりも、配列データを直…

注釈付きで検索可能な微生物のインベントリ The Microbe Directory

次世代シークエンシング技術の出現により、ここ10年で、ヒトのマイクロバイオームから環境(水や土壌)、都市の表面に至るまで、メタゲノムやマイクロバイオーム研究が急増している。これらの研究はすべて、発見された配列をサンプルに見られる分類学的プロ…

マルチプルシーケンスアラインメントを行う Clustal Omega

Clustal Omega は、複数配列のアラインメント(MSA)を作成するためのパッケージである。利用可能な配列数が大幅に増加していることと、大きな配列を迅速かつ正確に作成する必要性に対応するために、約10年前に開発された。過去30年間で最も広く使われてきた…

インタラクティブなレポートを出力するONTのクオリティコントロールツール pycoQC

2020 7/21 コマンドでダブルスペースになっていた部分を修正 核酸のナノポアシーケンシングは、開発に30年近くを要し、現在では合成法によるシーケンシングの代替手段として確固たる地位を確立している(Deamer, Akeson, & Branton, 2016)。オックスフォード…

2倍体ゲノムアセンブリからHaplotigsを追い出してPrimary contigsを出力する Purge Haplotigs

2020 7/11 図追加 2020 7/13 タイトル修正 2020 7/15 コメント追記 第三世代の1分子シーケンシングにおける最近の進歩は、非常に高いレベルの連続性と完全性を持つde novoゲノムアセンブリを可能にした。さらに、最近の「diploid aware」なゲノムアセンブラ…

mito-finder

核内ゲノムをアセンブルしている間に、Falconやcanu、その他の素晴らしいアセンブラはミトコンドリアゲノムのアセンブルに完全に失敗しているか、ミトコンドリアゲノムのアセンブルを誤っていることに気がついた。ミトコンドリアゲノムが入力DNAの大部分より…

複数リファレンスゲノムを使用したコンティグのスキャホールディングツール Multi-CSAR

ショートリードからゲノム配列をアセンブリするプロセスの重要なステップの一つに、ドラフトゲノム中のコンティグを順序付け、方向付けを行うスキャフォールディングがある。現在、単一のリファレンスゲノムをベースにしたいくつかのスキャフォールディング…

ジッタープロットを作成する SinaPlot

データ駆動型サイエンスの最近の発展により、研究者は複数のソースからのデータを、多様な実験手順やデータベース上で統合するようになった。特にデータポイントの数がクラス間で異なる場合、データを正確に可視化する上で大きな課題となっている。サンプル…

最小スパニングツリーの計算と視覚化を行う GrapeTree

2020 6/5 誤字修正 2020 6/8 追記 7つのハウスキーピング遺伝子に基づくレガシーMLST(multilocus sequence typing)は20年前に導入され(Maiden et al. 1998)、現在では多数の細菌病原体の特徴付けに日常的に使用されている(Jolley and Maiden 2014)。MLSTは、…

糖質活性酵素(CAZymes)のアノテーションを行うdbCAN2 webサーバーと、ローカルでアノテーション を行う run_dbcan

炭水化物は、核酸、タンパク質、脂質とともにすべての細胞に存在する4つの主要な生体高分子の1つである。炭水化物には、単糖類、オリゴ糖、多糖類がある。糖タンパク質や糖脂質などの他の生体高分子に糖質が共有結合したハイブリッド生体高分子は、糖質複合…

インタラクティブな主成分分析webサービスによってRNA seqデータを分析する PCAGO

過去10年の間に、全トランスクリプトームのシークエンス(RNA-Seq)は、多様な分子機構を理解し、様々な生物学的問題に取り組むための強力な技術として浮上してきた。RNA-Seq実験の初期段階では、異なる遺伝子発現レベルに基づいた生物学的サンプルの初期特…

GO annotation分析ウェブサービス WEGO2

2020 4/26 タイトル修正 WEGO (Web Gene Ontology Annotation Plot) は、2006年に発表された、GO (Gene Ontology) のアノテーション結果を可視化、比較、プロットするためのシンプルで便利なツールである。ハイスループットシーケンシングの急速な発展とGOの…

パスウェイデータベース間の共通性を探索、分析、キュレーションする ComPath

パスウェイは生物系の解析や表現に広く利用されているが、明確な境界線がなく、多数のデータベースに分散しており、相互運用性がないため、それらの間の網羅性、一致性、不一致を評価することができない。本研究では、データベース間のパスウェイマッピング…

メタゲノムの機能プロファイリングを行う HUMAnN2

2020 4/19 流れを修正 2020 4/21 biom出力とh5pyインストール追記 2020 ステップ2のコマンド修正 微生物群集の機能プロファイルは、通常、包括的なメタゲノムやメタトランスクリプトーム配列の検索を用いて作成されるが、これらの検索は時間がかかり、偽の…

トキシン・アンチトキシンデータベース TADB 2.0

トキシン・アンチトキシン(TA)系は、最初はプラスミド中毒(addiction)モジュールとして同定されたが、ほとんどの自由に生きている細菌の染色体上に非常に豊富に存在する。TA系は、栄養飢餓(ref.1,2)、プログラムされた細胞死(ref.3)、バクテリオファージ…

可変数のタンデムリピート(VNTR)をジェノタイピングする adVNTR

全ゲノムシークエンシングは、臨床パイプラインでメンデルバリアントを同定するために使用されることが多くなってきている。これらのパイプラインでは、より複雑な繰り返し配列のバリアントを無視して、一塩基変異(SNV)や構造変異に焦点を当てている。ここ…

blast結果をインタラクティブなヒートマップで視覚化する BLASTmap

植物と病原体の相互作用の結果を決定する多数の遺伝子が現在発見されている。たとえば、免疫受容体、感受性因子、病原体エフェクター、およびそれらの宿主標的など。ターゲットエンリッチメントシーケンスは、遺伝子型固有のゲノムアセンブリを最初に生成す…

インタラクティブなヒートマップを描く heatmaply

2020 2/29 誤字修正 クラスターヒートマップは、高次元のデータを視覚化するための一般的なグラフィカルな方法である。その中で、数値のテーブルは、色付きセルのタイル状のマトリックスとしてスケーリングおよびエンコードされる。マトリックスの行と列は、…

KEGGのパスウェイアノテーション結果を視覚化する KEGG-Decoder

2020 2/25 わかりにくい説明を修正 好気性非酸素発生型光合成生物(AAnP)は海洋環境で一般的であり、光従属栄養活動に関連している。現在までに、炭素固定の可能性を持っているAAnPは、表層海洋では確認されていない。 Tara Oceansメタゲノムデータセットを…

オルソログのPhylogenetic profiles分布を視覚化する PhyloProfile

Phylogenetic profilesは、種間の遺伝子の有無パターンを捕捉する(Pellegrini et al、1999)。特定の種にオルソログが存在することは、対応する機能も表されていることの証拠となることがよくある(Lee et al、2007)。さらに、2つの遺伝子がそのPhylogenet…

バクテリア(パン/メタ)ゲノムのグラフを構築する ptolemy

比較ゲノム研究における長年の制限は、リファレンスゲノムへの依存である。これにより、生物集団全体で特定できる遺伝的多様性のスペクトルを妨げる。これは、ゲノムアーキテクチャが大幅に異なる可能性のある微生物の世界で特に当てはまる。したがって、リ…