macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

Nucleic Acids Research

アラインメントフリーの配列比較GUIツール CAFE

配列比較は、分子配列間の関係を研究するために広く使用されている。配列比較のための主なツールは、global(ref.1)およびlocal(ref.2)シーケンスアラインメントを含むアラインメントベースの方法である。 BLAST(ref.3)のようなアラインメントベースの…

バクテリアの表現型情報データベース BacDive

原核生物は、研究開発との関連性が高い多種多様な表現型形質を発現する。バクテリアのメタデータのホットスポットとしてよく利用できるのは、最初の(一次)文献で報告された種の説明と、生物資源センター(BRC)によって管理されているデータベースである(…

メタゲノムcontigのビニングとアノテーションwebサーバー BusyBee Web

メタゲノムシーケンシング、すなわち微生物混合群集から無差別に抽出されたDNAの全ゲノムシーケンシングは、分類学的組成および環境マイクロバイオームの機能的可能性を研究するために首尾よく使用されてきた(ref.1-4)。従来の単離培養工程の独立性は、費…

FragGeneScan

次世代シーケンシング技術の進歩は、環境試料(すなわちメタゲノム)内の遺伝物質の全コレクションを直接シーケンシングしようと試みるメタゲノム研究を促進した。メタゲノムアセンブリは利用できないことが多いので(論文執筆時点)、ショートリードから直…

バクテリア、アーキア、プラスミドの複製起点(ori)データベース DoriC

2019 6/21 誤字修正、コマンド修正 すべての生物において、DNA複製は複製機構の構築段階で正確に制御されている(ref.1)。複製起点は特定のゲノム遺伝子座であり、そこでは二本鎖DNAがほどけて一本鎖DNA鋳型を形成して新しい鎖の合成を開始する。大部分の細…

GO enrichment解析データベース agriGO v2.0

2019 6/13 追記 エンリッチメント解析は、大量の遺伝子リストに関連する機能を決定し、生物学的過程を解釈する可能性を高めるための効率的かつ迅速な方法である(ref.1)。Biological processes(BP)、molecular functions(MF)、cell components(CC)に…

OrthoVenn2

注意 2019 6/24 追記 6/25 編集 すでに比較されているデータについては問題ありませんが、手持ちのmulti-fsstaをアップロードして調べる場合、シングルラインのfastaににしておかないとそれぞれのfastaの先頭行のみ使ってしまうようです。以下のperlスクリプ…

リファレンスフリーで低メモリかつ高速にSNVとsmall indelを予測する DiscoSnp ++

次世代シーケンス(NGS)データは生命メカニズムへの前例のないアクセスを提供する。特に、これらのデータは染色体、個体または種間の遺伝的差異を評価することを可能にする。そのような多型は、農学、環境または医学における多数の用途を有する生物学の多く…

メタゲノムのアセンブリ配列からプラスミド配列を予測する PlasFlow

プラスミドは、変化する環境条件下で急速な進化とそれらの宿主の適応を促進するmobile genetic elementsである(ref1,2)。プラスミドは、宿主細胞内で自律的に複製するの染色体外のDNA断片であり、細菌種において広く存在している。既知のプラスミドの大部…

machine leraningも併用するmetagenomeのビニングツール Autometa

2019 4/22 誤字修正 2019 5/6 リンク追記 2019 6/23 ランのstep1,2 の説明修正 微生物は、人間を含む地球上のほとんどすべての生物に繋がることが知られており、そこでは微生物は健康、病気および農業に多大な影響を与えると考えられている(ref.1-3)。しか…

cell free DNAサンプルのSVを検出する SViCT

精密腫瘍学における現在の課題は、患者における腫瘍の進行を追跡する能力である(例えば治療への反応)。これに対する古典的なアプローチは、異なる時点で組織生検を実施することであろう。これは高価で時間がかかるプロセスであり、そしてこれは侵襲的処置…

ゲノムのCRISPR座位を見つけるwebツール CRISPRCasFinder

Clustered regularly interspaced short palindromic repeats(CRISPR)および関連タンパク質(Cas)は、CRISPR-Casシステムを形成する。 CRISPRは、スペーサーと呼ばれる同じサイズのユニークな配列で区切られた、24〜50 bpの長さのダイレクトリピートまた…

オルソログデータベース OrthoDB

ゲノムシーケンシングは、遺伝子の完全なレパートリーを明らかにし、分子レベルでの細胞プロセスの研究を可能にする可能性を有する、生物の分子調査のための最も包括的な方法である。相同性、共有された祖先の証拠としての遺伝子配列の類似性認識は、他の種…

アンプリコンシーケンシングのアセンブルとクオリティフィルタリングツール moira

16SリボソームRNAなどのマーカー遺伝子のハイスループットシークエンシングは、複雑な微生物群集の分析においてこれまで到達できなかった詳細なレベルの分析を可能にするため、微生物生態の研究者にとって非常に貴重なツールとなっている。 Roche 454、Illum…

テロメア長を推定する telseq

テロメアは染色体の末端を覆い、ゲノムの完全性の維持に重要な役目を担っている。ヒトでは、テロメアは5〜15kbのTTAGGGタンデムリピートの配列、およびそれらのテロメア結合タンパク質(論文より ref.1)から構成される。テロメラーゼまたは代替の経路が存在…

Freiburg RNA tools

RNA生物学は分子生物学および生物医学研究における重要なtopicである。biological systemsにおけるRNAの機能は e.g., 病気のプロセスに関するイノベーション(1)からCRISPR-Casに基づく最近の遺伝子編集のイノベーション(2,3)に至るまで、複雑で範囲が広…

アセンブリ配列やゲノムから遺伝子配列をblast検索できるwebツール SimpleSynteny

異なる生物ゲノムの保存されたシンテニーのパターンを理解することは、分子生物学の分野における中心的な事業である。元々synteny(以後シンテニー)は細胞遺伝学によって定義され、単一の染色体上に位置する2つ以上の遺伝子座の存在を言及した(論文より re…

メタゲノムシーケンシングデータからMLST タイピングを行う MetaMLST

高分解能の微生物菌株同定およびトレースは、臨床および研究環境の両方において重要な課題である。微生物の菌株レベルのタイピングのための最も一般的な方法の1つは、すべての株に存在することが知られている少数の種特異的ゲノム遺伝子座(通常は7つ)をシ…

メタゲノムデータのtaxonomy assignmentを行う k-SLAM

微生物群集から直接抽出されたDNAの研究は、全ゲノムショットガンシーケンシングによって革命を起こした。バクテリア、ウイルス、真菌の種から数十億の短いDNA配列をサンプリングする能力は、多様な生態系の分類学的構成ならびにその中で起こっている過程を…

ロングリードのハイブリッドエラーコレクションツール Hercules

2018 10/15 誤字修正 2019 5/23 ”make -j 8”に修正, docke help追記 ハイスループットシーケンシング(HTS)技術は、ゲノミクスの分野に革命をもたらしたが、2つの基本的な制限がある。まず第一に、プラットフォームはまだ染色体のロングリードを生成するこ…

クラスタリングツール MeShClust

ヌクレオチド配列をクラスタリングすることは、生物学的データを分析するための必須ステップである。冗長性を減らし、次世代のシークエンシングデータ(論文より ref.1-6)およびゲノムをde-novoアセンブリするための先駆的な配列クラスタリングツール(ref.…

NGSデータまたはアセンブリからバクテリアやアーキアのtaxanomic assignmentを行い、ゲノムのnoveltyなどを評価する MIGA

Small subunit ribosomal RNA gene (16S)は、30年以上にわたり、原核生物種およびそのコミュニティの多様性をカタログ化および研究するために首尾よく使用されてきた。しかしながら、16S(論文より ref.1)によって効率的に評価することができない種および…

BatAlign

シーケンシングリードのリファレンスゲノムへのアライメントは、通常、ほとんどのゲノム解析の第一歩で歩い。しかし、全リードがリファレンスゲノムを正確に表していないため、シーケンシングリードをゲノム変異をまたいでリファレンスゲノムに戻すことは難…

gANIを計算するツール ANIcalculator

微生物は数と多様性の両方で生命の樹木を支配しており、その自然分類を困難かつ重要なものにしている。動物では、種は一般に交配可能な生物群と定義されるが(biological species concept)、この定義は無性生物の集合体に直接適用することはできない。結果…

Reference-assisted assemblyのツール: CSARをwebで使える CSAR-web

DNAシーケンシング技術の継続的な進歩により、適度なコストでますます多くのゲノムが迅速にシーケンシングできるようになっている(論文より ref.1)。しかしながら、現在のDNAシーケンシングプラットフォームから生成された膨大な数のリードのアセンブリに…

既知の二次代謝産物生合成遺伝子クラスターを検出する antiSMASH

2019 6/17 インストール追記 二次代謝産物または特殊代謝産物とも呼ばれる天然の産物(Natural products)は、多くの薬の基礎であり、農業および栄養学の応用にとって重要な分子でもある。さらに、分子生物学および細胞生物学の多くの側面を研究する化学プロ…

deeptools

deeptools2のペーパーより ハイスループットシーケンスデータのデータの分析は、引き続き研究者にとって大きな課題となっている。ハイスループットシーケンシングを用いた実験の多様性が急速に高まっているため、分析パッケージの数が増加し、洞察に富んだ視…

GUIで操作できるVCFのフィルタリング・分析ツール VCF.Filter

次世代シークエンシングは疾患関連遺伝子変異体の発見を容易にし、ルーチンの臨床診療における遺伝子診断に広く使用されている。Variant call format(VCF)は、医療遺伝学の研究および診断からの遺伝子変異データを報告するためのコミュニティ標準となって…

Genomic islandsを検出し視覚化する IslandViewer

ゲノムアイランド(GIs)は、一般に、バクテリアゲノムまたはアーキアゲノムにおける水平伝達が起源の遺伝子のクラスターとして定義される(wiki)。GIはゲノム進化の主要な推進因子であり、ニッチ(論文より ref.1,2)内のバクテリアおよびアーキアの適応度…

真核生物のRNAのコード領域を予測するGeneMarkS-T

GeneMarkS-T は教師なし学習でトレーニングされたRNAのタンパク質コード領域を予測ツール。原核生物向けのGeneMarkSを真核生物向けに拡張して作られた。データサイズに寄らず一定の検出率を示すため、データが莫大になるメタトランスクリプトーム解析のコー…