macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

Nucleic Acids Research

テロメア長を推定する telseq

テロメアは染色体の末端を覆い、ゲノムの完全性の維持に重要な役目を担っている。ヒトでは、テロメアは5〜15kbのTTAGGGタンデムリピートの配列、およびそれらのテロメア結合タンパク質(論文より ref.1)から構成される。テロメラーゼまたは代替の経路が存在…

Freiburg RNA tools

RNA生物学は分子生物学および生物医学研究における重要なtopicである。biological systemsにおけるRNAの機能は e.g., 病気のプロセスに関するイノベーション(1)からCRISPR-Casに基づく最近の遺伝子編集のイノベーション(2,3)に至るまで、複雑で範囲が広…

アセンブリ配列やゲノムから遺伝子配列をblast検索できるwebツール SimpleSynteny

異なる生物ゲノムの保存されたシンテニーのパターンを理解することは、分子生物学の分野における中心的な事業である。元々synteny(以後シンテニー)は細胞遺伝学によって定義され、単一の染色体上に位置する2つ以上の遺伝子座の存在を言及した(論文より re…

メタゲノムシーケンシングデータからMLST タイピングを行う MetaMLST

高分解能の微生物菌株同定およびトレースは、臨床および研究環境の両方において重要な課題である。微生物の菌株レベルのタイピングのための最も一般的な方法の1つは、すべての株に存在することが知られている少数の種特異的ゲノム遺伝子座(通常は7つ)をシ…

メタゲノムデータのtaxonomy assignmentを行う k-SLAM

微生物群集から直接抽出されたDNAの研究は、全ゲノムショットガンシーケンシングによって革命を起こした。バクテリア、ウイルス、真菌の種から数十億の短いDNA配列をサンプリングする能力は、多様な生態系の分類学的構成ならびにその中で起こっている過程を…

ロングリードのハイブリッドエラーコレクションツール Hercules

2018 10/15 誤字修正 2019 5/23 ”make -j 8”に修正, docke help追記 ハイスループットシーケンシング(HTS)技術は、ゲノミクスの分野に革命をもたらしたが、2つの基本的な制限がある。まず第一に、プラットフォームはまだ染色体のロングリードを生成するこ…

クラスタリングツール MeShClust

ヌクレオチド配列をクラスタリングすることは、生物学的データを分析するための必須ステップである。冗長性を減らし、次世代のシークエンシングデータ(論文より ref.1-6)およびゲノムをde-novoアセンブリするための先駆的な配列クラスタリングツール(ref.…

NGSデータまたはアセンブリからバクテリアやアーキアのtaxanomic assignmentを行い、ゲノムのnoveltyなどを評価する MIGA

Small subunit ribosomal RNA gene (16S)は、30年以上にわたり、原核生物種およびそのコミュニティの多様性をカタログ化および研究するために首尾よく使用されてきた。しかしながら、16S(論文より ref.1)によって効率的に評価することができない種および…

BatAlign

シーケンシングリードのリファレンスゲノムへのアライメントは、通常、ほとんどのゲノム解析の第一歩で歩い。しかし、全リードがリファレンスゲノムを正確に表していないため、シーケンシングリードをゲノム変異をまたいでリファレンスゲノムに戻すことは難…

gANIを計算するツール ANIcalculator

微生物は数と多様性の両方で生命の樹木を支配しており、その自然分類を困難かつ重要なものにしている。動物では、種は一般に交配可能な生物群と定義されるが(biological species concept)、この定義は無性生物の集合体に直接適用することはできない。結果…

Reference-assisted assemblyのツール: CSARをwebで使える CSAR-web

DNAシーケンシング技術の継続的な進歩により、適度なコストでますます多くのゲノムが迅速にシーケンシングできるようになっている(論文より ref.1)。しかしながら、現在のDNAシーケンシングプラットフォームから生成された膨大な数のリードのアセンブリに…

既知の二次代謝産物生合成遺伝子クラスターを検出する antiSMASH

2019 6/17 インストール追記 二次代謝産物または特殊代謝産物とも呼ばれる天然の産物(Natural products)は、多くの薬の基礎であり、農業および栄養学の応用にとって重要な分子でもある。さらに、分子生物学および細胞生物学の多くの側面を研究する化学プロ…

deeptools

deeptools2のペーパーより ハイスループットシーケンスデータのデータの分析は、引き続き研究者にとって大きな課題となっている。ハイスループットシーケンシングを用いた実験の多様性が急速に高まっているため、分析パッケージの数が増加し、洞察に富んだ視…

GUIで操作できるVCFのフィルタリング・分析ツール VCF.Filter

次世代シークエンシングは疾患関連遺伝子変異体の発見を容易にし、ルーチンの臨床診療における遺伝子診断に広く使用されている。Variant call format(VCF)は、医療遺伝学の研究および診断からの遺伝子変異データを報告するためのコミュニティ標準となって…

Genomic islandsを検出し視覚化する IslandViewer

ゲノムアイランド(GIs)は、一般に、バクテリアゲノムまたはアーキアゲノムにおける水平伝達が起源の遺伝子のクラスターとして定義される(wiki)。GIはゲノム進化の主要な推進因子であり、ニッチ(論文より ref.1,2)内のバクテリアおよびアーキアの適応度…

真核生物のRNAのコード領域を予測するGeneMarkS-T

GeneMarkS-T は教師なし学習でトレーニングされたRNAのタンパク質コード領域を予測ツール。原核生物向けのGeneMarkSを真核生物向けに拡張して作られた。データサイズに寄らず一定の検出率を示すため、データが莫大になるメタトランスクリプトーム解析のコー…

リファレンスゲノム情報を使ってcontigをソートし、ギャップクローズのPCRプライマーを自動設計するProjector 2

Projector 2はリファンレンスのゲノムを使い、de novo assemblyで作ったcontigをconcatenateして、さらに隣接したcontigを跨ぐ特異的なプライマーを自動設計して、Finishingを助けるツール。contigの接続の指標となる参照するゲノムはドラフトでも使える。リ…

バクテリアの保存されたgene clusterを探し、結果をビジュアル表示する Gecko3

Gecko3は複数ゲノムを比較して、保存された遺伝子クラスターを検出する方法論。ユーザーが指定した特定の遺伝子群について関連のある遺伝子や遺伝子クラスターを検索することができるSTRINGなどのデータベースと異なり、Gecko3は調べたい生物群の全遺伝子を…

近縁な何百~何千のバクテリアの系統解析を行うGubbins

GubbinsはpyhtonとCで実装されたごくごく近縁なバクテリアの系統解析やSNV検出を行う方法論。 インストール Github https://github.com/sanger-pathogens/gubbins brewで導入できる。 brew install gubbins ラン ランにはマルチプルアライメント実行済みのフ…

graftM

gtaftMは指定した遺伝子ファミリーをメタゲノムデータから探し出し、あらかじめ作成した系統樹に配置するためのツール。 インストール 依存ツール orfM (straightforwardなORF検出) https://github.com/wwood/OrfM/releases ダウンロードしてビルドする。 …

ハイブリッドアセンブルを行うquickmerge

quickmergeは、ロングリード情報を使い、アセンブルのcontiguityを向上させるツール。特にロングリードのカバレッジがmodestな時にcontiguityが大きく向上するとされる。他のツールのアセンブル結果を入力ファイルとする。 インストール Github https://gith…

マルチプルアライメントを行うMAFFT

2019 6/13 説明及びインストール追記 2019 6/21 コマンド微修正 2019 7/3 説明修正 2019 7/15 help追記 2019 9/29 twitter追加 2019 11/4 関連追加 2019 11/13 誤字修正 MAFFT開発秘話。私が4回生で宮田研に加わった時、まず手動で多重アラインメントする訓…

tRNAやtmRNAをゲノムから素早く検出する ARAGORN

2019 2/15 Biocondaインストール追加、バッチモード追加 2019 3/10 タイトル修正 2019 5/50 インストール方法追記 ARAGORNは既存のtRNAとのホモロジーや二次構造などを手掛かりにゲノム中からtRNAやtmRNAを探すツール。 webサーバー ARAGORN, tRNA (and tmRN…

タンパク質ドメインを検索する HMMER

2019 6/25インストール追記 HMMERはタンパク質のドメイン検索に使われるツール。Pfamなどのタンパク質ドメインのデータベースを使い、ドメインの検索を行ってアノテーションをつけることができる。ここではhmmscanを試す。 webサーバー https://www.ebi.ac.u…

rRNAを探索する RNAMMER

fastaからrRNA配列を探すツール。アノテーションに使えるのはもちろんだが、それだけでなく、de novo transcriptome解析などで、rRNAにマッピングされるリードを排除するため、rRNAをもれなく検索したい時などにも使えると思われる。 webサーバー版 http://w…