macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

Preprint

ユーザーが関心のある遺伝子の周辺配列の相同性を調べる Flanker

2021 3/1 renameコマンド修正 関心のある遺伝子の周囲の配列を解析することは、特に抗菌薬耐性遺伝子などの水平遺伝子導入におけるmobile genetic elements (MGEs) の役割を理解する上で非常に重要であることが多い。ここでは、一貫した形式で遺伝子のフラン…

BURST

次世代のDNAシーケンシングデータが計算能力が追いつかないほどの速さで出現しているため、基本的なDNAアライメント/マッピングの問題に対する近似ヒューリスティックな解法がますます使われるようになってきている。逆説的なことに、データが増えれば増える…

ディープラーニングを用いた微生物ゲノムのビンニングツール Vamb

メタゲノミクスワイドゲノム配列データからの微生物種の同定と再構築は、重要かつ挑戦的な課題である。現在の既存のアプローチは、複数のサンプルにわたる遺伝子またはコンティグの共分散情報と、配列中のk-mer組成情報に依存している。ここでは、最近のディ…

インタラクティブな出版品質の合成 Figure作成webツール canvasDesigner2

Scalable Vector Graphics (SVG) は、拡張可能なマークアップ言語 (XML) ベースのベクトル画像フォーマットであり、png, gif, jpg のような他の一般的な画像フォーマットのようにぼやけたピクセル化をすることなく、任意の解像度に拡張可能である。この形式…

ハイブリッドアセンブリとビニング及び下流解析を行う自動化されたパイプライン MUFFIN

2021 2/5,2/6 出力例追記 2021 2/11 論文引用 メタゲノミクスは微生物学の多くの分野を再定義した。しかし、メタゲノムアセンブルゲノム(MAG)は、主にショートリードでシーケンスが行われた場合、断片化されていることが多い。最近のロングリードシーケン…

メタゲノムの生合成遺伝子クラスター予測と多様性評価を行う BiG-MEx

微生物は、特殊な代謝経路の酵素をコードする物理的にクラスタ化された遺伝子である生合成遺伝子クラスター(BGC)を発現することにより、膨大な種類の天然物を生産している。これらの天然物は、工業的・医学的利用価値の高い幅広いケミカルクラス(アミノグ…

ロングリードRNA seqの転写産物レベルのリードカウントとスプライシングアイソフォーム検出を行う LIQA

2021 1/28 カテゴリ追加、タイトル修正 ロングリードRNAシーケンシング(RNA-seq)技術により、転写産物全長の配列決定が可能となり、従来のショートリードRNA-seqよりもアイソフォーム特異的な遺伝子発現の探索が容易になった。しかし、ロングリードRNA-seq…

RNAの二次構造を予測する UFold 

多くのRNA分子にとって、二次構造はRNAの補正機能に欠かせないものである。ヌクレオチド配列からRNAの二次構造を予測することは、ゲノミクスにおける長年の課題であるが、予測性能は時間の経過とともにプラトーに達している。従来のRNA二次構造予測アルゴリ…

(ヒト、マウス、ラット)RNA seqの前処理からリードカウントまで行うスケーラブルなパイプライン SPEAQeasy

2021 1/25 わかりくい説明を修正、タイトル修正 RNAシーケンシング(RNA-seq)は、一般的で広く普及している生物学的アッセイであり、それによって生成されるデータの量は増加している。実際には、生のRNA-seqリードから発現変動遺伝子などの直接的に価値の…

原核生物のゲノムアセンブリでキメラや汚染を調べる GUNC

2021 1/18 解析例追加 ゲノムは原核生物の系統の遺伝的青写真であり、現在進行中の微生物世界のセンサスの中心にある微生物学の基本単位であり、微生物の生態と進化の研究に不可欠なものである。1995年に細菌の完全なゲノムが初めて公開されてから25年が経ち…

CoronaSPAdes

2021 2/2 追記 COVID-19 パンデミックを契機に,コロナウイルス研究への関心が高まっている.コロナウイルスデータセットの解析は、リードアラインメントまたはde novo assemblyを用いて完全長ウイルスゲノム配列を得ることから始まる。リードアラインメント…

バリアントコーラー FreeBayes

ハプロタイプベースのバリアント検出方法は、一度に1つの位置で動作する方法に比べて多くの利点を提供する。ハプロタイプベースの方法は、同じコンテキストで対立遺伝子のすべてのクラスを同時に評価することにより、記述されたバリアント間の意味の一貫性を…

リファレンスフリー、アラインメントフリーの系統比較ツール SANS serif

計算パンゲノミクスや系統樹解析では、複数のゲノムを並行して解析することが大きな課題となっている。系統樹の再構成の従来のアプローチは、マーカー遺伝子のような特定の配列のアラインメントに基づいている。しかし、複数の配列のアラインメントの問題は…

マッピングなしでraw fastqからバリアントコールを行う KATK

KATKは、raw NGSリードから直接バリアントをコールするための高速かつ正確なソフトウェアツールである。KATKは、あらかじめ定義されたk-merを使用してFASTQファイルから興味のあるリードのみを取得し、取得したリードをローカルにアラインメントすることで遺…

elPrep5

2021 2/10 v5 リリースへのリンク追加 elPrep 5は、シーケンスアライメント/マップファイルをバリアントコーラーで処理するためのelPrepフレームワークを更新したものである。elPrep 5は、バリアントコールのためのGATKベスト・プラクティスに記載されている…

ハプロタイプを考慮してドラフトゲノムアセンブリをポリッシュする Hapo-G

1分子シーケンシング技術は最近、Pacific BiosciencesとOxford Nanoporeによって商業化され、長いDNA断片(キロベースからメガベースのオーダー)をシーケンシングし、効率的なアルゴリズムを使用して、反復領域の連続性と完全性の点で高品質のアセンブリを…

HiFiロングリードの de Bruijn Graphsアセンブラ jumboDB

2020 12/14 間違いを修正。 de Bruijnグラフは多くのゲノムアセンブラの基礎となっているが、大規模なゲノムや大きなk-merサイズに対してどのようにしてこれらのグラフを構築するかは不明なままである。このアルゴリズムの課題は、最近、代替ストリンググラ…

de novoでTEを見つけてアノテーションをつけるパイプライン EDTA

シーケンス技術とアセンブリアルゴリズムは成熟し、大規模で反復性のあるゲノムでも高品質なde novoアセンブリが可能になってきた。現在のアセンブリは、トランスポーザブルエレメント(TE)をトラバースし、TEのアノテーションを可能にしている。各エレメン…

MGSE

2020 12/9 インストール追記 染色体の大きさは顕微鏡で測定できるが、ゲノムの大きさは正確には測定できない。生化学的手法やk-mer分布に基づくアプローチでは、推定しかできない。本研究では、高い連続性のセンブリとショートリードマッピングに基づいてゲ…

ロングリードおよび長い配列のアライナー LRA

1分子シークエンシング(SMS)装置からのロングリードや、SMSアセンブリからのメガベーススケールのコンティグをアラインメントしてバリエーションを検出することは、計算量的に困難である。長い配列を効率的にアラインメントするための1つのアプローチは、…

ヒトとマウスのショートオープンリーディングフレーム(sORF)のデータベース MetamORF

ハイスループット技術の開発により、ほとんどの真核生物のRNAにnon-canonicalなショートオープンリーディングフレーム(sORF)が存在することが明らかになった。これらは、種を超えて高度に保存されたユビキタスな遺伝的要素であり、多くの細胞プロセスに関…

リピートの多いゲノム配列にロングリードをマッピングするために最適化されたアライナー Winnowmap

ヒトゲノムの約5~10%は、セグメント重複やタンデムリピート配列などの繰り返し配列が存在するため、機能解析にアクセスできない状態になっている。高品質な個人ゲノムのリシークエンシングを可能にするためには、リピートを考慮したリードマッピング手法を…

NCBIのデータベースへのリモート検索によって保存された遺伝子クラスターを探索し、クラスタリングして視覚化する cblaster

2020 11/11 extractコマンド追記 代謝、薬剤耐性、病原性などの生物学的パスウェイに関与する遺伝子は、多くの場合、遺伝子クラスターとしてクラスター化されている。相同な遺伝子クラスターを特定することは、その機能や進化の研究に役立つが、既存のツール…

GO enrichmet解析結果を視覚化する MonaGO

2020 11/10 誤字修正 MonaGOは、遺伝子オントロジー(GO)エンリッチメント解析を実行し、結果を可視化するための直感的でインタラクティブな応答性の高いインターフェイスを提供する、新しいウェブベースの可視化システムである。MonaGOは、ダイナミックな…

遺伝子クラスターを比較してインタラクティブな図で視覚化する clinker(clustermap.js含む)

2020 11/8 誤字修正 2020 11/10 preprint引用追加 2020 12/15 追記 2021 1/19 論文引用 生物学的パスウェイに関与する遺伝子は、多くの場合、遺伝子クラスターに集まっており、それらを比較することで、その機能や進化の歴史についての貴重な洞察を得ること…

高速かつ低メモリ使用量でlarge genomeのde gbrujin graphを構築する Cuttlefish

ゲノム解析において、リファレンスゲノムの大規模なコレクションからコンパクトなde Bruijnグラフを構築することは、ますます関心が高まっている課題である。例えば、compacted colored reference de Bruijn graphsは、ショートリードとロングリードのアライ…

de novo transcriptomeの系統解析と機能解析を行うwebツール TRAPID 2.0

ハイスループットシーケンシングの進歩は、RNA-Seqトランスクリプトームデータの膨大な増加をもたらした。しかし、特定の組織、状態、単細胞生物、微生物群集での迅速な遺伝子発現プロファイリングが期待されているが、新たな計算上の課題もある。リファレン…

(プロテイン)レシプロカルベストヒットを抽出する getRBH.pl

タンパク質配列の迅速な比較のためのソフトウェアの著者は、そのソフトウェアの速度を評価し、その結果をそのタスクのための最も一般的なソフトウェアと比較しているが、より特殊な用途、例えば、Reciprocal Best Hit(RBH)としてのオルソログの発見のよう…

一般的なラボのデータ分析を高速化するshinyアプリケーション FaDA

RプログラミングShinyパッケージを用いて開発されたWebベースのデータ解析・可視化ツールが研究者に提案されることが増えている。これらのツールは、様々な視点からデータを解析したり、インタラクティブな可視化を提供したりするのに便利である。そのため、…

マルチプルシーケンスアラインメント(MSA)のクリーニングツール CIAlign

生物学の分野では、生物学的な特徴や関係性を調べるための多くの調査の基礎となっているのが、複数の配列のアラインメント(MSA)である。これらのアラインメントは、多くのバイオインフォマティクス解析の中心となっている。しかし、MSAの配列は不完全であ…