macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

2021-07-01から1ヶ月間の記事一覧

魚類の比較ゲノム解析と可視化のためのWebベースツール Evol2Circos

ハイスループット次世代シーケンシング技術の登場とアセンブリアルゴリズムの改良により、膨大なゲノムデータがパブリックドメインに蓄積されるようになった。これらの技術は、大規模な比較ゲノム研究への参入を可能にし、特に種間で保存されたシンテニーブ…

ゲノムの配列同一性を比較する BubbZ

2021 7/31 タイトル修正 ペアの全ゲノム相同性マッピングは、一対のゲノム間で相同性のある区間のすべてのペアを見つける問題です。ここ数年、利用可能な全ゲノムの数が飛躍的に増加しているため、よりスケーラブルなホモロジーマッパーが必要とされている。…

ビニングして得たfastaのファイル名とヘッダ名を一括リネームする

2022/03/06 duplicated IDの配列の修正にseqkit renameを使うように修正 2023/08/10追記 mm2-fastについて紹介しましたが、上手く導入できなかったたため一旦非公開にしました。失礼しました。代わりに簡単な記事を書きます。 メタゲノムのビニングが終わっ…

minimap2を高速化した mm2-fast

2022/06/14 ツイート追加 ロングリードシーケンシングは、ゲノミクスやトランスクリプトミクスの分野で日常的に使用されている。ロングリードやドラフトゲノムアセンブリを参照配列にマッピングすることは、これらのアプリケーションにおいて最も時間のかか…

プライマリーゲノムアセンブリにおけるハプロタイプ重複の特定と除去を行う purge_dups

2021 12/22 コマンド追記 ロングリードシーケンシングとスキャフォールディング技術の急速な発展により、大規模な真核生物ゲノムのリファレンスクオリティのアセンブリの作成が加速している。しかし、ヘテロ接合性の高い領域におけるハプロタイプの分岐は、…

原核生物のゲノムアノテーションを比較する ORForise

モデル生物の過去のゲノムアノテーションに基づいて行われてきたオープンリーディングフレーム(ORF)予測ツールの偏りは、新規ゲノムやメタゲノムの理解に影響を与えている。これは、予測が既存の知識に偏ることになるため、新しいゲノム情報の発見を妨げる…

遺伝子とゲノムの比較を視覚化するCRANパッケージ genoPlotR

進化のパターンとプロセスを推測し、表現型の違いをゲノムの変化に関連付けるために、遺伝子とゲノムの比較がますます使用されている。最近の高スループットシーケンステクノロジーの出現により、比較ゲノミクスにおけるメソッドと視覚化ツールの必要性が大…

JavaScriptライブラリに基づいてインタラクティブなCircosプロットを生成するRパッケージ interacCircos

JavaScriptベースのCircosライブラリは、ウェブアプリケーションでインタラクティブなCircosプロットを生成するために広く実装されている。しかし、これらのライブラリは、ローカルにインストールする必要があり、余分なライブラリをコンパイルする必要があ…

Bandageのreduceコマンドを使ってアセンブリグラフから特定のノードを取り出す

Bandageのreduceコマンドを使うと、アセンブリググラフの中のターゲット配列を、隣接するノードと一緒に取り出すことができます。また、特定のカバレッジ範囲内にあるアセンブリグラフだけ取り出したりもできるため、メタゲノムアセンブリから一定の存在量の…

NanoporeシークエンシングデータからディファレンシャルRNAの修飾を同定する xPore

RNAの発現の違いは、細胞の分子的アイデンティティ、ヒトの疾患に関与するパスウェイ、臨床表現型に関連する患者間のRNAレベルのばらつきなどについての洞察を提供する。m6AのようなRNA修飾は、RNAの分子機能に寄与することがわかっている。しかし、RNAの修…

SOAPdenovo-fusionを使ってmegahit アセンブリのscaffoldingを行う

SOAPdenovo2のレポジトリより MEGAHITは、シングルセルシーケンシングデータとメタゲノムシスデータに対応していおり、SOAPdenovoと比較して、より少ないメモリ消費量でより長いコンティグを生成する。MEGAHITで生成されたコンティグをscaffoldingにするには…

ウィルスメタゲノムのビニングのための効率的な深層学習ツール CoCoNet

メタゲノム解析は、微生物群集の特徴を明らかにし、マイクロバイオームと生物学的プロセスの複雑な関連性を解明する可能性を秘めている。アセンブリは、メタゲノミクス実験において最も重要なステップの1つである。アセンブリとは、重複するDNAシーケンスリ…

ノイズの多いロングリードからの完全長de novoウイルスハプロタイプ再構築を行う Strainline

非常に多様なウイルスゲノムのハプロタイプを解決したデノボアセンブリは、ウイルス疾患の予防、制御、治療に不可欠である。現在の方法では、比較的精度の高いショートリードデータしか扱えないか、ハプロタイプ特有の変異をコンセンサス配列に折り込んでし…

マイクロバイオーム解析リソース MGnify

マイクロバイオームの研究には、通常、特定の環境(biomeとして知られている)からの微生物の集合的な遺伝物質の研究が含まれる。この多様で拡大している研究分野(バイオーム、方法、科学的質問の幅の観点から)は、世界の海洋の深海水と堆積物(1〜3)から…

rboAnalyzer

NCBI BLAST出力からノンコーディングRNA(ncRNA)の特性評価を向上させるためのウェブサービスを、コマンドラインアプリケーションrboAnalyzerをベースに提供する。簡単に説明すると、このアプリケーションはBLAST出力に含まれる選択されたhigh scoring pairs …

コンティグごとにユニークなk-merを取り出す UniqueKMER

UniqueKMERはfastaファイルのコンティグごとにユニークなk-merを生成する。ユニークなk-merは、あるコンティグにのみ存在し、他のコンティグには存在しないk-merキーで構成されている(順鎖、逆鎖の両方)。本ツールは、多数のコンティグで構成されたFASTAフ…

De Novo Variantsを正確に発見するためのマッピング不要のフレームワーク Kevlar

遺伝性変異は複雑な遺伝性疾患における主要な寄与因子であると推測されている。多くの遺伝性疾患の遺伝率は比較的高いと推定されている。例えば、自閉症スペクトラム障害(ASD)の遺伝率は0.6を超え、統合失調症の遺伝率は0.5を超える。この遺伝性のごく一部…

ショートリードまたはロングリードのシーケンスデータからウイルスや微生物を迅速に同定する fastv

本論文では、ショートリードまたはロングリードのシーケンスデータからウイルスや微生物を迅速に同定するためのツールセットと関連リソースを紹介する。fastvは、シーケンシングデータ中に存在する微生物の配列を検出し、対象となる微生物を同定し、微生物ゲ…

Genome Detective Coronavirus Typing Tool

Genome detectiveは、次世代シーケンサーのデータセットから既知の全てのウイルスゲノムを迅速かつ正確にアセンブルする、ウェブベースの使いやすいソフトウェアアプリケーションである。このアプリケーションでは、アセンブルされたFASTA形式のゲノム配列か…

MetaPhlAnなどの出力からGraPhlAn用のアノテーションファイルとツリーファイルを作成する Export2graphlan

export2graphlanは、GraPhlAn用の注釈ファイルとツリーファイルの両方を作成するための変換ソフトウェアツールである。特に、アノテーションファイルでは、どのノードが重要であるかを入力ファイルから自動的に導き出し、特定のサブツリーを強調しようとする…

メタゲノムアセンブリゲノムの下流解析のための再現性のあるパイプライン MAGpy

2022/02/20 追記 メタゲノミクスは、環境中に存在するすべてのゲノムからDNAをアッセイするための強力なツールである。近年のバイオインフォマティクスの進歩により、ほぼ完全なメタゲノム・アセンブル・ゲノム(MAG)の迅速なアセンブルが可能になっており…

(ヒトゲノム)非コード領域のバリアントの機能を評価するウェブサーバー DeepFun

ゲノムワイド関連研究(GWAS)で同定された遺伝子変異の90%以上は、ヒトゲノムの非コード領域に存在する。ここでは、非コード領域の遺伝子変異の機能的活性を評価するための、ユーザーフレンドリーなウェブサーバー「DeepFun」(https://bioinfo.uth.edu/de…

真核生物ゲノムのコアプロモーターの予測を行う TSSfinder

プロモーターのアノテーションは、ゲノムを解析する上で重要な作業である。このタスクの主な課題の一つは、プロモーター領域と遺伝子の転写領域の境界である転写開始点(TSS)の位置を特定することである。TSSは、転写複合体の組み立てを担うDNA配列を特定す…

ユーザー指定のリストから系統樹を生成するwebサービス phyloT

Helpより phyloTは、NCBI taxonomyまたはGenome Taxonomy Database(GTDb)に基づいて、系統樹を自動的に生成する。NCBI taxonomyは、様々なソースからの系統学的および分類学的知識を取り入れることを試みており、NCBIをソースとして使用しているphyloTが生…

Minimizer-spaceの de Bruijn graphsを構築し、超高速・低メモリアセンブリを行う rust-mdbg

2021 9/17 論文引用 2023/08/03 更新(metaMDBGとしてまちがって更新していた分を移動) DNAシーケンサーのデータは、リードが長くなり、シーケンスエラー率がますます低くなる傾向にある。ここでは、このようなリードをゲノムにアセンブルする問題に注目し…

アンサンブルブートストラップにより、系統樹の信頼性をより正確に推定する MUSCLE v5

系統樹の信頼性は、多くの場合、Felsensteinブートストラップ法を用いてマルチプルシーケンスアラインメント(MSA)から推定される。しかし、この方法では、MSAの系統的な誤差を考慮していないため、推定される系統樹に大きな偏りが生じる可能性がある。ここ…

European Nucleotide Archiveへのゲノムアノテーションサブミットを容易にするコンバーター EMBLmyGFF3

過去20年にわたり、多くのシーケンスアノテーションツールが開発され、生命のツリーのすべてのkingdomの幅広い生物の比較的正確なアノテーションの作成を容易にしている。ゲノム内で注釈が付けられた機能を記述するために、Generic Feature Format(GFF)が…