macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

原核生物の遺伝子配列をGenBankファイルから簡単に検索するためのウェブツール BAGET 2.0

細菌ゲノムや古細菌ゲノムの完全シークエンスから単一の遺伝子配列とコンテキストを検索することは、ウェットベンチ生物学者にとっては気が遠くなるような作業である。既存のウェブベースのゲノムブラウザは、日常的に使用するには複雑すぎるか、原核生物ゲ…

BURST

次世代のDNAシーケンシングデータが計算能力が追いつかないほどの速さで出現しているため、基本的なDNAアライメント/マッピングの問題に対する近似ヒューリスティックな解法がますます使われるようになってきている。逆説的なことに、データが増えれば増える…

ディープラーニングを用いた微生物ゲノムのビンニングツール Vamb

メタゲノミクスワイドゲノム配列データからの微生物種の同定と再構築は、重要かつ挑戦的な課題である。現在の既存のアプローチは、複数のサンプルにわたる遺伝子またはコンティグの共分散情報と、配列中のk-mer組成情報に依存している。ここでは、最近のディ…

GO エンリッチメント解析を実行し、バックグラウンドセットと比較して過剰に存在する語彙を調べる FunSet

遺伝子オントロジーエンリッチメント解析は、複雑な生物学的データセットから意味のある情報を抽出する効果的な方法を提供する。遺伝子セットの中で有意に過剰発現している語彙を特定することで、研究者は遺伝子が共有する生物学的特徴を明らかにすることが…

インタラクティブな出版品質の合成 Figure作成webツール canvasDesigner2

Scalable Vector Graphics (SVG) は、拡張可能なマークアップ言語 (XML) ベースのベクトル画像フォーマットであり、png, gif, jpg のような他の一般的な画像フォーマットのようにぼやけたピクセル化をすることなく、任意の解像度に拡張可能である。この形式…

ゲノム中のISエレメントを探す ISEScan

ISEScanは、ゲノム中のIS(Insertion Sequence)エレメントを同定するためのPythonパイプラインである。完全なISエレメントを報告するか、完全なISエレメントと部分的なISエレメントの両方を報告するかのオプションがある。メテゲノムアセンブリに含まれるISエ…

事前計算された植物の遺伝子ファミリーの系統樹 PhyloGenes

著者らは、シロイヌナズナや他のモデル生物から得られた遺伝子機能に関する知識を、他の植物種に正確かつ効率的に伝達できるようにすることを目指している。このような知識移転は、植物の系統における個々の遺伝子やゲノム全体の重複のために、植物において…

メタゲノムのキュレーションされたメタデータ公開リポジトリ TerrestrialMetagenomeDB

微生物群集の遺伝的可能性に着目したマイクロバイオーム研究(メタゲノム研究)は、微生物生態学の分野では標準的なものとなった。MG-RASTとSequence Read Archive (SRA)という2つの主要なメタゲノムリポジトリには、202,858以上の公開メタゲノムがあり、そ…

CCSリードの精度を推定する Yak

Githubより Yakは当初、2つの特定のユースケースのために開発された。1) CCSリードとアセンブリコンティグの塩基精度をロバストに推定すること、2) CCSリードの系統的なエラー率を調査することである。ショートリードのk-merスペクトラムと配列を比較したり…

MetaRon

細菌の遺伝子は環境刺激に反応して効率的に制御され、オペロンとして知られるユニークな遺伝子クラスターを形成している。このように、オペロンの参照情報や機能情報が不足しているため、オペロンの予測は困難である。 本研究では、MetaRon(Metagenome and w…

効率的なゲノムファイル(FASTQ、SAM/BAM/CRAM、VCF、GVF、FASTA、PHYLIP、23andMe)の圧縮器 Genozip

ゲノムデータのための汎用的で機能が充実した圧縮ソフトウェアであるGenozipを紹介する。Genozipは、汎用性(一般的なゲノムファイル形式をすべてサポート)、高圧縮率、高速性、機能性、拡張性の5つのコア機能を提供することで、ゲノム圧縮のための汎用ソフ…

メタゲノムの組成を解析する CAMAMED

メタゲノミクスは、分子ゲノミクス、微生物生態学、データ解析が交差する学際的な研究分野である。この分野の主な研究対象は、ある環境に存在する微生物のゲノム総量を指すメタゲノムである。メタゲノミクスは、ハイスループットゲノムシークエンシング技術…

データベースの汚染を調べる conterminator

公的・私的リポジトリのゲノム数は、少なくとも過去10年間で急増しており、その主な理由は、塩基配列決定にかかる費用が急速に低下したことにある。また、公開されているゲノムデータベースGenBankは、EMBLやDDBJと定期的に同期しており、約18ヶ月ごとにその…

: 高次元データのクラスタリングと可視化のためのインタラクティブな教育用ウェブリソース ClusterEnG

クラスタリングは、何らかの尺度に従って類似したデータポイントをグループ化することにより、大規模データセットの構造を発見するための最も強力で広く利用されている分析手法の一つである。R(R Core Team, 2015)やPython(Pedregosa et al., 2011)のような…

IGVのtips その2

2021 2/17 tips追記 IGVをより便利に使う方法はないでしょうかという質問があったので、今日は自分が知っているIGVのtipsをいくつか紹介します。 IGVの公式動画チャンネルがあります。 統合TVでもIGVの基本的な使い方について分かりやすく説明されています …

nf-coreのampliseqパイプライン

2021 2/13 誤字修正 微生物群集の構成を明らかにし、微生物集団の動態を解明し、環境試料中の微生物の多様性を探るための主要な手法の一つとして、DNAやRNAを用いた16S rRNA(遺伝子)アンプリコンシークエンシングとバイオインフォマティクス解析を組み合わ…

RNAseqのDEGsを視覚化する DrEdGE

Differential Expression Gene Explorer(DrEdGE)はウェブベースのツールで、インタラクティブなオンラインのデータビジュアライゼーションを簡単に作成できるようにgenomicists(*1)を案内する。 DrEdGEの機能を、公開されているデータセット(ヒトの神経…

condaの代わりに高速なmambaを使う

2021 2/11 誤りを修正 Githubより Mamba は C++ での conda パッケージマネージャの再実装です。マルチスレッドを使ったリポジトリデータとパッケージファイルの並列ダウンロード、依存関係の解決をより高速にするための libsolv、Red Hat、Fedora、OpenSUSE…

nf-coreのDeepVariantパイプライン

nf-core/deepvariantより 2017年12月にGoogleブレインチームがDeepLearningをベースにしたVariant Caller, DeepVariantをリリースした。DeepVariantはまずBAMファイルに基づいて画像を構築し、次にDeepLearningの画像認識アプローチを使用してバリアントを取…

生殖細胞バリアントや体細胞バリアントを検出する自動化されたパイプライン Sarek

2021 2/9 タイトル修正 2021 2/12, 2/15コマンド追記 2021 5/16 コメント追記 全ゲノムシークエンシング(WGS)は、精密医療の発展のための研究の基盤技術であるが、WGS解析のためのポータブルで使いやすいワークフローが限られていることが、多くの研究グルー…

配列をアセンブリグラフにマッピングしてグラフを拡張する minigraph

最近のシーケンシング技術の進歩により、個々のゲノムを参照ゲノムの質に合わせて組み立てることが可能になった。同一種からの複数のゲノムを統合し、統合された表現を生物学者が利用できるようにするにはどうすればよいのかは、依然として未解決の課題であ…

GraphBin2

メタゲノムシークエンシングは、微生物群集の構造、多様性、生態を純粋な培養物を得ることなく研究することを可能にする。多くのメタゲノム研究では、メタゲノムシークエンシングから得られたリードは、最初に長いコンティグにアセンブリされ、これらのコン…

ロングリードからトランスポゾンを検出する TELR

TELR(Tellerと発音)は、ロングリードシーケンシングデータ(PacBioまたはOxford Nanopore)からの高速な非リファレンストランスポーザブルエレメント(TE)検出器である。TELRは、リファレンスゲノムにマッピングされたロングリードを使用してSnifflesを使…

RNAのロングリードを分析する IsoQuant

IsoQuantは、PacBioやOxford Nanoporesのような長いRNAリードのリファレンスベース解析のためのツールである。IsoQuantは、リファレンスゲノムにリードをマッピングし、それらのイントロンとエクソンの構造に基づいて、アノテーションされたアイソフォームに…

ハイブリッドアセンブリとビニング及び下流解析を行う自動化されたパイプライン MUFFIN

2021 2/5,2/6 出力例追記 2021 2/11 論文引用 メタゲノミクスは微生物学の多くの分野を再定義した。しかし、メタゲノムアセンブルゲノム(MAG)は、主にショートリードでシーケンスが行われた場合、断片化されていることが多い。最近のロングリードシーケン…

TPMCalculator

次世代シークエンシング技術は、我々が生物系を分析する方法を変え、RNAシークエンシング(RNA-seq)が標準的な手順になった。ほとんどのRNA-seq実験はサンプル間の転写産物量を測定および比較を行う。これはさまざまな実験条件下で遺伝子発現プロファイルを…

DNA・RNA・タンパク質の物理化学的特徴を調べるためのGUIアプリケーション VisFeature

2021 2/2 タイトル変更 遺伝子やタンパク質の一次配列から機能的属性を予測するバイオインフォマティクスアルゴリズムの開発には多くの努力がなされてきた。その際の課題の一つとして、ヒューリスティック手法や反復法によって選択された統計的特徴を直感的…

染色体イデオグラムや染色体間のシンテニープロットを描画する RIdeogram

近年、シーケンシング技術の発展、特にPacific Biosciences(Eidら、2009)およびOxford Nanopore Technologies(Laverら、2015)を含む第三世代シーケンシングの急速な進歩、BioNanoゲノムマッピング(Caoら、2014)およびハイスループットクロマチンコンフ…

メタゲノムの生合成遺伝子クラスター予測と多様性評価を行う BiG-MEx

微生物は、特殊な代謝経路の酵素をコードする物理的にクラスタ化された遺伝子である生合成遺伝子クラスター(BGC)を発現することにより、膨大な種類の天然物を生産している。これらの天然物は、工業的・医学的利用価値の高い幅広いケミカルクラス(アミノグ…

ANIを計算する改善されたアルゴリズム orthoani

細菌・古細菌における種の分類は、主にゲノム全体の関連性に基づいて行われており、現代の微生物学の枠組みとなっている。現在、2つの系統間の類似度は、実験的に決定されたDNA-DNAハイブリダイゼーション(DDH)による類似度から、ゲノム配列に基づく類似度…