macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

docker

バリアントを考慮したリファレンスアラインメントの高速リフトオーバーを行う levioSAM2

テロメア単位の完全なゲノムアセンブリは、解析の向上や新しいバリアントの発見を期待できるが、多くの重要なゲノムリソースは古いリファレンスゲノムと関連したままである。そのため、リファレンスゲノム間のゲノムフイーチャーやリードアラインメントをト…

ロングリードcDNAシーケンスも利用できる真核生物ゲノムの自動化されたアノテーションツール LoReAn

1分子完全長相補DNA(cDNA)配列決定は、転写産物の構造やスプライス形態を明らかにすることで、ゲノムアノテーションを支援することができるが、現在のアノテーションパイプラインにはそのような情報が組み込まれていない。本研究では、ロングリードアノテ…

メタゲノミクスデータ中のバクテリオファージの解析、アノテーション、分類のための自動化パイプラインMetaPhage

ここ数十年、微生物叢、特にヒトの腸内細菌叢の研究と特性評価に大きな関心が寄せられ、常在微生物が人体の正常な解剖学的発達と生理的機能に極めて重要な役割を果たすことが明らかにされている。異なる環境を特徴づける複雑な細菌の動態をよりよく理解する…

アセンブリした配列から欠落している領域を調べる SASpector

原核生物ゲノムのショートリードアセンブリにおける欠損領域は、しばしばシーケンス技術の偏りや繰り返しエレメントに起因するとされ、前者は特定の遺伝子座のシーケンスカバレッジの低さ、後者はde novoアセンブリグラフの未解決ループに起因するとされる。…

ロングトランスクリプトームリードから遺伝子融合を高精度に検出する Genion

次世代シーケンサーの登場により、様々なトランスクリプトーム研究が行われるようになった。その中でも、多くのがん種で観察され、発がん性が疑われている遺伝子融合は、広く研究されているテーマである。遺伝子融合は、2つの遺伝子が近接して配置され、融合…

(ヒト)パスウェイエンリッチメント解析のためのウェブアプリケーション DecoPath

過去20年間で、パスウェイデータベースとパスウェイエンリッチメント法は着実に発展してきた。しかし、パスウェイデータの出現に伴い、データベース間の相互運用性が改善されていないため、複数のデータベースから得られたパスウェイ知識をパスウェイ・エン…

(SARS-CoV-2) シーケンシングリードの迅速なデコンタミネーションを行う ReadItAndKeep

臨床検体から得られたウイルス配列データには、人為的な汚染が含まれていることが多い。これらは、法的・倫理的な理由により、共有する前に除去する必要がある。ホストリードの除去を可能にし、低スペックのノートパソコンでSARS-CoV-2のシーケンスデータを…

S. cerevisiaeの変異を同定するための自動化されたパイプライン MutantHuntWGS

MutantHuntWGSは、Saccharomyces cerevisiaeの全ゲノムシーケンスデータを解析するためのユーザーフレンドリーなパイプラインである。オープンソースのプログラムを使用している。(1) ペアエンドおよびシングルエンドリードのシークエンスアラインメント、(2…

Heterogeneityを考慮してシーケンスロゴを生成する MetaLogo

シーケンスロゴは、短い配列の保存性やバリエーションを視覚的に表示するために使用される。これにより、DNAやタンパク質の配列の固定パターンや保存されたモチーフを示すことができる。しかし、一般的なシーケンスロゴジェネレーターの多くは、入力されたす…

Nanopore RNAseqのためのフルスタックで軽量なウェブサーバ Duesselpore

トランスクリプトームのゲノムワイドな解析は、既知のすべての生物種の生理学の基礎となる分子メカニズムに関する広範な洞察を提供し、まだ隠されているものを発見することを可能にする。近年、オックスフォード・ナノポア・テクノロジー(ONT)は、次世代シ…

大規模な微生物の比較ゲノミクスのためのモジュラー式のツール PanACoTA

2021 9/8 修正 2021 9/9 誤字修正 2021 9/10 prokkaのバージョンによるエラー修正 (依存するライブラリの関係でpython3.7の環境に導入するように修正した), --prodigalのオプション消去 2021 10/15 docker imageのコマンド追記 2021 10/18 annotate追記 2021…

全ゲノムバイサルファイトシーケンスデータのためのエンドツーエンド解析パイプライン wg-blimp

DNAシークエンスが開発されて以来、遺伝的変異に関する多くの研究が行われてきたが、エピジェネティックなレベルでの広範な研究は最近になって登場した。生体内のほとんどの細胞は、そのゲノム配列が同一であるが、組織や細胞の種類によっては、それぞれのア…

真菌ゲノムのアノテーションパイプライン FunGAP

ゲノム解析が成功するかどうかは遺伝子予測の質にかかっている。fungalゲノムの解読とアセンブルは容易になったが、そのアノテーション手順はまだ標準化されていない。FunGAP は、真菌ゲノムアセンブリ中のタンパク質をコードする遺伝子を予測するプログラム…

De novoでメタゲノムのbiological marker(サンプル間に共通する領域)を探す MetaMarker

全メタゲノムシーケンス(WMS)は微生物群集を研究するための新しいアプローチである。研究者らはWMSを使用してヒトのマイクロバイオームが結腸癌、細菌性膣炎、糖尿病、クローン病などのさまざまな疾患と密接な関係があることを発見した(Cho and Blaser、2…

原核生物のゲノムに存在するISエレメントを高感度に検出する digIS

ISエレメントは、原核生物のゲノムの中で最も小さく、最も多く存在する mobile elementsである。ISエレメントは、ゲノムの構成や進化に重要な役割を果たしていることが示されている。宿主ゲノムにおけるISエレメントの機能をよりよく理解するためには、効果…

(シングルセル)メタゲノムアセンブリの機能的アノテーションを行う METABOLIC

マイクロバイオーム科学の進歩は、メタゲノミクスやシングルセルゲノミクスを用いて混合微生物群集から再構築されたゲノムから、微生物の生態を研究・推論できるようになったことが大きな要因となっている。このようなオミックスに基づく技術は、微生物のゲ…

VCFファイルをテーブル形式に単純化する VcfSimplify

BiostarsとGithubより VCFファイルを管理・変更するツールはいくつかあるが、バイオインフォマティクスのサポートを受けていない生物学者が必要とする最も単純な出力を生成することができるシンプルで包括的なツールはまだない。このツールは、ソートされたV…

Nextflowで使うdockerイメージのサイズを減らす

2021 5/6 誤字修正 昨日の記事で、dockerイメージを指定してNextflowをランする例を紹介しました(リンク)。nextflow.configのprofile{ } でdocker{ }を指定しておく方法です。 nextflowのラン。-profile dockerを指定する。 nextflow variant_call_freebay…

Nextflowを使ってバイオインフォマティクスのツールを動かす その2

2021 5/5 コードの改行 (\) を除去 2021 5/6 説明を修正 Nextflowは2018年のアップデートでcondaに対応し(リンク)、nextflow側からcondaを呼び出してランできるようになりました。 そこで”Nextflowを使ってバイオインフォマティクスのツールを動かす”第2回…

docker環境にツールを導入していくためのベースイメージを作る。

Dockerイメージ作成時のベースイメージを作って、それをpullするようにすると捗ります。試してみます。 ここではcondaコマンドを使えるようにminiocndaを導入するイメージを作成します。それからこのイメージをベースに新しいイメージを作成します。 1:ベ…

TPMカウントから主成分分析を行う zpca

zpcaはFoivos Gypasが公開されているTPMカウントから主成分分析を行うツール。試してみる。 インストール ubuntu18.04のminiconda3.8環境でmambaを使って導入した。 #bioconda (link)mamba install -c bioconda -y zpca#dockerdocker pull zavolab/zpca#Sing…

PacBioロングリード用の類似ゲノムアシスト再構築パイプライン AlignGraph2

第3世代シーケンサーのロングリードからアセンブルされたコンティグは、通常、第2世代のショートリードよりも完全である。しかし、現在のアルゴリズムでは、ロングリードを理想的な完全かつ正確なゲノムにアセンブルすること、つまり理論的に最良の結果を得…

metabinkit

従来の形態学的同定による水生侵入種の検出は、しばしば時間がかかり、高度な分類学的専門知識を必要とし、緩和対応の遅れにつながる可能性がある。これらの障害を克服するために、Illumina ベースのシーケンシング技術を用いた複数種の環境 DNA (eDNA) 検出…

レポジトリから自動でdockerイメージを作成し、JupyterHub環境でコードを実行できるようにする repo2docker

Introducing repo2dockerより repo2dockerは、Pythonで書かれた軽量のコマンドラインツールで、gitリポジトリへのパスやURLを受け取り、それに適したdockerイメージを作成します。これを実現するために、人間が行うであろうステップを踏んでいます。すなわち…

染色体の遺伝子密度マップを描く DensityMap

2021 3/14 修正 ゲノムデータを可視化するためのツールはいくつか存在する。GbrowseやJbrowseのようないくつかのツールは、小さなゲノム領域に対しては非常に効率的であるが、ゲノム全体には適していない。また、PhenogramやCViTのように、ゲノム全体の可視…

バリアントデータのマイニングと管理のためのウェブベースの可視化ツール VCF-Server

次世代シーケンシング(NGS)は、疾患に関連した遺伝的変異の発見を促進しており、疾患の病因調査および臨床遺伝診断に広く使用されている(Gong、Jiang、Duan、およびLu、2018; Zhao&Wei、2018)。 NGSによって識別された変異は、通常、変異データを格納す…

メタゲノムの組成を解析する CAMAMED

メタゲノミクスは、分子ゲノミクス、微生物生態学、データ解析が交差する学際的な研究分野である。この分野の主な研究対象は、ある環境に存在する微生物のゲノム総量を指すメタゲノムである。メタゲノミクスは、ハイスループットゲノムシークエンシング技術…

nf-coreのDeepVariantパイプライン

nf-core/deepvariantより 2017年12月にGoogleブレインチームがDeepLearningをベースにしたVariant Caller, DeepVariantをリリースした。DeepVariantはまずBAMファイルに基づいて画像を構築し、次にDeepLearningの画像認識アプローチを使用してバリアントを取…

生殖細胞バリアントや体細胞バリアントを検出する自動化されたパイプライン Sarek

2021 2/9 タイトル修正 2021 2/12, 2/15コマンド追記 2021 5/16 コメント追記 全ゲノムシークエンシング(WGS)は、精密医療の発展のための研究の基盤技術であるが、WGS解析のためのポータブルで使いやすいワークフローが限られていることが、多くの研究グルー…

TPMCalculator

次世代シークエンシング技術は、我々が生物系を分析する方法を変え、RNAシークエンシング(RNA-seq)が標準的な手順になった。ほとんどのRNA-seq実験はサンプル間の転写産物量を測定および比較を行う。これはさまざまな実験条件下で遺伝子発現プロファイルを…