macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

2021-05-01から1ヶ月間の記事一覧

計算生物学のシンタックスハイライトパッケージ bioSyntax

計算生物学では、生物学的データファイルの読み取りと理解が必要になる。SAM、VCF、GTF、PDB、FASTAなどの平文フォーマットには、データ構造の複雑さによって難読化された重要な情報が含まれていることが多い。bioSyntax (https://biosyntax.org/) は、vim、…

メタゲノムアセンブリのコンタミネーションを調べる magpurify

ヒトの腸内細菌叢の多くの種のゲノム配列は、実験室条件下での微生物の培養が困難であることが主な理由で、依然として不明である。本研究では、地理的にも表現型的にも多様なヒトの3,810の糞便メタゲノムから60,664の原核生物のドラフトゲノムを再構築するこ…

aDNAのダメージパターンを高速計算する DamageProfiler

古代のDNA研究では、特定の特徴に基づいて古代のサンプルを認証することが、データ解析の重要なステップとなっている。このような重要性から、深いプログラミング知識を持たない研究者でも、基本的な損傷認証分析を実行できる必要がある。このようなソフトウ…

シングルセルも含めてメタゲノムアセンブリの主要代謝系と炭素・窒素・硫黄関連の機能的アノテーションを行う METABOLIC

2024/03/23 論文引用、出力について説明 マイクロバイオーム科学の進歩は、メタゲノミクスやシングルセルゲノミクスを用いて混合微生物群集から再構築されたゲノムから、微生物の生態を研究・推論できるようになったことが大きな要因となっている。このよう…

CCSリードからの超高速に構造変異を検出する SKSV

Circular consensus sequencing (CCS) リードは、構造変異(SV)を包括的に検出することができると期待されている。しかし、アラインメントベースのSVコールパイプラインは、完全なリードアラインメントの生成とその後処理のために計算量が多くなる。ここで…

fastqをソートして扱いやすくする BBMapパッケージのClumpify

HPより https://jgi.doe.gov/data-and-tools/bbtools/bb-tools-user-guide/clumpify-guide/ Clumpifyは、オーバーラップしているリードを迅速にグループ化して塊にするためのツールです。これにより、ファイルの圧縮率を高めたり、オーバーラップベースのア…

ALFsim

計算進化生物学では、研究対象となる生物の進化の歴史がわからないことが多いため、検証やベンチマークは難しい課題である。インシリコで配列進化をシミュレーションするコンピュータプログラムは、新しく開発された手法の検証や異なるアルゴリズムの比較を…

Referee

次世代シーケンサ技術を用いたゲノムアセンブリは、今や生物学研究に欠かせないものとなっているが、シーケンサやアセンブリのプロセスの多くは依然としてエラーが発生しやすい状態にある。残念ながら、これらのエラーは下流の解析に伝播し、結果や結論に大…

インタラクティブなマイクロバイオーム分析と可視化のためのR shinyアプリケーション animalcules

ヒトの健康や病気の形成に腸内細菌叢が果たす複雑な役割は、培養に依存しない分子ベースのハイスループットシーケンシング技術が利用できるようになったこともあって、近年、精力的に調査・研究が行われている。ヒトのすべての宿主は、平均500~1000種の異な…

ANGSD

ハイスループットのDNAシーケンス技術は、膨大な量のデータを生成する。何千ものサンプルを同時に解析するためには、高速で柔軟性があり、メモリ効率の良い実装が必要である。ここではANGSDと呼ばれるマルチスレッド・プログラム・スイートを発表する。この…

ゲノムスケールのデータを集めた公開リポジトリ Genome Warehouse

Genome Warehouse (GWH) は、幅広い種のゲノムアセンブリデータを収蔵する公開リポジトリであり、ゲノムデータの提出、保存、公開、共有のための一連のウェブサービスを提供している。China National Center for Bioinformation (CNCB, https://bigd.big.ac.…

キュレーションされ、統一したアノテーションが付けられたhuman gutメタゲノムのデータベースGMrepo

GMrepo (data repository for Gut Microbiota)は、キュレートされ、一貫してアノテーションされたヒト腸管メタゲノムのデータベースである。GMrepoの主な目的は、急速に増加しているヒトのメタゲノムデータの再利用とアクセスを容易にすることである。これは…

ターゲットの転写制御因子を予測したりピークのアノテーションを行うウェブツール AnnoMiner

遺伝子発現の制御には、転写因子による正確な転写プログラムと、エピジェネティックな事象の組み合わせが必要である。近年、エピゲノムやトランスクリプトームの技術が進歩し、さまざまな遺伝子制御メカニズムが解明されてきた。しかし、転写因子とエピジェ…

脊椎動物のオルソログデータベース OHNOLOGS v2

ヒトを含むすべての脊椎動物は、2回の全ゲノム重複(2R-WGD)を経た祖先から進化してきた。また、テレオスの魚類では、さらに3回目のゲノム複製(3R-WGD)が行われている。これらのゲノム重複から保持された遺伝子、いわゆるオルソログは、脊椎動物の複雑性…

特定された生合成遺伝子群から代謝経路を再構築する BiGMeC

生合成遺伝子群(BGCs)にコードされた酵素や酵素複合体によって、さまざまな生理活性物質が生産されている。これらのBGCは、そのDNA配列に基づいて同定され、機能的な注釈が付けられる。さらなる研究開発のための候補は、その機能的なアノテーション、既知…

GREAT

ゲノム全体のDNA結合イベントを局所的に測定することで同定されたシス制御領域の機能的意義を解析するために、Genomic Regions Enrichment of Annotations Tool (GREAT)を開発した。従来の手法では、遺伝子の近位にある結合のみを考慮していたが、GREATは遠…

MIRAアセンブラ

MIRAは、全ゲノムおよびEST/RNASeqプロジェクト用のマルチパスDNA配列データアセンブラ/マッパーである。MIRAは以下の方法で得られたリードをアセンブル/マッピングする。 electrophoresis sequencing(別名サンガーシーケンシング イルミナ(Solexa)シーケ…

SnpEffとSnpSift

2022/1/4 例追記, 2023/07/08 ツイート追記 2023/09/02 説明追加 以前紹介しましたが、分かりにくかったので、基本的な機能に限定して簡単にまとめ直します。 SnpEffはバリアントのアノテーションと機能的効果の予測ツールボックスです。遺伝的バリアントが…

エピゲノムプロファイルを用いた転写因子予測ツール BART

ある遺伝子セットを制御する機能的な転写因子の同定は、遺伝子制御研究において重要な問題である。従来の転写因子の同定方法であるDNA配列モチーフ解析では、特定の因子の機能的な結合を予測することができず、遠位のエンハンサーに結合する因子を検出するに…

sv-callers

構造変異(Structural variants: SV)は、ガンをはじめとするさまざまな遺伝病に関与する重要な遺伝的変異の一種である。しかし、全ゲノムシークエンスの進歩にもかかわらず、ショートリードデータに含まれるSVを包括的かつ正確に検出することは、実用上およ…

VCFファイルをテーブル形式に単純化する VcfSimplify

BiostarsとGithubより VCFファイルを管理・変更するツールはいくつかあるが、バイオインフォマティクスのサポートを受けていない生物学者が必要とする最も単純な出力を生成することができるシンプルで包括的なツールはまだない。このツールは、ソートされたV…

AAIを計算する EzAAI

2021 5/10 追記 2022/10/20 help追加 平均アミノ酸同一性(AAI)は、ゲノム上の一対の関連性を示す指標であり、原核生物の分類学やその関連分野への応用が複数の研究で提案されている。AAIは、種の分類において標準的な基準である平均ヌクレオチド同一性(AN…

メタゲノムデータから病原性遺伝子や薬剤耐性遺伝子を予測するパイプライン PathoFact

2023/07/13 追記 病原性微生物は、宿主に侵入し、コロニー化し、損傷を与えることで病気を引き起こす。細菌毒素を含む病原性因子は病原性に寄与する。さらに、抗菌薬耐性遺伝子は、病原体が治癒力のある治療法を回避することを可能にする。マイクロバイオー…

Minicondaの代わりにMiniforgeインストーラーを使ってcondaの環境を作る

2021 5/8 タイトル修正 Conda-forgeのMiniforgeレポジトリには、conda-forge に特化した Conda の最小インストーラーが用意されています。Miniforgeレポジトリは Miniconda と同等ですが、Conda-forge がデフォルトのチャンネルとして設定されています。また…

Nextflowで使うdockerイメージのサイズを減らす

2021 5/6 誤字修正 昨日の記事で、dockerイメージを指定してNextflowをランする例を紹介しました(リンク)。nextflow.configのprofile{ } でdocker{ }を指定しておく方法です。 nextflowのラン。-profile dockerを指定する。 nextflow variant_call_freebay…

Nextflowを使ってバイオインフォマティクスのツールを動かす その2

2021 5/5 コードの改行 (\) を除去 2021 5/6 説明を修正 Nextflowは2018年のアップデートでcondaに対応し(リンク)、nextflow側からcondaを呼び出してランできるようになりました。 そこで”Nextflowを使ってバイオインフォマティクスのツールを動かす”第2回…

Nextflowを使ってバイオインフォマティクスのツールを動かす

2021 5/5 コードのsamtoolsへパイプする部分でWSLのランがエラーになったため、改行を除去 2021 5/9 画像追加 Nextflowなどのworkflow managerを使って解析パイプラインを記述しておくことで、再現性のある解析が可能になります。午後の空き時間を使って簡単…

原核生物のゲノム構造を利用してリボソーム領域全体をアセンブルする riboSeed

バクテリアのゲノムシーケンスの大部分は、イルミナのショートリードを用いて行われている。しかし、ショートリードだけでは繰り返し領域を解決することが難しいため、クローズドなゲノムを得ることができたのは、シーケンスプロジェクトの約10%に過ぎなかっ…

De novo transcriptomeのアセンブラ IDBA-tran

トランスクリプトームの解析には、次世代シーケンシング技術を用いたRNAシーケンシングが有効である。de novoゲノムアセンブリと同様に、de novoトランスクリプトームアセンブリは、リファレンスゲノムや追加のアノテーション情報に依存しないが、より困難で…