2021-05-01から1ヶ月間の記事一覧
計算生物学では、生物学的データファイルの読み取りと理解が必要になる。SAM、VCF、GTF、PDB、FASTAなどの平文フォーマットには、データ構造の複雑さによって難読化された重要な情報が含まれていることが多い。bioSyntax (https://biosyntax.org/) は、vim、…
ヒトの腸内細菌叢の多くの種のゲノム配列は、実験室条件下での微生物の培養が困難であることが主な理由で、依然として不明である。本研究では、地理的にも表現型的にも多様なヒトの3,810の糞便メタゲノムから60,664の原核生物のドラフトゲノムを再構築するこ…
古代のDNA研究では、特定の特徴に基づいて古代のサンプルを認証することが、データ解析の重要なステップとなっている。このような重要性から、深いプログラミング知識を持たない研究者でも、基本的な損傷認証分析を実行できる必要がある。このようなソフトウ…
2024/03/23 論文引用、出力について説明 マイクロバイオーム科学の進歩は、メタゲノミクスやシングルセルゲノミクスを用いて混合微生物群集から再構築されたゲノムから、微生物の生態を研究・推論できるようになったことが大きな要因となっている。このよう…
Circular consensus sequencing (CCS) リードは、構造変異(SV)を包括的に検出することができると期待されている。しかし、アラインメントベースのSVコールパイプラインは、完全なリードアラインメントの生成とその後処理のために計算量が多くなる。ここで…
HPより https://jgi.doe.gov/data-and-tools/bbtools/bb-tools-user-guide/clumpify-guide/ Clumpifyは、オーバーラップしているリードを迅速にグループ化して塊にするためのツールです。これにより、ファイルの圧縮率を高めたり、オーバーラップベースのア…
計算進化生物学では、研究対象となる生物の進化の歴史がわからないことが多いため、検証やベンチマークは難しい課題である。インシリコで配列進化をシミュレーションするコンピュータプログラムは、新しく開発された手法の検証や異なるアルゴリズムの比較を…
次世代シーケンサ技術を用いたゲノムアセンブリは、今や生物学研究に欠かせないものとなっているが、シーケンサやアセンブリのプロセスの多くは依然としてエラーが発生しやすい状態にある。残念ながら、これらのエラーは下流の解析に伝播し、結果や結論に大…
ヒトの健康や病気の形成に腸内細菌叢が果たす複雑な役割は、培養に依存しない分子ベースのハイスループットシーケンシング技術が利用できるようになったこともあって、近年、精力的に調査・研究が行われている。ヒトのすべての宿主は、平均500~1000種の異な…
ハイスループットのDNAシーケンス技術は、膨大な量のデータを生成する。何千ものサンプルを同時に解析するためには、高速で柔軟性があり、メモリ効率の良い実装が必要である。ここではANGSDと呼ばれるマルチスレッド・プログラム・スイートを発表する。この…
Genome Warehouse (GWH) は、幅広い種のゲノムアセンブリデータを収蔵する公開リポジトリであり、ゲノムデータの提出、保存、公開、共有のための一連のウェブサービスを提供している。China National Center for Bioinformation (CNCB, https://bigd.big.ac.…
GMrepo (data repository for Gut Microbiota)は、キュレートされ、一貫してアノテーションされたヒト腸管メタゲノムのデータベースである。GMrepoの主な目的は、急速に増加しているヒトのメタゲノムデータの再利用とアクセスを容易にすることである。これは…
遺伝子発現の制御には、転写因子による正確な転写プログラムと、エピジェネティックな事象の組み合わせが必要である。近年、エピゲノムやトランスクリプトームの技術が進歩し、さまざまな遺伝子制御メカニズムが解明されてきた。しかし、転写因子とエピジェ…
ヒトを含むすべての脊椎動物は、2回の全ゲノム重複(2R-WGD)を経た祖先から進化してきた。また、テレオスの魚類では、さらに3回目のゲノム複製(3R-WGD)が行われている。これらのゲノム重複から保持された遺伝子、いわゆるオルソログは、脊椎動物の複雑性…
生合成遺伝子群(BGCs)にコードされた酵素や酵素複合体によって、さまざまな生理活性物質が生産されている。これらのBGCは、そのDNA配列に基づいて同定され、機能的な注釈が付けられる。さらなる研究開発のための候補は、その機能的なアノテーション、既知…
ゲノム全体のDNA結合イベントを局所的に測定することで同定されたシス制御領域の機能的意義を解析するために、Genomic Regions Enrichment of Annotations Tool (GREAT)を開発した。従来の手法では、遺伝子の近位にある結合のみを考慮していたが、GREATは遠…
MIRAは、全ゲノムおよびEST/RNASeqプロジェクト用のマルチパスDNA配列データアセンブラ/マッパーである。MIRAは以下の方法で得られたリードをアセンブル/マッピングする。 electrophoresis sequencing(別名サンガーシーケンシング イルミナ(Solexa)シーケ…
2022/1/4 例追記, 2023/07/08 ツイート追記 2023/09/02 説明追加 以前紹介しましたが、分かりにくかったので、基本的な機能に限定して簡単にまとめ直します。 SnpEffはバリアントのアノテーションと機能的効果の予測ツールボックスです。遺伝的バリアントが…
ある遺伝子セットを制御する機能的な転写因子の同定は、遺伝子制御研究において重要な問題である。従来の転写因子の同定方法であるDNA配列モチーフ解析では、特定の因子の機能的な結合を予測することができず、遠位のエンハンサーに結合する因子を検出するに…
構造変異(Structural variants: SV)は、ガンをはじめとするさまざまな遺伝病に関与する重要な遺伝的変異の一種である。しかし、全ゲノムシークエンスの進歩にもかかわらず、ショートリードデータに含まれるSVを包括的かつ正確に検出することは、実用上およ…
BiostarsとGithubより VCFファイルを管理・変更するツールはいくつかあるが、バイオインフォマティクスのサポートを受けていない生物学者が必要とする最も単純な出力を生成することができるシンプルで包括的なツールはまだない。このツールは、ソートされたV…
2021 5/10 追記 2022/10/20 help追加 平均アミノ酸同一性(AAI)は、ゲノム上の一対の関連性を示す指標であり、原核生物の分類学やその関連分野への応用が複数の研究で提案されている。AAIは、種の分類において標準的な基準である平均ヌクレオチド同一性(AN…
2023/07/13 追記 2024/05/20 dockerイメージ追記 病原性微生物は、宿主に侵入し、コロニー化し、損傷を与えることで病気を引き起こす。細菌毒素を含む病原性因子は病原性に寄与する。さらに、抗菌薬耐性遺伝子は、病原体が治癒力のある治療法を回避すること…
2021 5/8 タイトル修正 Conda-forgeのMiniforgeレポジトリには、conda-forge に特化した Conda の最小インストーラーが用意されています。Miniforgeレポジトリは Miniconda と同等ですが、Conda-forge がデフォルトのチャンネルとして設定されています。また…
2021 5/6 誤字修正 昨日の記事で、dockerイメージを指定してNextflowをランする例を紹介しました(リンク)。nextflow.configのprofile{ } でdocker{ }を指定しておく方法です。 nextflowのラン。-profile dockerを指定する。 nextflow variant_call_freebay…
2021 5/5 コードの改行 (\) を除去 2021 5/6 説明を修正 Nextflowは2018年のアップデートでcondaに対応し(リンク)、nextflow側からcondaを呼び出してランできるようになりました。 そこで”Nextflowを使ってバイオインフォマティクスのツールを動かす”第2回…
2021 5/5 コードのsamtoolsへパイプする部分でWSLのランがエラーになったため、改行を除去 2021 5/9 画像追加 Nextflowなどのworkflow managerを使って解析パイプラインを記述しておくことで、再現性のある解析が可能になります。午後の空き時間を使って簡単…
バクテリアのゲノムシーケンスの大部分は、イルミナのショートリードを用いて行われている。しかし、ショートリードだけでは繰り返し領域を解決することが難しいため、クローズドなゲノムを得ることができたのは、シーケンスプロジェクトの約10%に過ぎなかっ…
トランスクリプトームの解析には、次世代シーケンシング技術を用いたRNAシーケンシングが有効である。de novoゲノムアセンブリと同様に、de novoトランスクリプトームアセンブリは、リファレンスゲノムや追加のアノテーション情報に依存しないが、より困難で…