macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

2021-01-01から1年間の記事一覧

スケーラブルなインフラ上での比較ゲノミクスサービス EDGAR3.0

EDGARプラットフォームは、何千もの微生物ゲノムの事前計算されたオルソロジーデータのデータベースを提供するウェブサーバーで、比較ゲノミクスおよび系統学の分野で最も確立されたツールの一つである。EDGARは、事前に計算された遺伝子アラインメントに基…

(ヒトとマウス) RNA-seqデータの探索と可視化のためのブラウザベースのツール BEAVR

分子生物学研究や臨床現場におけるRNA-sequencing(RNA-seq)の利用は、過去10年間で大幅に増加している。しかし、広く普及しているにもかかわらず、RNA-seqデータを解析・探索するためのシンプルでインタラクティブなツールが不足している。既存のツールの…

アセンブルされた微生物ゲノムのクオリティ評価を行う miComplete

2022/03/18 インストール手順追記 ハイスループットシーケンスの開発により、大規模なシーケンスプロジェクトが手頃な価格になり、可用性がますます向上している。膨大な量のメタゲノムデータが生成され、未培養微生物から数千のmetagenome-assembled genome…

ハプロタイプresolved のSNV、SV、およびメチル化を包括的に検出するPRINCESS

ロングリードシーケンスは、構造変異(SV)の検出やメチレーションコールに有利であることが示されている。多くの研究では、SV、メチル化、またはSNVのphasingのいずれかに焦点が当てられているが、バリアントの組み合わせによってのみ、サンプルに関する包…

大規模なメタゲノムアセンブリ(MAG)を対象とした比較ゲノミクスツール群 EnrichM

EnrichMは、大規模なメタゲノム・アセンブリゲノム(MAG)を対象とした比較ゲノミクスツール群である。現在の機能は以下の通りである。 MAGの基本的なアノテーションパイプライン。 KEGGモジュールを参考にして、MAGがコード化している代謝パスウェイを決定…

アンサンブル学習による病原性配列の正確で高感度な機能スクリーニングを行う SeqScreen

2022/06/23 論文引用 2023/04/3 関連論文へのリンク 現代の卓上DNA合成技術と新興病原体への関心の高まりにより、懸念される病原体に対するオリゴヌクレオチドのスクリーニングの重要性が高まっている。しかし、オリゴヌクレオチドの正確で高感度な特性評価…

DASHデータベース

HPより DASH(Database of Aligned Structural Homologs)は、PDBに登録されている既知の構造的に相同なタンパク質のドメインと鎖の構造アライメントを集めたデータベースである。 その処理方法は、(a) CD-HITを用いてPDBから配列固有のタンパク質を99%の配列…

BAMファイルからカバレッジトラックを抽出するシンプルで高速なツール covtobed

バイオインフォマティクスの一般的な課題は、次世代シーケンシング実験で生成されたDNAシーケンシングリードを参照ゲノムにマッピングすることである。アラインメントの出力は、一般的にBAMファイルにエンコードされる(Li et al.2009)。DNAシーケンシング…

コンポジション、カバレッジ、アセンブリグラフによるメタゲノムビニングを行う MetaCoAG

2021 10/8 追記 メタゲノムビニングにより、様々な種の様々な遺伝物質を研究し、特性を明らかにし、微生物群集についての洞察を得ることができるようになった。既存のビニングツールはメタゲノミクスのde novoアセンブリをビニングするが、アセンブリグラフ…

深層学習に基づく真核生物配列の分類ツール Tiara

多くのメタゲノムデータが利用可能になるにつれ、真核生物のメタゲノム解析が新たな課題として浮上してきた。真核生物の核およびオルガネラのゲノムを適切に分類することは、真核生物の多様性をより深く理解するために不可欠なステップである。 メタゲノムデ…

バクテリアのゲノム縮小のための遺伝子必須性予測と欠失の設計を行う DELEAT

2021 10/7 追記 遺伝子の必須性を研究することは、生命の基本原理を理解する上で基本的なことであり、また多くの分野で応用されている。ここ数十年の間に、さまざまな実験やバイオインフォマティクスの手法を用いて、何十もの必須遺伝子セットが決定され、こ…

生物の生存に不可欠な遺伝子のデータベース DEG(バージョン15アップデート)

必須遺伝子とは、生物が特定の条件下で生存するために必要な遺伝子のことである。バクテリアの最小遺伝子セットの研究では、生命を維持するための基本的な細胞プロセスが解明されている。この5年間、CRISPR/Cas9をさまざまな種類のヒト細胞に適用することに…

RNA-Seqデータ解析のためのスタンドアローンおよびクラウドベースのシステム RNAdetector

2022 1/18追記 RNA-Seqはトランスクリプトームプロファイリングに広く用いられている技術であり、コーディングおよびノンコーディングRNA分子の解析が可能である。しかし、この技術は、Real-Time PCRやマイクロアレイなどの他の伝統的な技術に比べて、解析に…

リファレンスゲノム情報を半教師あり深層学習で取り込むことで、より優れたビニングを実現する SemiBin

2022/02/09 ツイート追記 2022/02/27 追記 2022/03/01 help更新 メタゲノムビニングとは、メタゲノムアセンブルゲノム(MAG)を構築する際に、同一ゲノムに由来すると予測される配列を自動的にグループ化するステップである。最も広く利用されているビニング…

(ヒトゲノム)ランダムフォレストを用いてバリアントの品質による分類を行う ForestQC

次世代シーケンシング技術(NGS)は、ゲノム上に存在するほぼすべての遺伝子バリアントの発見を可能にする。しかし、これらのバリアントの一部は、NGSやバリアントコーラーの限界により、シーケンスの質が低い場合がある。多数のシーケンスされた個体を解析…

NGSデータのクオリティフィルタリングパイプライン ngsComposer

2021 9/30 追記 次世代シーケンサー(NGS)は、大規模なオミックスデータの大量並列収集を可能にするが、客観的なデータ品質のフィルタリングパラメータは不足している。プラットフォームが生成するPhred値は有用な指標ではあるが、塩基ごとのクオリティスコ…

ロングリードのシミュレータ PBSIM2

近年、PacBioやOxford Nanoporeなどのハイスループットのロングリードシーケンサーが登場し、ショートリードシーケンサーに比べてエラーの多いロングリードが生成されるようになった。リードのエラー率の高さに加えて、エラーの不均一性は、ロングリードを用…

メタゲノムアセンブリのbin配列を評価する metashot/prok-quality

メタゲノムシークエンスにより、大規模なゲノムの同定とゲノムの特性解析が可能になる。Binningとは、未知の細菌や古細菌の配列断片(メタゲノムコンティグ)の複雑な混合物からゲノムを回収するプロセスである。メタゲノムから回収したゲノムの品質を評価す…

バイオインフォのツールが動かない問題を試行錯誤しながら直す

2021 9/23,9/24 誤字修正 2022 1/10 追記 複数の方からsamtoolsやbowtie2が動作しないという連絡をいただいたので、今日はその対処方法を検討します。通常、このような問題をいただいた場合、調べる側としては、その方が該当するツールをどのような環境にど…

16S rRNA塩基配列データから超可変領域を抽出する HyperEx

16SリボソームRNA遺伝子は、生物学において最も研究されている遺伝子の一つである。この16SリボソームRNAの重要性は、細菌や古細菌の系統学や分類学上の解明に広く応用されていることによる。実際、16SリボソームRNAは、ほとんどすべてのバクテリアや古細菌…

機械学習の手法でエミュレートされたBWA-MEM: BWA-MEME

次世代シーケンサーの普及やシーケンサーのスループットの向上に伴い、効率的なショートリードのアライメントが求められているが、その中でもシーディングは主要な性能ボトルネックの一つとなっている。Seeding phaseのキーとなるチャレンジは、リファレンス…

elPrep 5を使ったバリアントコール

GATK Best Practices for variant callingに完全対応したelPrep5 (紹介) には、大きく分けて2つのモードが用意されています。1つ目は完全にRAM内で動作する(フィルタ)モードで、これは中間ファイルを全く書き出さず完全にRAM内で計算を進めるため、非常…

ロングリードを使ったSNVとSVのフェーシングを行う LongPhase

ロングリード・フェーシングは、二倍体ゲノムの再構築、バリアント・コーリングの改善、メタゲノミクスにおける微生物株の解決などに用いられてきた。しかし、既存の手法では、大きな構造変化(Structural Variation: SV)によって位相差ブロックが破壊され…

公開されているプラスチドゲノムのアノテーションとinverted repeatsを調べる airpg

2021 9/18 使い方を理解していなかったので一旦コマンドは消去 ほとんどの顕花植物では、プラスチドのゲノムは、大小のシングルコピーと2つの逆方向反復配列領域からなる4分割構造をしている。近年、何千ものプラスチドのゲノムが配列決定され、公的な配列リ…

MMseqs2 コマンド其の4 分類群をアサインする mmseqs taxonomyコマンド

今年出た論文(*1)より MMseqs2 taxonomyは、メタゲノムのコンティグに分類学上のラベルを付与する新しいツールである。各コンティグから可能性のある全てのタンパク質断片を抽出し、分類学的なアノテーションに貢献できるものを素早く取り出し、それらにロ…

MMseqs2 コマンド其の3 既存のデータベースをダウンロードするmmseqs databasesコマンド

MMseqs2には非常に多くの機能があります。今回はmmseqs databasesコマンドを試します。mmseqs databasesを使うと、UniProtやGTDB、NCBI nr/ntなどからMMseqs2のデータベースとしてビルド済みのデータベースをダウンロードして、MMseqs2によるホモロジーサー…

(Prokaryotes)ドラフトゲノムのポリッシングを行う Polypolish

2021 10/21 論文引用 Githubより Polypolishはショートリードによるゲノムアセンブリを研磨するツールです。このカテゴリーの他のツールとは異なり、Polypolishは各リードが(単一の最適な位置ではなく)すべての可能な位置にアラインメントされたSAMファイ…

エキソームのバリアント解析パイプライン EXOME-pipeline

レポジトリよりこのプロジェクトは、エクソームシーケンス用のSnakemakeを使った解析パイプラインです。Illumina HiSeqからのヒトエクソームシーケンシングで広くテストされていますが、必要なリソースファイルを手動でダウンロードすれば、ほとんどのシステ…

ゲノムアセンブリの品質、完全性、フェーズ評価を行う Merqury

最近のロングリードアセンブリは、利用可能なリファレンスゲノムの品質と完全性を上回ることが多く、その検証は困難を極めている。ここでは、効率的なk-merセット操作に基づいてリファレンスフリーにアセンブリを評価する新しいツール、Merquryを紹介する。M…

パンゲノム解析ツール PanACoTAのallコマンドを使う

PanACoTAはモジュール方式のパイプラインなので、ゲノムの準備、品質チェックとフィルタリング、アノテーション、パンゲノムの計算、コア・persistant遺伝子の定義、系統解析まで順番に進めることができますが、allコマンド(説明)を使えば、全部のプロセス…