macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

2024-01-01から1年間の記事一覧

原核生物のゲノム進化のシミュレータ CoreSimul

原核生物は無性の生物であるが、これらの生物は有性生物の減数分裂による組換えとは異なり相同組換えを頻繁に行う。ゲノム進化をシミュレートするために開発されたほとんどのツールは、有性生殖を想定しているか、あるいは集団にDNAフラックスが全くないこと…

変異に伴うタンパク質-タンパク質複合体の結合親和性変化を予測するためのディープアンサンブル法 DeepPPAPredMut

タンパク質-タンパク質相互作用(PPI)は多くの細胞内プロセスを支えており、変異によるその破壊は疾患の原因となる。AlphaFold2のようなタンパク質構造予測手法の進化と、広範な実験的親和性データの利用可能性に伴い、タンパク質-タンパク質複合体における…

ウェブブラウザ上で高品質な高分子構造の可視化を行う Protein Imager

分子ビューアーの長い学習曲線は、研究者が初めて構造生物学の分野にアプローチする際の妨げとなっている。ここでは、次世代のオンライン分子ビューアーとして、軽量で強力かつ使いやすいインターフェースである'The Protein Imager'を紹介する。さらに、こ…

ナノポアR10リードのリピートおよびハプロタイプを考慮したエラー修正を行う DeChat

エラーの自己修正は、ロングリードシークエンシングデータの解析において極めて重要な最初のステップである。しかし、この目的のための既存のメソッドのほとんどは、主にエラー率が5%を超えるノイズの多いシーケンスデータ用に調整されており、多くの場合、…

マルチサンプルビニングのための高速な近似カバレッジ計算法 fairy

メタゲノムのビニングは、同じゲノムに属するコンティグをクラスタリングすることであり、メタゲノムアセンブリゲノム(MAG)を復元するための重要なステップである。コンティグは、ゲノム全体で一貫したリードカバレッジパターンを利用することで連結される…

多重配列アラインメントのフォーマットを変換する msaconverter

タイトルの通りツール。簡単に紹介します。 インストール 依存 msaconverter is a tool to convert a multiple sequence alignment into different format with Biopython Github #conda( link)mamba install bioconda::msaconverter -y#pippip install msac…

KaKs_Calculator 2.0

2024/05/10 誤字修正 (2010年の論文) KaKs_Calculator 2.0と名付けた統合スタンドアローンソフトウェアパッケージのアップデート版を発表する。このパッケージには、非同義置換率と同義置換率を計算するための17の手法が組み込まれている。その中で、ガン…

HTS(NGS)の基本ツールのインストール手順

2024/05/10 BamTools追加 UbuntuにHTSの基本的なツールをインストールする手順をまとめました。pythonでラップされているようなツールはanacondaに頼るのが早いので除外し、純粋にコンパイル言語で書かれたよく使われているツールを対象としました。 docker…

タンパク質タンパク質、タンパク質ペプチド、タンパク質核酸相互作用の検索と解析、モデリングのためのウェブサーバ PPI3D

構造解析されたタンパク質と他のタンパク質、ペプチド、核酸との相互作用は、分子メカニズムを理解するための鍵となる。PPI3Dウェブサーバーは、前処理されクラスタ化された構造データを照会し、結果を解析し、タンパク質相互作用について相同性ベースの推論…

系統的忠実性が高い高度に保存された20個のシングルコピー遺伝子を使い、細菌ゲノムから自動で系統再構成を行う VBCG

系統学的解析は、細菌の多様性と進化を研究する上で切っても切り離せないものとなっており、多くの異なる細菌のコア遺伝子が照合され、系統樹の再構築に用いられてきた。しかし、これらの遺伝子は、すべての細菌ゲノムにおけるその存在と単一コピー率に基づ…

膣内細菌叢の16S rRNA遺伝子の分類学的分類を配列ごとに迅速かつ正確に行う SpeciateIT

大量の16S rRNA遺伝子配列を分類学的に分類するには、OTUへのクラスタリングやノイズ除去法が主流である。本著者らは、個々のアンプリコン配列を迅速かつ正確に分類する新しい分類学的分類ツールspeciateITを開発した(https://github.com/Ravel-Laboratory/…

DNA配列中のk-merを2次元空間に視覚化する KMAP

DNA配列中のパターンを同定し図示することは、様々な生物学的データ解析において極めて重要な作業である。この作業では、DNA配列の基本的な構成要素であるkmmerの集合によってパターンが表現されることが多い。これらのパターンを視覚的に明らかにするために…

高速かつ様々なプロファイルに対応可能な、次世代シークエンシングデータの次世代のシミュレーター NGSNGS

シークエンシングの世代が変わるにつれてDNAシークエンサーの性能が急速に向上し、生成されるデータ量も増加した。この進化は、新しいバイオインフォマティクスの手法にもつながっており、モデルの精度やゲノム解析パイプラインの頑健性を検証する際に、in s…

アノテーションされたトランスポーザブル・エレメント(TE)のキュレーションを支援する TEtrimmer

レポジトリより トランスポーザブル・エレメント(TE)の発見とアノテーションのために多くのツールが開発されている。しかし、高品質なTEコンセンサスライブラリーの構築には、依然としてTEを手作業でキュレーションする必要があり、それには時間がかかり、…

可変長タンデム反復配列のアノテーション(多型コール)を行う vamos

ヒトゲノムのおよそ3%は可変反復配列(VNTR)で構成されている。これらの遺伝子座は多型性が高いが、アラインメントのブレイクポイントに基づいてバリアントを定義しマージする現在のアプローチでは、その多様性を完全に捉えることはできない。ここではvamo…

微生物の増殖曲線をインタラクティブに解析するウェブアプリケーション Dashing Growth Curves

微生物の成長を記録し分析することは、ライフサイエンスにおける日常的な作業である。数十から数百の増殖曲線を同時に記録するマイクロプレートリーダーは、この作業にますます使用されるようになり、その迅速で信頼性の高い分析に対する需要が高まっている…

細菌の保存されたタンパク質の割合を計算するためのNextflowパイプライン POCP-nf

2024/05/08 追記 シーケンス技術の進歩により、細菌ゲノムは飛躍的に増加しており、確実な分類法が必要とされている。Qin et al. (2014)によって最初に提案されたPercentage Of Conserved Proteins (POCP)は、原核生物の属境界を評価するための貴重な指標で…

メタゲノムアセンブリの高精度なbin refinementツール Binette

2024/04/24 誤字修正 メタゲノム解析は、ショットガンシーケンスによる微生物群集とその個々のメンバーの研究を可能にする。メタゲノム解析に不可欠な段階は、メタゲノムアセンブリゲノム(MAG)の回収である。メタゲノム解析では、シーケンスリードをコンテ…

複雑な反復配列を迅速にインタラクティブなドットプロットで可視化する ModDotPlot

ゲノムの反復配列を分析する一般的な方法は、ドットプロットによって可視化された配列類似性マトリックスを作成することである。StainedGlassのような革新的なアプローチは、ドットプロットを配列同一性のヒートマップとしてレンダリングすることにより、こ…

(ヒトとマウス)仮説生成のためにクエリに最も類似した遺伝子発現シグネチャーを検索する RummaGEO

Gene Expression Omnibus (GEO)は、トランスクリプトミクスやその他のオミックスデータセットのための主要なオープンな生物医学研究リポジトリである。現在、世界中の多くの生物医学研究ラボによって収集された数万件の研究から得られた数百万件の遺伝子発現…

FastQCの高速な代替 Falco

品質管理はシーケンスデータ解析において不可欠な最初のステップであり、品質管理のためのソフトウェアツールはほとんどのシーケンスセンターで標準的なパイプラインに深く浸透している。関連する計算は簡単だが、多くの環境では品質管理に必要な総計算量は…

KEGG KOデータベースでKO IDの機能的情報を取得する

タイトルの通りです。KO (KEGG Orthology) のリストから情報を取得するには、KO (KEGG ORTHOLOGY) Databaseのトップページにアクセスするのが手っ取り早いです。 https://www.genome.jp/kegg/ko.htmlにアクセスする。 KO IDを入力する。手持ちのKO IDのタイ…

NCBI SRAで検索する時のtips

NCBI SRAでは公開されているシークエンシングデータを検索し、必要であればダウンロードできる。 metagenomeと検索してみると4,566,384件ヒットした(2024年4月実行)。 metagenomeと検索したが、16Sがタイトルに含まれるシークエンシングデータがトップヒッ…

WGSやRNA-seqやTarget-captureなどのさまざまなショートリードデータからユーザーが指定した数百〜数千の遺伝子座の同祖配列を抽出し、系統解析に使用可能なMSAを出力する CAPTUS

ターゲットキャプチャー、RNA-Seq、ゲノムスキミング、深く読んだ全ゲノムシーケンスなど、多様なハイスループットシーケンスデータは系統ゲノム解析に利用されているが、このようなミックスされたデータを単一の系統ゲノムデータセットに統合するには、多く…

GO termからタンパク質の機能的要約を生成する GO2Sum

タンパク質の生物学的機能を理解することは、現代の生物学において基本的に重要である。タンパク質の機能を表現するために、制御された語彙であるGene Ontology (GO)は、オープンエンドなテキスト解釈を避け、コンピュータプログラムで扱いやすいため、頻繁…

(ヒト)AlphaFoldでモデル化されたタンパク質間相互作用のデータベース Predictomes

タンパク質間相互作用(PPI)は生物学において普遍的なものであるが、生化学的プロセスの根底にあるPPIの包括的な構造解析は不足している。AlphaFold-Multimer(AF-M)はこの知識のギャップを埋める可能性を秘めているが、標準的なAF-Mの信頼性指標では、関連す…

メタゲノムアセンブリからのターゲットとするウイルスゲノムの完全性と連続性を向上させる COBRA

ウイルスの研究はメタゲノムシークエンシングを用いて行われることが多いが、ゲノムの不完全性が包括的で正確な解析の妨げとなっている。Contig Overlap Based Re-Assembly (COBRA)は、de Bruijnグラフに基づいてアセンブリのブレークポイントを解決し、コン…

タンパク質言語モデルにより正確で高速なリモート相同性配列検索を行う PLMSearch

Homologous protein searchは、タンパク質のアノテーションや解析に最もよく使われる手法の一つである。構造検索と比較して、配列のみから遠い進化関係を検出することは依然として困難である。ここでは、配列のみを入力とするHomologous protein searchメソ…

タンパク質構造へのバリアントのマッピングのためのコマンドラインツール 3Dmapper

ゲノムデータの解釈は、生物学的プロセスの分子メカニズムを理解する上で極めて重要である。タンパク質構造は、遺伝子をコードする変異体に機能的な背景を与えることにより、この解釈を容易にする上で重要な役割を果たす。しかし、遺伝子とタンパク質の対応…

細菌のpopulation genomicsのためのインタラクティブなビューア Phandango

現在の細菌集団ゲノミクスのデータセットに含まれる豊富なデータを十分に活用するには、数百から数千の分離株における数百万塩基対にわたるさまざまなタイプの解析を統合し、統合する必要がある。現在のアプローチでは、系統学的、疫学的、統計学的、進化学…