macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

Preprint

MiniprotとAUGUSTUSによるゲノムアノテーションを行う GALBA

2023/09/01 論文引用 アース・バイオゲノムプロジェクトによって、利用可能な真核生物ゲノムの数は急速に増加しているが、公開されたゲノムのほとんどは、タンパク質をコードする遺伝子のアノテーションが不足している。さらに、いくつかのゲノムではトラン…

宿主汚染を正確に除去する Hostile

2023/12/22 論文引用 臨床サンプルから作成された微生物配列は、倫理的および法的な理由から除去しなければならないヒト宿主配列で汚染されていることが多い。バリアントコーリングやde novoアセンブリなどの下流解析に不利になるような標的微生物配列を不用…

ライフサイエンスのための包括的なフォーマットコンバーター BioConvert

2023/07/04 追記 バイオインフォマティクスは、長年にわたって開発されてきた数多くの標準やフォーマットで知られる分野である。このフォーマットの多さは時に補完的であり、しばしば冗長であるため、バイオインフォマティクスのデータ解析者に多くの課題を…

genozipのバージョン15アップデートで追加されたdeepモード

2023/07/01追記 2023/07/09 論文引用 BAM/SAM/CRAM、VCF、FASTQ、GFF3を効率的に圧縮するgenozipのバージョン15アップデートが公開されています。バージョン15ではdeepモードが追加されました(Genozip Deepと呼ばれる)。このBAMとFASTQの間に内在する情報…

ノイズパラメータを調整可能なナノポアシーケンスシグナルデータのシミュレーター squigulator

次世代シーケンサーデータのin silicoシミュレーションは、ゲノミクス分野で広く用いられている手法である。しかし、DNAまたはRNA分子を時系列電流シグナルデータの形で測定する「第3世代」ナノポアシーケンス装置からのシミュレーションデータを作成するた…

rDNAのコンセンサス配列を構築する ribotin

2023/10/06 論文(プレプリント)引用 リボソームDNA(rDNA)アレイは、すべての生命に存在する高度に反復的で均質な領域である。その反復性のため、現在のアセンブリ法では、ヒトや他の多くの真核生物のrDNAアレイを完全にアセンブリすることができず、rDNA…

ゲノムとトランスクリプトームデータからスプライシングバリアントを見つける RegTools

ゲノムの非コード領域における体細胞変異やエクソン変異は、解析ワークフローにおいて見過ごされがちな未同定の非コード化結果をもたらす可能性がある。ここでは、ゲノムデータから抽出した体細胞変異のコールと、トランスクリプトームデータから抽出したス…

データ可視化・解析のためのウェブアプリケーション PlotS

2023/06/20 誤字修正 データの可視化技術は、技術の進歩とともに大きく向上してきた。データをグラフで表現することで、その背景にあるデータ構造をより透明化し、解釈しやすくする。しかし、自由に利用できる一般的な可視化ツールは、記述統計のみをサポー…

機械学習と言語モデルによる高速、正確、包括的なオーソログ推論を行う SonicParanoid2

オルソログ遺伝子を正確に推論することは、様々なゲノム研究や進化研究の必須条件である。SonicParanoidはオルソロジー推論に最も適したツールの1つである。しかし、その拡張性と感度は、それぞれ時間のかかるall-versus-allアラインメントと複雑なドメイン…

バクテリアの比較ゲノム解析を簡単に行う zDB

ゲノムの解析と比較は、アノテーション、オルソロジー予測、系統推論などのタスクのために、さまざまなツールに依存している。しかし、ほとんどのツールは単一のタスクに特化しており、結果を統合して可視化するためにはさらなる努力が必要である。このギャ…

miniprotを使うことでゲノムからのBUSCO評価の精度と速度を改善したcompleasm

2023/07/01 名前をminiBUSCOからcompleasmに差し替え 2023/09/29 論文引用 ゲノムアセンブリの完全性評価は、ゲノムデータの正確性と信頼性を評価する上で重要である。不完全なアセンブリは、遺伝子予測、アノテーション、その他のダウンストリーム解析にお…

単一のタンパク質配列からタンパク質構造を予測する OmegaFold

最近のブレイクスルーで、深層学習を用いて複数配列アラインメント(MSA)の進化情報を利用し、タンパク質の構造を正確に予測することができるようになった。しかし、オーファンタンパク質や抗体のような進化の早いタンパク質のように、相同タンパク質のMSA…

メタゲノムの微生物の存在/不在を検出するANIベースの統計テスト YACHT

採取したDNAから環境に関連する微生物群集を研究するメタゲノミクスにおいて、最も基本的な計算タスクの1つは、リファレンスデータベースから、与えられたサンプルメタゲノムにどのゲノムが存在するか、または存在しないかを決定することである。この問いに…

微生物ゲノム中の細胞機能をモデル化してアノテーションを行う MacSyFinder v2

複雑な細胞機能は、通常、微生物ゲノムの1つまたは数個の組織化された遺伝子座の遺伝子セットによってコードされている。Macromolecular System Finder (MacSyFinder) は、これらの特性を利用して、微生物ゲノム中の細胞機能をモデル化し、次にアノテーショ…

HiFiロングリードアセンブリのためのリピートを認識したポリッシングツール NextPolish2

PacBio社が開発した高忠実度(HiFi)ロングリードシーケンス技術により、ゲノムアセンブリの塩基レベルの精度は大幅に向上したが、これらのアセンブリには、特にHiFiロングリードのエラーが発生しやすい領域内に、塩基レベルのエラーが残っている。しかし、…

断片的なアセンブリから高品質のバクテリオファージゲノムを得る Phables

ヒトの腸内に存在する微生物群は、ヒトの健康に強い影響を及ぼしている。腸内細菌やウイルスは、炎症性腸疾患などの消化器系疾患に影響を与える。バクテリオファージと呼ばれる細菌に感染するウイルスは、ヒトの腸内の細菌群集を制御する上で重要な役割を担…

コード不要で高度なRNA-seq解析を行う RNAlysis

次世代シーケンサーによる実験では、データの探索的解析、トレンドの解釈、ターゲット/候補の特定、結果のわかりやすい直感的な可視化などが大きな課題となってる。これらの課題は、利用可能な解析ツールの大半がプログラミングスキルを必要とするため、コン…

ヒトの遺伝子と転写産物の総合カタログ CHESS 3

ヒト遺伝子のCHESSデータベース(Comprehensive Human Expressed SequenceS)は、Genotype-Tissue Expression (GTEx)プロジェクトで作成されたヒト53部位における約1万件のRNAシーケンス実験から構築され、さらに他のデータベースからの遺伝子を加えて、タン…

ヒト腸内細菌データベースを用いたオンラインのマイクロバイオーム解析を可能にする GutMeta

ヒトの腸内細菌は、多くの疾患と関連している。全ゲノムショットガンメタゲノミクスにより、膨大な量の腸内細菌データが蓄積されている。しかし、この膨大なデータセットを探索するためのキュレーションされた統合プラットフォームはほとんどない。データ生…

タンパク質の構造的近傍を探索する Structome

タンパク質の構造は、共通の祖先のシグナルを持ち、そのため進化の歴史を再構築するのに役立つ。構造情報推論を迅速に行うために、Structomeというウェブサーバーが開発され、ユーザーはクエリータンパク質に類似した構造を迅速に特定し、構造に基づく系統学…

細菌の分類学的に制限された遺伝子を探索するためのリソース TRGdb

TRGdbデータベースは、バクテリアの分類学的制限遺伝子(TRG)に特化したリソースである。最新の細菌分類学に基づき、異なる属や種に特異的な遺伝子を包括的に収集している。ユーザーインターフェースは、ブラウズや検索、配列の類似性探索を容易にする。また…

アセンブリ時のハプロタイプ重複に対処するためのツール群 Mabs

真核生物のゲノム解析は、ゲノム解読法の進歩にもかかわらず、未だエラーフリーには至っていない。真核生物のゲノムアセンブリの問題の中には、対立遺伝子が誤ってパラロガスとしてアセンブリされるケースとして現れる、いわゆる「ハプロタイプ重複」と呼ば…

ScrapPaper

本論文では、PubMedやGoogle Scholarの検索結果から雑誌情報を抽出するPythonスクリプト、ScrapPaperを紹介する。現在、このプログラムを開発した動機は、科学文献のタイトルやリンクなどの情報を取得し、リストとして保存してメタ分析や文献の比較研究など…

線形時間のロングリードゲノムアセンブラ GoldRush

2023/02/112 誤字修正 最新のロングリードDNOVOゲノムアセンブラは、OLC(Overlap Layout Consensus)パラダイムに従っており、そのネイティブ実装ではO(n2)アルゴリズムであった。OLCの最も時間とメモリを消費するステップであるall-vs-allシーケンシングリ…

プロトコルを共有する Bio-protocol Exchange

Bio-protocol Exchangeは、Bio-protocolジャーナルの姉妹プラットフォームサイト。研究者がプロトコルを議論したり、実験手順を共有する場として公開されている。実験プロトコルだけのプレプリントサーバーとしても機能している。 from bioprotocolbyte :A n…

3'UTRのアノテーションを行う peaks2utr

非モデル生物のアノテーションは未解決の問題であり、特に非翻訳領域(UTR)の検出が重要である。UTRの正確なアノテーションはトランスクリプトーム解析において各遺伝子の発現を正確に把握するために非常に重要であるが、アノテーションパイプラインではほ…

リファレンスアセンブリにアライメントした後のリードの品質を評価する best

高精度なシーケンシング技術を開発するためには、プラットフォーム依存のシーケンシングエラーを理解する必要がある。bestは、高品質のリファレンスアセンブリにアライメントされたリードを取り込み、リードごとのメトリクス、サマリー統計、ゲノム区間ごと…

MinHashスケッチで数百万個のバクテリアゲノムの高速クラスタリング解析を可能にする RabbitTClust

スケッチベースの距離推定に基づく、高速でメモリ効率の良いゲノムクラスターツールRabbitTClustを紹介する。本手法は、次元削減技術とストリーミング、最新のマルチコアプラットフォーム上での並列化を組み合わせることで、大規模データセットの効率的な処…

BAM/SAM/CRAM、VCF、FASTQ、GFF3の効率的な圧縮器 genozipのバージョン14アップデート

2022/12/05, 06 HP更新 Genozip は、広く利用されている FASTQ、BAM、VCF ファイル形式を含む、幅広いゲノムデータの圧縮を行う。ここでは、BAMおよびCRAMファイルの圧縮に焦点を当てた、Genozip技術の最新の進歩を紹介する。様々な種類の研究(全ゲノムシー…

真菌のITSやコアタンパク質コード遺伝子を使った系統解析を自動で実行する UFCG pipeline

UFCG pipelineを使うと、真菌のITSやコアタンパク質を使った系統解析を自動で実行できます。簡単にですが、使い方を確認しておきます。 UFCG is a database&pipeline for fungi phylogenomics. Our db contains 61 marker genes, 20 widely used & 41 novel …