macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

高速なツール

タンパク質配列をゲノム配列に対してintron (gap) awareで高速にアラインメントする Miniprot

Githubより Miniprotは、タンパク質配列をゲノムに対してアフィンギャップ・ペナルティ、スプライシング、フレームシフ トでアライメントする。Miniprotは、他の既知の種の遺伝子を用いて、新しい種のタンパク質コード遺伝子をアノテーションすることを主な…

Nanopolishのcall-methylationおよびeventalignモジュールを最適化して再実装した f5c

ナノポアシーケンスにより、ポイントオブケア診断や現場でのジェノタイピングなど、携帯可能なリアルタイムシーケンスアプリケーションが可能になる。このような成果を得るためには、生のナノポアシグナルデータを解析するための効率的なバイオインフォマテ…

2ラウンドのオーバーラッピングとキャッシュに基づく高速エラー訂正を行う Fec

第3世代シーケンサーは長いリード長でゲノム解析を進めるが、リードのエラーレートが高いため、エラー訂正が必要になる。特にシーケンスカバレッジが高い場合、エラー訂正は時間のかかる作業である。一般に、既存の誤り訂正手法は、重複するリードAを訂正す…

InParanoidをDIAMONDにより高速化した InParanoid-DIAMOND

バイオインフォマティクスにおいて、祖先を共有する異なる生物種の遺伝子であるオルソログを予測することは重要な課題である。オルソログ予測ツールは、大量のデータを実行可能な時間内に解析するために、正確かつ高速に予測することが要求される。InParanoi…

Foldseekを使ってAlphaFold UniProt DBから類似構造タンパク質を探す Foldseek server

2022/08/03 誤字修正 高精度な構造予測手法により、一般に公開されているタンパク質の構造が雪崩のように増えている。これらの構造を検索することが、構造解析の主なボトルネックになりつつある。Foldseekは、大規模な構造セットを高速かつ高感度に比較する…

機械学習を用いた微生物ゲノム品質の迅速で正確かつスケール可能な評価ツール CheckM2

DNA シーケンスとバイオインフォマティクスの進歩により、メタゲノム解析データからの微生物ゲノムの回収率は飛躍的に向上した。メタゲノム解析で得られたゲノムの品質を評価することは、解析に先立つ重要なステップである。本発表では、機械学習を利用してM…

高速でスケーラブルなパンゲノミクスツールボックス PIRATE

天然の細菌集団内の遺伝子分布をカタログ化することは、進化の過程や適応の遺伝的基盤を理解するために不可欠である。全ゲノム配列決定技術の進歩により、公開データベースに登録される細菌ゲノムの量は膨大なものとなっている。このような大規模なゲノムデ…

集団特異的なリファレンスゲノムを作成するための高速なゲノム研磨ツール JASPER

ロングリードシーケンス技術の進歩により、ゲノムアセンブリの連続性と完全性が劇的に改善された。最新のナノポアシーケンサーを用いれば、フローセル1個からヒトゲノムのアセンブリに必要なデータを生成することができる。これらのシーケンスから得られるロ…

全ゲノムアライメントからバリアントを報告する WGAVarHunter

WGAVarHunterは全ゲノムアライメントから高速にバリアントコールを行うRustで書かれたプログラム。結果はSNV、smalll and large indels、duplications、inversions、translocationに分けてVCF形式で報告される。 現在はバイナリのみ公開されています。試して…

ロングリードのアセンブラ NextDenovo

2022/06/09 追記 Githubより NextDenovoは、ロングリード(CLR、HiFi、ONT)用のストリンググラフベースのde novoアセンブラです。canuと同様に "correct-then-assemble "戦略を採用していますが(PacBio HiFiリードは修正ステップなし)、必要な計算資源と…

バリアントを考慮したリファレンスアラインメントの高速リフトオーバーを行う levioSAM2

テロメア単位の完全なゲノムアセンブリは、解析の向上や新しいバリアントの発見を期待できるが、多くの重要なゲノムリソースは古いリファレンスゲノムと関連したままである。そのため、リファレンスゲノム間のゲノムフイーチャーやリードアラインメントをト…

ショートリードの遺伝子予測の高速化 FragGeneScanRs

FragGeneScanは現在、短くてエラーが起こりやすいリードの遺伝子予測に最も正確で人気のあるツールであるが、その実行速度は大規模データセットで使用するには不十分である。この問題を解決するはずの並列化も非効率的であった。その代替実装であるFragGeneS…

シーケンスデータ中のウイルス・微生物検出を高速に行う RabbitV

シークエンスデータに含まれるウイルスや微生物の検出・同定は、病原体の診断や研究において重要な役割を担っている。しかし、この問題のための既存のツールは、しばしば高い実行時間とメモリ消費に悩まされている。本著者らは、ユニークなk-merの高速同定に…

生のシークエンシングリードからスケーラブルな高精度の系統樹を生成する Read2Tree

シーケンスのリードデータから系統樹を推定することは、生物学の基礎となるものである。しかし、最新の系統樹解析では、複雑なパイプラインを実行する必要があり、多大な計算コストと人件費がかかる上、シーケンスのカバレッジ、アセンブリ、アノテーション…

ゲノムやタンパク質配列セットをMinHash Sketchで比較するsourmash 其の2

2022/04/17 コマンド修正 MinHash Sketch(BBSketchの解説)を構築し、Jaccard指数で比較・検索するsourmashは、発表後もバージョンアップが続けられていて、現在では様々なコマンドが利用できるようになっています。そこで今日は、sourmashのグネチャファイ…

アダプタートリミングと低品質塩基のトリミングを行う並列化実装 Atria

2022/03/13 文章修正 2022/03/15 誤字修正 次世代シーケンサーの進歩により、リードに付着したアダプターや低品質の塩基が 直接的に、あるいは暗黙のうちに、ダウンストリーム解析の妨げとなる。たとえば、偽陽性 一塩基多型(SNP)、断片化したアセンブリが…

(非モデル生物)RNA-seqデータの超高速な機能的プロファイリングを行う seq2fun

2022/02/21 画像追記 リファレンスゲノムを持たない非モデル生物のRNA-seqデータ解析では、計算時間とコストが依然として大きなボトルネックとなっている。この課題を解決するために、著者らは、トランスクリプトームde novoアセンブリを行わずにRNA-seqリー…

超高速で高精度なアンプリコンシークエンス解析ツール LotuS2

アンプリコンシークエンスは、マイクロバイオームのプロファイリングにおいて確立されたコスト効率の高い手法である。しかし、このデータを処理するための多くのツールは、大きなデータセットを処理するためにバイオインフォマティクスのスキルと高い計算能…

ナノポアシグナルデータを効率的かつ並列に解析するための SLOW5フォーマットを扱う slow5tools

現在、最もポピュラーなシグナルレベル解析は、ソフトウェアNanopolish/f5cを用いたDNAメチル化プロファイリングである。この使用例をもとに、ハイパフォーマンス・コンピューティング(HPC)システムでのFAST5データ解析について解析した(論文補足説明2)…

高効率なカバレッジ計算ツール BamToCov

2022/02/25 論文引用 多くのゲノミクスアプリケーションでは、リファレンスのヌクレオチドカバレッジを計算したり、リファレンス領域に何本のリードがマッピングされているかをカウントしたりする必要がある。本発表では、BamToCovを紹介する。このツールは…

ショートリードとロングリードによりトランスクリプトームアセンブリの構造回復とアバンダンス推定を行う StringTieの新しいバージョン

トランスクリプトームのアセンブリには、short-read RNA sequencingとlong-read RNA sequencingのそれぞれに長所と短所がある。ショートリードは精度が高い反面、複数のエクソンにまたがることができない。Long-read技術は、完全な長さの転写産物を捉えるこ…

ショートリードマッピングの高速化 strobealign

2022/04/15 インストール手順更新 ショートリードのゲノムへのアラインメントは、多くのバイオインフォマティクス解析で用いられる基本的な計算ステップである。そのため、このような計算をできるだけ高速に行うことが望まれている。多くのアラインメントア…

ナノポアのロングリードの品質管理とサマリーレポートを高速に生成する nanoq

2022/02/02 追記 Githubより Nanoqは超高速リードフィルターとサマリーレポートを実装している。品質スコアは、技術文書や別の記事で説明しているように、ナノポア・シーケンス・データからのベースコールに対して計算される。 I recently pushed an update …

オックスフォードナノポアのリードのアセンブルを素早く行う dragonflye

2022/03/26 インストールコマンドの間違い修正 レポジトリより バクテリアの配列を扱ったことがある人なら、おそらくTorsten Seemann氏(HP)のツールの一つを使ったことがあるでしょう。そのようなツールの1つがShovill(紹介)で、バクテリアのゲノムアセ…

BAMファイルからカバレッジトラックを抽出するシンプルで高速なツール covtobed

バイオインフォマティクスの一般的な課題は、次世代シーケンシング実験で生成されたDNAシーケンシングリードを参照ゲノムにマッピングすることである。アラインメントの出力は、一般的にBAMファイルにエンコードされる(Li et al.2009)。DNAシーケンシング…

機械学習の手法でエミュレートされたBWA-MEM: BWA-MEME

次世代シーケンサーの普及やシーケンサーのスループットの向上に伴い、効率的なショートリードのアライメントが求められているが、その中でもシーディングは主要な性能ボトルネックの一つとなっている。Seeding phaseのキーとなるチャレンジは、リファレンス…

elPrep 5を使ったバリアントコール

GATK Best Practices for variant callingに完全対応したelPrep5 (紹介) には、大きく分けて2つのモードが用意されています。1つ目は完全にRAM内で動作する(フィルタ)モードで、これは中間ファイルを全く書き出さず完全にRAM内で計算を進めるため、非常…

(Prokaryotes)ドラフトゲノムのポリッシングを行う Polypolish

2021 10/21 論文引用 Githubより Polypolishはショートリードによるゲノムアセンブリを研磨するツールです。このカテゴリーの他のツールとは異なり、Polypolishは各リードが(単一の最適な位置ではなく)すべての可能な位置にアラインメントされたSAMファイ…

(ヒトゲノム)超高速なk-mer問い合わせwebサービス KmerKeys

2022/05/21 論文引用 K-merは、ゲノム配列解析に使用される短いDNA配列である。K-merを使ったアプリケーションには、ゲノムアセンブリやアラインメントがある。しかし、バイオインフォマティクスの分野でk-merを広く利用するには、ゲノム配列データの巨大化…

公開メタゲノムに対する高速なアミノ酸配列の類似性検索サービス PZLAST

公開されているメタゲノムデータに対するアミノ酸配列の類似性検索は、類似配列の環境分布に基づいて、配列の機能に関する洞察をユーザーに提供することができる。しかし、公開されているメタゲノムデータに対して配列の類似性検索を行うには、テラバイト以…