macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

高速なツール

集団特異的なリファレンスゲノムを作成するための高速なゲノム研磨ツール JASPER

ロングリードシーケンス技術の進歩により、ゲノムアセンブリの連続性と完全性が劇的に改善された。最新のナノポアシーケンサーを用いれば、フローセル1個からヒトゲノムのアセンブリに必要なデータを生成することができる。これらのシーケンスから得られるロ…

全ゲノムアライメントからバリアントを報告する WGAVarHunter

WGAVarHunterは全ゲノムアライメントから高速にバリアントコールを行うRustで書かれたプログラム。結果はSNV、smalll and large indels、duplications、inversions、translocationに分けてVCF形式で報告される。 現在はバイナリのみ公開されています。試して…

ロングリードのアセンブラ NextDenovo

2022/06/09 追記 Githubより NextDenovoは、ロングリード(CLR、HiFi、ONT)用のストリンググラフベースのde novoアセンブラです。canuと同様に "correct-then-assemble "戦略を採用していますが(PacBio HiFiリードは修正ステップなし)、必要な計算資源と…

バリアントを考慮したリファレンスアラインメントの高速リフトオーバーを行う levioSAM2

テロメア単位の完全なゲノムアセンブリは、解析の向上や新しいバリアントの発見を期待できるが、多くの重要なゲノムリソースは古いリファレンスゲノムと関連したままである。そのため、リファレンスゲノム間のゲノムフイーチャーやリードアラインメントをト…

ショートリードの遺伝子予測の高速化 FragGeneScanRs

FragGeneScanは現在、短くてエラーが起こりやすいリードの遺伝子予測に最も正確で人気のあるツールであるが、その実行速度は大規模データセットで使用するには不十分である。この問題を解決するはずの並列化も非効率的であった。その代替実装であるFragGeneS…

シーケンスデータ中のウイルス・微生物検出を高速に行う RabbitV

シークエンスデータに含まれるウイルスや微生物の検出・同定は、病原体の診断や研究において重要な役割を担っている。しかし、この問題のための既存のツールは、しばしば高い実行時間とメモリ消費に悩まされている。本著者らは、ユニークなk-merの高速同定に…

生のシークエンシングリードからスケーラブルな高精度の系統樹を生成する Read2Tree

シーケンスのリードデータから系統樹を推定することは、生物学の基礎となるものである。しかし、最新の系統樹解析では、複雑なパイプラインを実行する必要があり、多大な計算コストと人件費がかかる上、シーケンスのカバレッジ、アセンブリ、アノテーション…

ゲノムやタンパク質配列セットをMinHash Sketchで比較するsourmash 其の2

2022/04/17 コマンド修正 MinHash Sketch(BBSketchの解説)を構築し、Jaccard指数で比較・検索するsourmashは、発表後もバージョンアップが続けられていて、現在では様々なコマンドが利用できるようになっています。そこで今日は、sourmashのグネチャファイ…

アダプタートリミングと低品質塩基のトリミングを行う並列化実装 Atria

2022/03/13 文章修正 2022/03/15 誤字修正 次世代シーケンサーの進歩により、リードに付着したアダプターや低品質の塩基が 直接的に、あるいは暗黙のうちに、ダウンストリーム解析の妨げとなる。たとえば、偽陽性 一塩基多型(SNP)、断片化したアセンブリが…

(非モデル生物)RNA-seqデータの超高速な機能的プロファイリングを行う seq2fun

2022/02/21 画像追記 リファレンスゲノムを持たない非モデル生物のRNA-seqデータ解析では、計算時間とコストが依然として大きなボトルネックとなっている。この課題を解決するために、著者らは、トランスクリプトームde novoアセンブリを行わずにRNA-seqリー…

超高速で高精度なアンプリコンシークエンス解析ツール LotuS2

アンプリコンシークエンスは、マイクロバイオームのプロファイリングにおいて確立されたコスト効率の高い手法である。しかし、このデータを処理するための多くのツールは、大きなデータセットを処理するためにバイオインフォマティクスのスキルと高い計算能…

ナノポアシグナルデータを効率的かつ並列に解析するための SLOW5フォーマットを扱う slow5tools

現在、最もポピュラーなシグナルレベル解析は、ソフトウェアNanopolish/f5cを用いたDNAメチル化プロファイリングである。この使用例をもとに、ハイパフォーマンス・コンピューティング(HPC)システムでのFAST5データ解析について解析した(論文補足説明2)…

高効率なカバレッジ計算ツール BamToCov

2022/02/25 論文引用 多くのゲノミクスアプリケーションでは、リファレンスのヌクレオチドカバレッジを計算したり、リファレンス領域に何本のリードがマッピングされているかをカウントしたりする必要がある。本発表では、BamToCovを紹介する。このツールは…

ショートリードとロングリードによりトランスクリプトームアセンブリの構造回復とアバンダンス推定を行う StringTieの新しいバージョン

トランスクリプトームのアセンブリには、short-read RNA sequencingとlong-read RNA sequencingのそれぞれに長所と短所がある。ショートリードは精度が高い反面、複数のエクソンにまたがることができない。Long-read技術は、完全な長さの転写産物を捉えるこ…

ショートリードマッピングの高速化 strobealign

2022/04/15 インストール手順更新 ショートリードのゲノムへのアラインメントは、多くのバイオインフォマティクス解析で用いられる基本的な計算ステップである。そのため、このような計算をできるだけ高速に行うことが望まれている。多くのアラインメントア…

ナノポアのロングリードの品質管理とサマリーレポートを高速に生成する nanoq

2022/02/02 追記 Githubより Nanoqは超高速リードフィルターとサマリーレポートを実装している。品質スコアは、技術文書や別の記事で説明しているように、ナノポア・シーケンス・データからのベースコールに対して計算される。 I recently pushed an update …

オックスフォードナノポアのリードのアセンブルを素早く行う dragonflye

2022/03/26 インストールコマンドの間違い修正 レポジトリより バクテリアの配列を扱ったことがある人なら、おそらくTorsten Seemann氏(HP)のツールの一つを使ったことがあるでしょう。そのようなツールの1つがShovill(紹介)で、バクテリアのゲノムアセ…

BAMファイルからカバレッジトラックを抽出するシンプルで高速なツール covtobed

バイオインフォマティクスの一般的な課題は、次世代シーケンシング実験で生成されたDNAシーケンシングリードを参照ゲノムにマッピングすることである。アラインメントの出力は、一般的にBAMファイルにエンコードされる(Li et al.2009)。DNAシーケンシング…

機械学習の手法でエミュレートされたBWA-MEM: BWA-MEME

次世代シーケンサーの普及やシーケンサーのスループットの向上に伴い、効率的なショートリードのアライメントが求められているが、その中でもシーディングは主要な性能ボトルネックの一つとなっている。Seeding phaseのキーとなるチャレンジは、リファレンス…

elPrep 5を使ったバリアントコール

GATK Best Practices for variant callingに完全対応したelPrep5 (紹介) には、大きく分けて2つのモードが用意されています。1つ目は完全にRAM内で動作する(フィルタ)モードで、これは中間ファイルを全く書き出さず完全にRAM内で計算を進めるため、非常…

(Prokaryotes)ドラフトゲノムのポリッシングを行う Polypolish

2021 10/21 論文引用 Githubより Polypolishはショートリードによるゲノムアセンブリを研磨するツールです。このカテゴリーの他のツールとは異なり、Polypolishは各リードが(単一の最適な位置ではなく)すべての可能な位置にアラインメントされたSAMファイ…

(ヒトゲノム)超高速なk-mer問い合わせwebサービス KmerKeys

2022/05/21 論文引用 K-merは、ゲノム配列解析に使用される短いDNA配列である。K-merを使ったアプリケーションには、ゲノムアセンブリやアラインメントがある。しかし、バイオインフォマティクスの分野でk-merを広く利用するには、ゲノム配列データの巨大化…

公開メタゲノムに対する高速なアミノ酸配列の類似性検索サービス PZLAST

公開されているメタゲノムデータに対するアミノ酸配列の類似性検索は、類似配列の環境分布に基づいて、配列の機能に関する洞察をユーザーに提供することができる。しかし、公開されているメタゲノムデータに対して配列の類似性検索を行うには、テラバイト以…

メタゲノムのリードカバレッジ とrelative abundanceの計算ツール coverM

2021 8/5追記 2021 9/6 追記 2021 10/8 contigコマンド修正 2022/05/09 help修正 2022/06/03 コマンド追記 Githubより CoverMは、メタゲノミクスアプリケーションに特化した、設定可能で使いやすく、高速なDNAリードカバレッジおよび相対的な存在比の計算ツ…

minimap2を高速化した mm2-fast

2022/06/14 ツイート追加 ロングリードシーケンシングは、ゲノミクスやトランスクリプトミクスの分野で日常的に使用されている。ロングリードやドラフトゲノムアセンブリを参照配列にマッピングすることは、これらのアプリケーションにおいて最も時間のかか…

De Novo Variantsを正確に発見するためのマッピング不要のフレームワーク Kevlar

遺伝性変異は複雑な遺伝性疾患における主要な寄与因子であると推測されている。多くの遺伝性疾患の遺伝率は比較的高いと推定されている。例えば、自閉症スペクトラム障害(ASD)の遺伝率は0.6を超え、統合失調症の遺伝率は0.5を超える。この遺伝性のごく一部…

ショートリードまたはロングリードのシーケンスデータからウイルスや微生物を迅速に同定する fastv

本論文では、ショートリードまたはロングリードのシーケンスデータからウイルスや微生物を迅速に同定するためのツールセットと関連リソースを紹介する。fastvは、シーケンシングデータ中に存在する微生物の配列を検出し、対象となる微生物を同定し、微生物ゲ…

Minimizer-spaceの de Bruijn graphsを構築し、超高速・低メモリアセンブリを行う rust-mdbg

2021 9/17 論文引用 DNAシーケンサーのデータは、リードが長くなり、シーケンスエラー率がますます低くなる傾向にある。ここでは、このようなリードをゲノムにアセンブルする問題に注目している。最新のアセンブル手法、例えばminimizer sketchesを用いたオ…

全ゲノム配列ファイルを迅速に比較する Mashtree

過去10年間で、公開されている細菌ゲノムの数は劇的に増加した。ゲノムはシークエンスされ、一般に共有され、その後、系統的な関連性が分析される。疫学的に関心のある2つのゲノムが関連していることがわかれば、さらなる調査が促されるかもしれない。しかし…

Nextflowを使ってバイオインフォマティクスのツールを動かす

2021 5/5 コードのsamtoolsへパイプする部分でWSLのランがエラーになったため、改行を除去 2021 5/9 画像追加 Nextflowなどのworkflow managerを使って解析パイプラインを記述しておくことで、再現性のある解析が可能になります。午後の空き時間を使って簡単…