ショートリードまたはロングリードのシーケンスデータからウイルスや微生物を迅速に同定する fastv

本論文では、ショートリードまたはロングリードのシーケンスデータからウイルスや微生物を迅速に同定するためのツールセットと関連リソースを紹介する。fastvは、シーケンシングデータ中に存在する微生物の配列を検出し、対象となる微生物を同定し、微生物ゲ…

2021-07-03

Minimizer-spaceの de Bruijn graphsを構築し、超高速・低メモリアセンブリを行う rust-mdbg

2021 Preprint assembly Pacbio Nanopore long read 高速なツール minimizer-space Cell Systems

2021 9/17 論文引用 2023/08/03 更新（metaMDBGとしてまちがって更新していた分を移動） DNAシーケンサーのデータは、リードが長くなり、シーケンスエラー率がますます低くなる傾向にある。ここでは、このようなリードをゲノムにアセンブルする問題に注目し…

2021-06-18

全ゲノム配列ファイルを迅速に比較する Mashtree

2019 Journal of Open Source Software 高速なツール分子系統樹系統解析 all versus all sequence comarison MInHash

過去10年間で、公開されている細菌ゲノムの数は劇的に増加した。ゲノムはシークエンスされ、一般に共有され、その後、系統的な関連性が分析される。疫学的に関心のある2つのゲノムが関連していることがわかれば、さらなる調査が促されるかもしれない。しかし…

2021-05-03

Nextflowを使ってバイオインフォマティクスのツールを動かす

nextflow 2017 Nature Biotechnology tips 高速なツール workflow manager benchmark

2021 5/5 コードのsamtoolsへパイプする部分でWSLのランがエラーになったため、改行を除去 2021 5/9 画像追加 Nextflowなどのworkflow managerを使って解析パイプラインを記述しておくことで、再現性のある解析が可能になります。午後の空き時間を使って簡単…

2021-04-18

de-novo assembled transcriptomeのORF予測を行う Borf

2021 Preprint 高速なツール de novo transcriptome

RNA-Seq解析やトランスクリプトームのアノテーションにおいて、de-novoでアセンブルされたトランスクリプトームのORF予測は重要なステップである。しかし、現在のアプローチでは、ストランド特異性や不完全に組み立てられた転写産物などの要因を適切に考慮し…

2021-03-05

連結コアタンパク質の多重整列を素早く生成する cognac

2021 BMC Bioinformatics phylogenetic marker genes multiple sequence alignment (MSA) 高速なツール系統解析

ゲノムデータの量は増加の一途をたどっている。そのためには、利用可能なデータ量に合わせた系統解析のためのツールが必要とされている。本研究では、このようなニーズに対応するために、系統解析のための遺伝子連結アラインメントを迅速に生成するためのユ…

2021-02-26

BURST

2020 Preprint 高速なツール mapping

次世代のDNAシーケンシングデータが計算能力が追いつかないほどの速さで出現しているため、基本的なDNAアライメント/マッピングの問題に対する近似ヒューリスティックな解法がますます使われるようになってきている。逆説的なことに、データが増えれば増える…

2021-02-11

condaの代わりに高速なmambaを使う

tips 初心者向け高速なツール conda

2021 2/11 誤りを修正 2021 4/26 Rについて追記 2021 4/30 tips追記 2022 2/7 再インストール追記 Githubより Mamba は C++ での conda パッケージマネージャの再実装です。マルチスレッドを使ったリポジトリデータとパッケージファイルの並列ダウンロード、…

2021-01-31

メタゲノムの生合成遺伝子クラスター予測と多様性評価を行う BiG-MEx

2021 Preprint secondary metabolites gene cluster docker shannon diversity index metagenome ヒト腸内 (human gut) Marine Metagenomics tree 高速なツール natural product

微生物は、特殊な代謝経路の酵素をコードする物理的にクラスタ化された遺伝子である生合成遺伝子クラスター（BGC）を発現することにより、膨大な種類の天然物を生産している。これらの天然物は、工業的・医学的利用価値の高い幅広いケミカルクラス（アミノグ…

2021-01-26

高速なONTロングリードの前処理ツール nanoq

高速なツール Nanopore long read trimming / preprocessing JOSS 2022

2022 1/11 論文引用基本的なシーケンス品質管理とサマリー統計の計算は、リードをパースするのがボトルネックになることにより少し時間がかかる場合がある。Nanoq は、needletail および rust-bio ライブラリを使用した fastx ファイルに対して、欠陥のある…

2021-01-22

オーバーラップグラフに基づいたde novoゲノムアセンブラ ALGA

2021 Bioinformatics 高速なツール Overlap-layout-consensus (OLC) assembly human genome

2021 1/22 誤字修正オーバーラップグラフ法に基づいたde novoゲノムアセンブリの手法は非常に少ない。いわゆるde Bruijnグラフアプローチよりも正確な結果が得られると考えられているが、より多くの時間とより多くのメモリを必要とする。オーバーラップグラ…

2021-01-16

高速なハプロタイプバリアントコーラー LocHap

2016 Nucleic Acids Research haplotype haplotyping human genome 高速なツール

Somatic mosaicismとは、単一の生物学的サンプル中の体細胞の一部に体細胞変異が存在することである。その重要性は主に理論的に議論されてきたが、実験的な研究により体細胞モザイクと疾患診断との関連性が明らかになりつつある。本研究では、健康なドナーの…

2021-01-06

HiFiロングリードを使ってhaplotype-resolved assemblyを行う Hifiasm

haplotype reconstruction Pacbio assembly Trio binning assembly phasing large genome 高速なツール diploid polyploid plant 2021 Nature Methods duplicate removal in primary genome assemblies 2022 Nature Biotechnology error correction Hi-C

2022/03/26 Hi-Cと組み合わせた論文引用、ツイート追記 2023/02ツイート追記 2024/04/06 追記、help更新 Haplotype-resolved de novo assemblyは、ゲノム配列のバリエーションを研究するための究極のソリューションである。しかし、既存のアルゴリズムでは、…

2020-12-31

Deep learningによって高速かつ精度の高いオーソロガスタンパク質のアサインメントを行う DeepNOG

2020 Bioinformatics 高速なツール orthologue GPU deep neural network

タンパク質オロソログ群データベースは、進化解析、機能アノテーション、または系統を超えた代謝パスウェイのモデリングのための強力なツールである。また、配列は通常、プロファイル隠れマルコフモデルなどのアライメントベースの手法でオーソロガスなグル…

2020-11-21

ロングリードおよび長い配列のアライナー lra

高速なツール Preprint 2020 Nanopore long read Pacbio

１分子シークエンシング（SMS）装置からのロングリードや、SMSアセンブリからのメガベーススケールのコンティグをアラインメントしてバリエーションを検出することは、計算量的に困難である。長い配列を効率的にアラインメントするための1つのアプローチは、…

2020-10-27

高速かつ低メモリ使用量でlarge genomeのde gbrujin graphを構築する Cuttlefish

2020 Preprint assembly graph large genome 高速なツール

ゲノム解析において、リファレンスゲノムの大規模なコレクションからコンパクトなde Bruijnグラフを構築することは、ますます関心が高まっている課題である。例えば、compacted colored reference de Bruijn graphsは、ショートリードとロングリードのアライ…

2020-10-26

柔軟な出力パラメータをもつ高速なORF予測ツール orfipy

高速なツール annotation 2021 Bioinformatics de novo transcriptome

2021 2/13 論文引用、help更新、実行例追記転写物中のORFを検索することは、新たに配列決定されたゲノム中のコーディング領域をアノテーションする前の重要なステップであり、既知の遺伝子内の代替リーディングフレームを検索するための重要なステップであ…

2020-10-02

大規模なウイルスゲノムデータのマルチプルシーケンスアラインメントを行う ViralMSA

高速なツール 2020 Bioinformatics multiple sequence alignment (MSA) virus SARS-CoV-2

2023/04 ツイート追記分子疫学において、感染クラスターの同定は、典型的にはウイルスゲノム配列データのアラインメントを必要とする。しかし、既存の複数配列のアラインメント手法では、配列数に対してスケールが小さく、その結果、ウイルスの感染クラスタ…

2020-09-10

入力プロテオームから類似したタンパク質のデータベースを自動検索し、プロテオームから近い種を調べる AAI-profiler

2018 Nucleic Acids Research AAI web tool 結果の視覚化 (visualization) 生物種の推定 (taxonomic profiling) 高速なツール UniProt

全ゲノムショットガンシーケンスは、分類学的分類の再評価を推進し、シングルセルゲノミクスの出現は生物多様性に関する知識を大きく広げている(1)。これらすべての応用分野において、分類学的分類に関するオリジナルの文献を検索するよりも、配列データを直…

2020-09-09

ラージデータセットのコアゲノムを高速に構築する CoreCruncher

2020 Molecular Biology and Evolution pan-genome ゲノム比較 (comparative genomics) bacteria 高速なツール

コアゲノムとは、原核生物のある集団や種のすべての、あるいはほぼすべての系統が共有する遺伝子の集合を意味する。コアゲノムを推定することは多くのゲノム解析に不可欠だが、ほとんどの手法はすべてのゲノムのペアを比較することに依存している。ここでは…

2020-08-19

ショートリードとロングリード両方に対応した高速なクオリティフィルタリングツール RabbitQC

2020 Bioinformatics trimming / preprocessing 高速なツール windowsツール

2020 8/19 追記現代のシーケンシング技術は、生物学や医学の多くの分野で革命を起こし続けている。生成されたデータセットはエラーが発生しやすいため、下流のアプリケーションでは通常、FASTQファイルを前処理するための品質管理手法が必要となる。しかし…

2020-08-08

（ヒトゲノム）高速かつ精度の高いロングリードのSVコーラー cuteSV

2020 Genome Biology human genome structural variations (SV) 高速なツール

2021 5/6 インストール手順、help、コマンド更新構造変化（SV）とは、欠失、挿入、逆位、重複、転座などのゲノムリアレンジメントで、その大きさが50 bpを超えるものを指す。ヒトゲノム上で最大のdivergencesとして、SV はヒトの疾患（遺伝性疾患やガンなど…

2020-07-31

高速なアライナー Accel-Align

mapping 高速なツール 2020 Preprint 2021 BMC Bioinformatics

シーケンシング技術の向上により、シーケンシングコストはゲノムあたり100ドルに向かって進み続けている。しかし、シーケンスデータをリファレンスゲノムにマッピングすることは、シーケンスによって導入されるindelやミスマッチを処理するための編集距離に…

2020-07-26

リファレンスフリーでメタゲノムロングリードのビニングを行う MetaBCC-LR

2020 Bioinformatics metagenome Binning (metagenomics) 高速なツール

メタゲノミクスは、微生物の遺伝物質を自然環境から直接研究するものである（Chen and Pachter, 2005）。次世代シーケンシング（NGS）技術により、ヒトマイクロバイオームプロジェクト（The Human Microbiome Project Consortium, 2012）のような大規模な研…

2020-07-17

Bwa-mem2

高速なツール mapping benchmark

2020 7/19 benchmark追記、一部修正 2020 10/15 condaインストール追記 Bwa-mem2はbwaのbwa-memアルゴリズムのネクストバージョンである。bwaと同じアラインメントを生成し、データセット、実行中のマシンに依存して～1.3～3.1倍高速になる。オリジナルのbwa…

2020-07-12

高感度な類似タンパク質配列検索ツール HH-suite3（hhblitsについて）

2019 BMC Bioinformatics protein search 高速なツール multiple sequence alignment (MSA)

2020 7/13 タイトル変更 2020 7/14追記 2022/10/19 追記ゲノミクスやメタゲノミクスプロジェクトのかなりの割合のタンパク質では同定可能なアノテーションされた相同なタンパク質がなく、アノテーションされていないタンパク質がかなりの割合を占めている[r…

2020-05-29

特定の領域由来のロングリードを高速選抜する selectION

Nanopore long read mapping 高速なツール human whole genome

SelectION: Identification of predefined genomic regions in large nanopore DNA London Calling 2017 インストール ubuntu18.04LTSでテストした。ビルド依存 requires gcc > 5 and the following libraries: boost filesystem boost program_options boo…