FastQCの高速な代替 Falco

品質管理はシーケンスデータ解析において不可欠な最初のステップであり、品質管理のためのソフトウェアツールはほとんどのシーケンスセンターで標準的なパイプラインに深く浸透している。関連する計算は簡単だが、多くの環境では品質管理に必要な総計算量は…

2024-04-07

生物医学ナリッジを紐解くためのAI駆動文献リソース PubTator 3.0

2013 2019 2024 Nucleic Acids Research インフォマティクス解析をサポートするツール text mining

PubTator 3.0（https://www.ncbi.nlm.nih.gov/research/pubtator3/）は、タンパク質、遺伝子バリアント、疾患、化学物質のような主要な概念の意味と関係性の検索を提供する最先端のAI技術を用いた生物医学文献リソースである。現在、約3600万件のPubMed abst…

2024-03-28

植物プロテオームの機能的アノテーションを行う mercator4

Molecular Plant 2019 web tool plant algae annotation

2019年の論文よりすでに200種以上の植物のゲノム配列が発表されており、シーケンス技術の進歩により、この数は急速に増加すると予想されている。新しいゲノムが構築され、遺伝子が同定されると、オントロジーを用いてその推定翻訳産物であるタンパク質の機…

2024-02-09

キュレーションされたBLASTサービス Curated BLAST

2019 mSystems (Journal) BLAST protein search web tool annotation

Curated BLAST for Genomesは、目的のゲノム内のプロセスまたは酵素活性の候補遺伝子を見つける。通常、各タンパク質について単一の活性を予測するアノテーションツールとは対照的に、Curated BLASTは、ゲノム中のタンパク質のいずれかが、関連する特性化さ…

2023-12-29

遺伝子アノテーションをフィルタリング、解析、変換する gFACs

Genomics Proteomics Bioinformatics 2019 filtering bacterial annotation eukaryotic genome annotation GFF UTR

公開されたゲノムには、オープンリーディングフレーム、開始点、スプライスサイト、および関連する構造的特徴の同定に関連する問題を表す誤った遺伝子モデルが含まれていることが多い。これらの矛盾の原因は、ロングリードのアラインメントと予測された遺伝…

2023-07-10

DegNorm

2019 Genome Biology RNA seq Bioconductor RNAseqの定量

2023/07/10 インストール手順修正 RNA-seqは現在、ハイスループットシークエンシング技術を使用して転写活性をプロファイリングするための最も一般的な方法である。転写産物長の単位あたりのシークエンシングタグカウントは、転写産物の相対存在量を測定する…

2023-02-21

スプライシングに変化を与えるバリアントを発見するためのスケーラブルなツール Spliceogen

2019 Bioinformatics Alternative splicing splicing variant

インシリコ予測ツールは、シススプライシングモチーフを形成または破壊するバリアントを同定するために不可欠である。しかし、スプライシングモチーフを変化させるバリアントをゲノム規模で発見するための選択肢は限られている。Spliceogenは、スプライシン…

2023-02-14

配列アライメントのための高速かつ効率的なプリアライメントフィルタ Shouji

2019 Bioinformatics FPGA filtering

ほとんどのバイオインフォマティクス分析における最も基本的な計算ステップの1つは、2つのゲノム配列間の相違点/類似点の検出である。Edit distanceとペアワイズアラインメントは、このステップを実現するための2つのアプローチで、近似文字列マッチングとし…

2023-01-01

イントロン位置の保存性とRNA-seqを活用したホモロジーに基づく遺伝子予測を行う GeMoMa

2019 Methods in Molecular Biology Evidence-driven gene prediction eukaryotic genome annotation 2018 BMC Bioinformatics Nucleic Acids Research 2016

明けましておめでとうございます。今年もよろしくお願いいたします。今年も忙しくなりそうなので、更新できるタイミングがあれば積極的に更新していきます。 GeMoMaは、進化的に関連するリファレンス種の遺伝子モデルを基に、対象種の遺伝子モデルを予測す…

2022-08-26

複数サンプルを使った効率的な転写産物アセンブラ PsiCLASS

2019 Nature Communications de novo transcriptome assembly

RNA-seqリードからの転写産物アセンブルは、遺伝子発現やその後の機能解析において重要なステップとなる。本発表では、複数のRNA-seqサンプルを同時に解析するアプローチに基づく、正確かつ効率的なトランスクリプトアセンブラであるPsiCLASSを紹介する。Psi…

2022-08-08

系統樹ファイルをチップ名（leaf）でフィルタリングする filter_tree.py スクリプト

Nature Biotechnology 2019 filtering tree

8/8 誤字修正 QIIME1のfilter_tree.pyスクリプト（QIIME2ではqiime phylogeny filter-tree）は、系統樹ファイルから入力されたリスト（OTU名、ゲノム名など）で見つかったツリーのチップだけを保持するサブツリーを出力する。-negateオプションのTRUEフラグ…

2022-07-01

高速でスケーラブルなパンゲノミクスツールボックス PIRATE

2019 GigaScience docker pan-genome tRNA rRNA 高速なツール

2022/10/17 追記天然の細菌集団内の遺伝子分布をカタログ化することは、進化の過程や適応の遺伝的基盤を理解するために不可欠である。全ゲノム配列決定技術の進歩により、公開データベースに登録される細菌ゲノムの量は膨大なものとなっている。このような…

2022-05-09

ロングリードcDNAシーケンスも利用できる真核生物ゲノムの自動化されたアノテーションツール LoReAn

Singularity docker 2019 Plant Physiology eukaryotic genome annotation テスト失敗

1分子完全長相補DNA（cDNA）配列決定は、転写産物の構造やスプライス形態を明らかにすることで、ゲノムアノテーションを支援することができるが、現在のアノテーションパイプラインにはそのような情報が組み込まれていない。本研究では、ロングリードアノテ…

2022-04-07

窒素循環系遺伝子のメタゲノムプロファイリングのためのキュレーションされた統合データベース NCycDB

2019 Bioinformatics nitrogen cycling genes database

窒素（N）サイクルは、地球生態系における重要な生物地球化学的経路の集合体であり、生態学や環境学の分野で広く注目されている。現在、ショットガンメタゲノムシーケンスは、窒素サイクルプロセスを担う遺伝子ファミリーの探索に広く応用されていまる。しか…

2022-02-09

BRB-seqのデータを扱うBRB-seq Tools

BRB-seq 2019 Genome Biology RNA seq

RNA-seqは広く普及しているものの、RT-qPCRに代わるデフォルトの遺伝子発現解析手法としては、まだ手間とコストがかかりすぎるのが現状である。本著者らはBRB-seqという新しいアプローチを紹介する。このアプローチは、早期のmultiplexingによって数十サンプ…

2022-01-30

RNA-seqの主成分分析のためのR/Bioconductorパッケージ pcaExplorer

2019 BMC Bioinformatics Bioconductor RNA seq PCA shiny 結果の視覚化 (visualization) GO enrichment analysis

2022/01/30 誤字修正主成分分析（PCA）は、RNAシーケンス（RNA-seq）遺伝子発現アッセイなどの高次元データにおける品質評価や探索的分析に、ゲノミクスアプリケーションで頻繁に使用されている。この目的のために開発された多くのソフトウェアパッケージが…

2022-01-25

ヒトおよびモデル生物のタンパク質相互作用データベース Integrated interactions database

protein-protein interaction (PPI) 2021 2020 2019 2016 Nucleic Acids Research Methods in Molecular Biology human genome web tool

バイオアッセイの改良により、新しいタンパク質間相互作用（PPI）の同定率が大幅に向上し、検出されたヒトPPIの数は、初期のヒト・インタラクトームの推定サイズを大幅に上回っている。これらの新しいPPIは、疾患メカニズムのより完全な見解を提供しているが…

2022-01-11

ネットワークに基づく遺伝子セットエンリッチメント解析を行う NGSEA

2019 Molecules and Cells GO enrichment analysis KEGG web tool cancer human genome

遺伝子発現表現型の遺伝子セット解析には、 over-representationアプローチとaggregate scoreアプローチという2つの主要なアプローチがある（Irizarry et al.、2009）。 over-representationアプローチでは、発現データセットから差分発現遺伝子（DEG）群を…

2021-12-21

COBS index

2019 Preprint index API

Githubより COBS（COmpact Bit-sliced Signature index）は、invertedインデックスとブルームフィルタを掛け合わせたものである。DNAサンプルのk-merやテキスト文書のq-gramsをインデックス化し、ユーザが選択したカバレッジ閾値を持つコーパスに対して近似…

2021-12-15

Minhashをメタゲノム解析へ応用する CMash

2017 Preprint MInHash テスト失敗 2019 metagenome

Minhashは、2つの集合の類似性をJaccard指数（集合の和に対する交点の大きさの比として定義される）の観点から推定する確率的な手法である。この手法は、対象となる集合の大きさが似ている場合に最も優れた性能を発揮し、集合の大きさが大きく異なる場合には…

2021-12-05

De novoトランスクリプトームアセンブリで誤ってアセンブリされたキメラ転写産物を除去する Bellerophon

snakemake 2019 Ecology and Evolution de novo transcriptome chimera transcript テスト失敗

トランスクリプトームの品質管理は、RNA-Seq実験において重要なステップである。しかし、de novo アセンブルされたトランスクリプトームの品質を評価することは、アセンブルを比較するリファレンスゲノムがないために困難である。本著者らは、キメラ配列の除…

2021-10-14

アセンブルされた微生物ゲノムのクオリティ評価を行う miComplete

2019 Bioinformatics metagenome single cell evaluation tool

2022/03/18 インストール手順追記ハイスループットシーケンスの開発により、大規模なシーケンスプロジェクトが手頃な価格になり、可用性がますます向上している。膨大な量のメタゲノムデータが生成され、未培養微生物から数千のmetagenome-assembled genome…

2021-10-10

DASHデータベース

2019 Nucleic Acids Research PDB protein search database

HPより DASH(Database of Aligned Structural Homologs)は、PDBに登録されている既知の構造的に相同なタンパク質のドメインと鎖の構造アライメントを集めたデータベースである。その処理方法は、(a) CD-HITを用いてPDBから配列固有のタンパク質を99%の配列…