macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

2019

FastQCの高速な代替 Falco

品質管理はシーケンスデータ解析において不可欠な最初のステップであり、品質管理のためのソフトウェアツールはほとんどのシーケンスセンターで標準的なパイプラインに深く浸透している。関連する計算は簡単だが、多くの環境では品質管理に必要な総計算量は…

生物医学ナリッジを紐解くためのAI駆動文献リソース PubTator 3.0

PubTator 3.0(https://www.ncbi.nlm.nih.gov/research/pubtator3/)は、タンパク質、遺伝子バリアント、疾患、化学物質のような主要な概念の意味と関係性の検索を提供する最先端のAI技術を用いた生物医学文献リソースである。現在、約3600万件のPubMed abst…

植物プロテオームの機能的アノテーションを行う mercator4

2019年の論文より すでに200種以上の植物のゲノム配列が発表されており、シーケンス技術の進歩により、この数は急速に増加すると予想されている。新しいゲノムが構築され、遺伝子が同定されると、オントロジーを用いてその推定翻訳産物であるタンパク質の機…

キュレーションされたBLASTサービス Curated BLAST

Curated BLAST for Genomesは、目的のゲノム内のプロセスまたは酵素活性の候補遺伝子を見つける。通常、各タンパク質について単一の活性を予測するアノテーションツールとは対照的に、Curated BLASTは、ゲノム中のタンパク質のいずれかが、関連する特性化さ…

遺伝子アノテーションをフィルタリング、解析、変換する gFACs

公開されたゲノムには、オープンリーディングフレーム、開始点、スプライスサイト、および関連する構造的特徴の同定に関連する問題を表す誤った遺伝子モデルが含まれていることが多い。これらの矛盾の原因は、ロングリードのアラインメントと予測された遺伝…

DegNorm

2023/07/10 インストール手順修正 RNA-seqは現在、ハイスループットシークエンシング技術を使用して転写活性をプロファイリングするための最も一般的な方法である。転写産物長の単位あたりのシークエンシングタグカウントは、転写産物の相対存在量を測定する…

スプライシングに変化を与えるバリアントを発見するためのスケーラブルなツール Spliceogen

インシリコ予測ツールは、シススプライシングモチーフを形成または破壊するバリアントを同定するために不可欠である。しかし、スプライシングモチーフを変化させるバリアントをゲノム規模で発見するための選択肢は限られている。Spliceogenは、スプライシン…

配列アライメントのための高速かつ効率的なプリアライメントフィルタ Shouji

ほとんどのバイオインフォマティクス分析における最も基本的な計算ステップの1つは、2つのゲノム配列間の相違点/類似点の検出である。Edit distanceとペアワイズアラインメントは、このステップを実現するための2つのアプローチで、近似文字列マッチングとし…

イントロン位置の保存性とRNA-seqを活用したホモロジーに基づく遺伝子予測を行う GeMoMa

明けましておめでとうございます。今年もよろしくお願いいたします。 今年も忙しくなりそうなので、更新できるタイミングがあれば積極的に更新していきます。 GeMoMaは、進化的に関連するリファレンス種の遺伝子モデルを基に、対象種の遺伝子モデルを予測す…

複数サンプルを使った効率的な転写産物アセンブラ PsiCLASS

RNA-seqリードからの転写産物アセンブルは、遺伝子発現やその後の機能解析において重要なステップとなる。本発表では、複数のRNA-seqサンプルを同時に解析するアプローチに基づく、正確かつ効率的なトランスクリプトアセンブラであるPsiCLASSを紹介する。Psi…

系統樹ファイルをチップ名(leaf)でフィルタリングする filter_tree.py スクリプト

8/8 誤字修正 QIIME1のfilter_tree.pyスクリプト(QIIME2ではqiime phylogeny filter-tree)は、系統樹ファイルから入力されたリスト(OTU名、ゲノム名など)で見つかったツリーのチップだけを保持するサブツリーを出力する。-negateオプションのTRUEフラグ…

高速でスケーラブルなパンゲノミクスツールボックス PIRATE

2022/10/17 追記 2024/09/10 追記, 10/02 インストール手順変更 天然の細菌集団内の遺伝子分布をカタログ化することは、進化の過程や適応の遺伝的基盤を理解するために不可欠である。全ゲノム配列決定技術の進歩により、公開データベースに登録される細菌ゲ…

ロングリードcDNAシーケンスも利用できる真核生物ゲノムの自動化されたアノテーションツール LoReAn

1分子完全長相補DNA(cDNA)配列決定は、転写産物の構造やスプライス形態を明らかにすることで、ゲノムアノテーションを支援することができるが、現在のアノテーションパイプラインにはそのような情報が組み込まれていない。本研究では、ロングリードアノテ…

窒素循環系遺伝子のメタゲノムプロファイリングのためのキュレーションされた統合データベース NCycDB

窒素(N)サイクルは、地球生態系における重要な生物地球化学的経路の集合体であり、生態学や環境学の分野で広く注目されている。現在、ショットガンメタゲノムシーケンスは、窒素サイクルプロセスを担う遺伝子ファミリーの探索に広く応用されていまる。しか…

BRB-seqのデータを扱うBRB-seq Tools

RNA-seqは広く普及しているものの、RT-qPCRに代わるデフォルトの遺伝子発現解析手法としては、まだ手間とコストがかかりすぎるのが現状である。本著者らはBRB-seqという新しいアプローチを紹介する。このアプローチは、早期のmultiplexingによって数十サンプ…

RNA-seqの主成分分析のためのR/Bioconductorパッケージ pcaExplorer

2022/01/30 誤字修正 主成分分析(PCA)は、RNAシーケンス(RNA-seq)遺伝子発現アッセイなどの高次元データにおける品質評価や探索的分析に、ゲノミクスアプリケーションで頻繁に使用されている。この目的のために開発された多くのソフトウェアパッケージが…

ヒトおよびモデル生物のタンパク質相互作用データベース Integrated interactions database

バイオアッセイの改良により、新しいタンパク質間相互作用(PPI)の同定率が大幅に向上し、検出されたヒトPPIの数は、初期のヒト・インタラクトームの推定サイズを大幅に上回っている。これらの新しいPPIは、疾患メカニズムのより完全な見解を提供しているが…

ネットワークに基づく遺伝子セットエンリッチメント解析を行う NGSEA

遺伝子発現表現型の遺伝子セット解析には、 over-representationアプローチとaggregate scoreアプローチという2つの主要なアプローチがある(Irizarry et al.、2009)。 over-representationアプローチでは、発現データセットから差分発現遺伝子(DEG)群を…

COBS index

Githubより COBS(COmpact Bit-sliced Signature index)は、invertedインデックスとブルームフィルタを掛け合わせたものである。DNAサンプルのk-merやテキスト文書のq-gramsをインデックス化し、ユーザが選択したカバレッジ閾値を持つコーパスに対して近似…

Minhashをメタゲノム解析へ応用する CMash

Minhashは、2つの集合の類似性をJaccard指数(集合の和に対する交点の大きさの比として定義される)の観点から推定する確率的な手法である。この手法は、対象となる集合の大きさが似ている場合に最も優れた性能を発揮し、集合の大きさが大きく異なる場合には…

De novoトランスクリプトームアセンブリで誤ってアセンブリされたキメラ転写産物を除去する Bellerophon

トランスクリプトームの品質管理は、RNA-Seq実験において重要なステップである。しかし、de novo アセンブルされたトランスクリプトームの品質を評価することは、アセンブルを比較するリファレンスゲノムがないために困難である。本著者らは、キメラ配列の除…

アセンブルされた微生物ゲノムのクオリティ評価を行う miComplete

2022/03/18 インストール手順追記 ハイスループットシーケンスの開発により、大規模なシーケンスプロジェクトが手頃な価格になり、可用性がますます向上している。膨大な量のメタゲノムデータが生成され、未培養微生物から数千のmetagenome-assembled genome…

DASHデータベース

HPより DASH(Database of Aligned Structural Homologs)は、PDBに登録されている既知の構造的に相同なタンパク質のドメインと鎖の構造アライメントを集めたデータベースである。 その処理方法は、(a) CD-HITを用いてPDBから配列固有のタンパク質を99%の配列…

(ヒトゲノム)ランダムフォレストを用いてバリアントの品質による分類を行う ForestQC

次世代シーケンシング技術(NGS)は、ゲノム上に存在するほぼすべての遺伝子バリアントの発見を可能にする。しかし、これらのバリアントの一部は、NGSやバリアントコーラーの限界により、シーケンスの質が低い場合がある。多数のシーケンスされた個体を解析…

複数の実験で得られた機能的な遺伝子アノテーションを階層的に整理し、視覚的にナビゲートする FunMappOne

オミックスデータの解析において、遺伝子の機能アノテーションは不可欠なステップである。現在、遺伝子群の機能をオントロジーや分子パスウェイなどの高次の表現にまとめるためのデータベースや手法が複数存在する。オミックス実験の結果を機能カテゴリにア…

マイクロバイオーム解析リソース MGnify

マイクロバイオームの研究には、通常、特定の環境(biomeとして知られている)からの微生物の集合的な遺伝物質の研究が含まれる。この多様で拡大している研究分野(バイオーム、方法、科学的質問の幅の観点から)は、世界の海洋の深海水と堆積物(1〜3)から…

De Novo Variantsを正確に発見するためのマッピング不要のフレームワーク Kevlar

遺伝性変異は複雑な遺伝性疾患における主要な寄与因子であると推測されている。多くの遺伝性疾患の遺伝率は比較的高いと推定されている。例えば、自閉症スペクトラム障害(ASD)の遺伝率は0.6を超え、統合失調症の遺伝率は0.5を超える。この遺伝性のごく一部…

メタゲノムアセンブリゲノムの下流解析のための再現性のあるパイプライン MAGpy

2022/02/20 追記 メタゲノミクスは、環境中に存在するすべてのゲノムからDNAをアッセイするための強力なツールである。近年のバイオインフォマティクスの進歩により、ほぼ完全なメタゲノム・アセンブル・ゲノム(MAG)の迅速なアセンブルが可能になっており…

(prototype)gzipで圧縮された大きなファイルを並列解凍する pugz

gzip プログラムで作成したファイルを任意の場所で解凍することは、 DEFLATE 圧縮アルゴリズム(wiki)の性質上、原理的に不可能である。そのため、既存のプログラムでは、並列性を利用してgzipで圧縮された大きなファイルを高速に解凍することができない。…

De novoでメタゲノムのbiological marker(サンプル間に共通する領域)を探す MetaMarker

全メタゲノムシーケンス(WMS)は微生物群集を研究するための新しいアプローチである。研究者らはWMSを使用してヒトのマイクロバイオームが結腸癌、細菌性膣炎、糖尿病、クローン病などのさまざまな疾患と密接な関係があることを発見した(Cho and Blaser、2…