macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

2019

複数サンプルを使った効率的な転写産物アセンブラ PsiCLASS

RNA-seqリードからの転写産物アセンブルは、遺伝子発現やその後の機能解析において重要なステップとなる。本発表では、複数のRNA-seqサンプルを同時に解析するアプローチに基づく、正確かつ効率的なトランスクリプトアセンブラであるPsiCLASSを紹介する。Psi…

系統樹ファイルをチップ名(leaf)でフィルタリングする filter_tree.py スクリプト

8/8 誤字修正 QIIME1のfilter_tree.pyスクリプト(QIIME2ではqiime phylogeny filter-tree)は、系統樹ファイルから入力されたリスト(OTU名、ゲノム名など)で見つかったツリーのチップだけを保持するサブツリーを出力する。-negateオプションのTRUEフラグ…

高速でスケーラブルなパンゲノミクスツールボックス PIRATE

天然の細菌集団内の遺伝子分布をカタログ化することは、進化の過程や適応の遺伝的基盤を理解するために不可欠である。全ゲノム配列決定技術の進歩により、公開データベースに登録される細菌ゲノムの量は膨大なものとなっている。このような大規模なゲノムデ…

ロングリードcDNAシーケンスも利用できる真核生物ゲノムの自動化されたアノテーションツール LoReAn

1分子完全長相補DNA(cDNA)配列決定は、転写産物の構造やスプライス形態を明らかにすることで、ゲノムアノテーションを支援することができるが、現在のアノテーションパイプラインにはそのような情報が組み込まれていない。本研究では、ロングリードアノテ…

窒素循環系遺伝子のメタゲノムプロファイリングのためのキュレーションされた統合データベース NCycDB

窒素(N)サイクルは、地球生態系における重要な生物地球化学的経路の集合体であり、生態学や環境学の分野で広く注目されている。現在、ショットガンメタゲノムシーケンスは、窒素サイクルプロセスを担う遺伝子ファミリーの探索に広く応用されていまる。しか…

BRB-seqのデータを扱うBRB-seq Tools

RNA-seqは広く普及しているものの、RT-qPCRに代わるデフォルトの遺伝子発現解析手法としては、まだ手間とコストがかかりすぎるのが現状である。本著者らはBRB-seqという新しいアプローチを紹介する。このアプローチは、早期のmultiplexingによって数十サンプ…

RNA-seqの主成分分析のためのR/Bioconductorパッケージ pcaExplorer

2022/01/30 誤字修正 主成分分析(PCA)は、RNAシーケンス(RNA-seq)遺伝子発現アッセイなどの高次元データにおける品質評価や探索的分析に、ゲノミクスアプリケーションで頻繁に使用されている。この目的のために開発された多くのソフトウェアパッケージが…

ヒトおよびモデル生物のタンパク質相互作用データベース Integrated interactions database

バイオアッセイの改良により、新しいタンパク質間相互作用(PPI)の同定率が大幅に向上し、検出されたヒトPPIの数は、初期のヒト・インタラクトームの推定サイズを大幅に上回っている。これらの新しいPPIは、疾患メカニズムのより完全な見解を提供しているが…

ネットワークに基づく遺伝子セットエンリッチメント解析を行う NGSEA

遺伝子発現表現型の遺伝子セット解析には、 over-representationアプローチとaggregate scoreアプローチという2つの主要なアプローチがある(Irizarry et al.、2009)。 over-representationアプローチでは、発現データセットから差分発現遺伝子(DEG)群を…

COBS index

Githubより COBS(COmpact Bit-sliced Signature index)は、invertedインデックスとブルームフィルタを掛け合わせたものである。DNAサンプルのk-merやテキスト文書のq-gramsをインデックス化し、ユーザが選択したカバレッジ閾値を持つコーパスに対して近似…

Minhashをメタゲノム解析へ応用する CMash

Minhashは、2つの集合の類似性をJaccard指数(集合の和に対する交点の大きさの比として定義される)の観点から推定する確率的な手法である。この手法は、対象となる集合の大きさが似ている場合に最も優れた性能を発揮し、集合の大きさが大きく異なる場合には…

De novoトランスクリプトームアセンブリで誤ってアセンブリされたキメラ転写産物を除去する Bellerophon

トランスクリプトームの品質管理は、RNA-Seq実験において重要なステップである。しかし、de novo アセンブルされたトランスクリプトームの品質を評価することは、アセンブルを比較するリファレンスゲノムがないために困難である。本著者らは、キメラ配列の除…

アセンブルされた微生物ゲノムのクオリティ評価を行う miComplete

2022/03/18 インストール手順追記 ハイスループットシーケンスの開発により、大規模なシーケンスプロジェクトが手頃な価格になり、可用性がますます向上している。膨大な量のメタゲノムデータが生成され、未培養微生物から数千のmetagenome-assembled genome…

DASHデータベース

HPより DASH(Database of Aligned Structural Homologs)は、PDBに登録されている既知の構造的に相同なタンパク質のドメインと鎖の構造アライメントを集めたデータベースである。 その処理方法は、(a) CD-HITを用いてPDBから配列固有のタンパク質を99%の配列…

(ヒトゲノム)ランダムフォレストを用いてバリアントの品質による分類を行う ForestQC

次世代シーケンシング技術(NGS)は、ゲノム上に存在するほぼすべての遺伝子バリアントの発見を可能にする。しかし、これらのバリアントの一部は、NGSやバリアントコーラーの限界により、シーケンスの質が低い場合がある。多数のシーケンスされた個体を解析…

複数の実験で得られた機能的な遺伝子アノテーションを階層的に整理し、視覚的にナビゲートする FunMappOne

オミックスデータの解析において、遺伝子の機能アノテーションは不可欠なステップである。現在、遺伝子群の機能をオントロジーや分子パスウェイなどの高次の表現にまとめるためのデータベースや手法が複数存在する。オミックス実験の結果を機能カテゴリにア…

マイクロバイオーム解析リソース MGnify

マイクロバイオームの研究には、通常、特定の環境(biomeとして知られている)からの微生物の集合的な遺伝物質の研究が含まれる。この多様で拡大している研究分野(バイオーム、方法、科学的質問の幅の観点から)は、世界の海洋の深海水と堆積物(1〜3)から…

De Novo Variantsを正確に発見するためのマッピング不要のフレームワーク Kevlar

遺伝性変異は複雑な遺伝性疾患における主要な寄与因子であると推測されている。多くの遺伝性疾患の遺伝率は比較的高いと推定されている。例えば、自閉症スペクトラム障害(ASD)の遺伝率は0.6を超え、統合失調症の遺伝率は0.5を超える。この遺伝性のごく一部…

メタゲノムアセンブリゲノムの下流解析のための再現性のあるパイプライン MAGpy

2022/02/20 追記 メタゲノミクスは、環境中に存在するすべてのゲノムからDNAをアッセイするための強力なツールである。近年のバイオインフォマティクスの進歩により、ほぼ完全なメタゲノム・アセンブル・ゲノム(MAG)の迅速なアセンブルが可能になっており…

(prototype)gzipで圧縮された大きなファイルを並列解凍する pugz

gzip プログラムで作成したファイルを任意の場所で解凍することは、 DEFLATE 圧縮アルゴリズム(wiki)の性質上、原理的に不可能である。そのため、既存のプログラムでは、並列性を利用してgzipで圧縮された大きなファイルを高速に解凍することができない。…

De novoでメタゲノムのbiological marker(サンプル間に共通する領域)を探す MetaMarker

全メタゲノムシーケンス(WMS)は微生物群集を研究するための新しいアプローチである。研究者らはWMSを使用してヒトのマイクロバイオームが結腸癌、細菌性膣炎、糖尿病、クローン病などのさまざまな疾患と密接な関係があることを発見した(Cho and Blaser、2…

全ゲノム配列ファイルを迅速に比較する Mashtree

過去10年間で、公開されている細菌ゲノムの数は劇的に増加した。ゲノムはシークエンスされ、一般に共有され、その後、系統的な関連性が分析される。疫学的に関心のある2つのゲノムが関連していることがわかれば、さらなる調査が促されるかもしれない。しかし…

De novo遺伝子予測やメタゲノムの機能アノテーションなどに対応したeggNOG-Mapper v2

遺伝子の自動機能アノテーションは、ほとんどのゲノムおよびメタゲノムワークフローにおいて基本的なステップであるにもかかわらず、大規模なスケールでは依然として困難である。本研究では、事前に計算されたorthology assignmentsに基づいて機能アノテーシ…

メタゲノムアセンブリのコンタミネーションを調べる magpurify

ヒトの腸内細菌叢の多くの種のゲノム配列は、実験室条件下での微生物の培養が困難であることが主な理由で、依然として不明である。本研究では、地理的にも表現型的にも多様なヒトの3,810の糞便メタゲノムから60,664の原核生物のドラフトゲノムを再構築するこ…

Referee

次世代シーケンサ技術を用いたゲノムアセンブリは、今や生物学研究に欠かせないものとなっているが、シーケンサやアセンブリのプロセスの多くは依然としてエラーが発生しやすい状態にある。残念ながら、これらのエラーは下流の解析に伝播し、結果や結論に大…

メタゲノムコンティグのscaffoldingを行う MetaCarvel

2021 8/23 インストール手順と実行手順を追記 メタゲノムデータからゲノムセグメントを再構築することは非常に複雑な作業である。リピートやシーケンスエラーなどの一般的な課題に加えて、メタゲノムアセンブリでは、コミュニティ内の生物間のカバレッジの深…

機能的エンリッチメント解析のためのウェブツール WebGestalt

WebGestaltは、大規模な-オミクス研究から得られた遺伝子リストを解釈するための人気のツールである。2019年のアップデートでは、WebGestaltは12の生物、342の遺伝子識別子、155 175の機能カテゴリをサポートしており、ユーザーがアップロードした機能データ…

ゲノムベースの分類学のための自動化されたハイスループットプラット TYGS

微生物の分類学は、ゲノムベースの計算手法の影響を受けつつある。しかし、このような解析は複雑で、専門家の知識が必要となる場合がある。TYGS(Type (Strain) Genome Server)は、ゲノムベースの原核生物分類学のためのユーザーフレンドリーなハイスループ…

エラーの多いロングリードのシミュレータ Badread

DNA シーケンシングのプラットフォームは、DNA サンプル中のヌクレオチド(A、C、G、T)の配列を測定することを目的としている。Illumina社のシーケンサーは、過去10年間の大半を占めてきた技術だが、これらのプラットフォームでは、比較的小さい(~100~30…

バリアントデータのマイニングと管理のためのウェブベースの可視化ツール VCF-Server

次世代シーケンシング(NGS)は、疾患に関連した遺伝的変異の発見を促進しており、疾患の病因調査および臨床遺伝診断に広く使用されている(Gong、Jiang、Duan、およびLu、2018; Zhao&Wei、2018)。 NGSによって識別された変異は、通常、変異データを格納す…