macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

2021-01-01から1年間の記事一覧

ATAC-Seq、ChIP-Seq、WESなどのcDNA汚染の検出と除去を行う cDNA-detector

意図的または偶然に実験システムに導入された外因性cDNAは、そのシステムから得られた次世代シーケンサーライブラリーにおいて、その遺伝子に対するリードカバレッジの追加として現れることがある。適切に認識・管理されない場合、この外来シグナルによるク…

S. cerevisiaeの変異を同定するための自動化されたパイプライン MutantHuntWGS

MutantHuntWGSは、Saccharomyces cerevisiaeの全ゲノムシーケンスデータを解析するためのユーザーフレンドリーなパイプラインである。オープンソースのプログラムを使用している。(1) ペアエンドおよびシングルエンドリードのシークエンスアラインメント、(2…

DEXseqを使ってSuperTranscriptsの発現解析を行うTrinityのdexseq_wrapper.plスクリプト

DEX-SeqをSupertranscriptsに適用することで、ある条件や処理に反応してリードカバレッジが統計的に有意な差を示す異なる転写産物セグメントを介して、 differential transcript usage(DTU)を探索することが可能。 TrinityツールキットのDTU解析のためのミ…

supertranscriptsを構築するTrinityのTrinity_gene_splice_modeler.pyスクリプト

スーパートランスクリプトとは、 重複のない遺伝子のすべてのエキソン配列が含まれる各遺伝子の代替の表現方法である。SuperTranscriptは、スプライシングアイソフォーム間でユニークな配列領域と共通する配列領域を1つの直線的な配列にまとめることで構築さ…

TrinityアセンブリとTrinotateのアノテーション情報からGOseqによるGO enrichment解析を行うrun_GOseq.plスクリプト

TrinotateとGOseq、Trinityのスクリプトを組み合わせることで、遺伝子セット間の機能的エンリッチメント解析を行うことができる。Trinityのマニュアルに習い、使い方を確認しておく。 インストール ubuntu18.04でtrinityの仮想環境を作ってテストした。Rのバ…

発現変動遺伝子を同定するTrinityのrun_DE_analysis.plスクリプト

Trinityに付属するスクリプトrun_DE_analysis.plを使うと、BioconductorのRパッケージを使って発現変動遺伝子群を同定して分析することができる。Trinityのabundance_estimates_to_matrix.plなどを使って得た発現行列ファイルを使う。 手順はTrinityのマニュ…

Biological replicatesの品質を調べるためのTrinityのPtRスクリプト

Trinityに付属するスクリプトPtRは、生物学的複製が十分に相関していることを確認し、またサンプル間の関係を調査するためのユーティリティツールである。Trinityのabundance_estimates_to_matrix.plなどを使って得た発現量の行列ファイルを使う。Trinityの…

Trinityのabundance_estimates_to_matrix.plスクリプトで発現行列を出力、filter_low_expr_transcripts.plスクリプトで低発現転写産物をフィルタリングする

Trinityに付属するスクリプトabundance_estimates_to_matrix.plは、align_and_estimate_abundance.plの出力を入力として、複数サンプルを(正規化しつつ)統合した発現行列ファイルを生成するスクリプト。Trinityのマニュアルに習い、使い方を確認しておく。…

bowtie2を使ってアセンブルした配列を評価する

bowtie2はマッピング結果の要約統計を標準エラー出力として報告する。Trinityのwikiでは、これを利用してde novo transcriptome assemblyを評価する流れがまとめられている。 RNA Seq Read Representation by Trinity Assembly · trinityrnaseq/trinityrnase…

Redを使ったゲノムアセンブリのソフトマスクを行う redmask

タイトルの通りのツール。ランするにはRed (Repeat Detector) とbiopythonが必要。 インストール Github mamba create -n red python=2.7 -yconda activate red#red,biopython,natsortmamba install -c bioconda -y red biopython natsortgit clone https://…

翻訳された遺伝子のマッチングを迅速に同定、分類、アノテーションするためのツール GAMMA

参照データベースを用いて微生物配列の遺伝子を同定するために用いられるツールは、一般に一致度をパーセントで報告するが、配列同一性が100%未満の場合、特定のアミノ酸の変化が基質結合領域や酵素活性部位で起こる場合など、タンパク質の機能に劇的な影響…

COBS index

Githubより COBS(COmpact Bit-sliced Signature index)は、invertedインデックスとブルームフィルタを掛け合わせたものである。DNAサンプルのk-merやテキスト文書のq-gramsをインデックス化し、ユーザが選択したカバレッジ閾値を持つコーパスに対して近似…

真核生物ゲノムの自動アノテーションを行うMOSGAのメジャーアップデート

利用可能なゲノム情報の数が非常に増えているため、アクセスしやすく、使いやすい解析ツールの必要性が高まっている。真核生物のゲノムアノテーションを容易にするために、本著者らはMOSGAを作成した。この研究では、ゲノムデータに対するいくつかの高度な解…

高効率なカバレッジ計算ツール BamToCov

2022/02/25 論文引用 多くのゲノミクスアプリケーションでは、リファレンスのヌクレオチドカバレッジを計算したり、リファレンス領域に何本のリードがマッピングされているかをカウントしたりする必要がある。本発表では、BamToCovを紹介する。このツールは…

PhotoModPlus

Genome neighborhood networks(GNN)とGenome neighborhood (GN)ベースの機械学習を用いて光合成タンパク質を予測するためのプラットフォームとして、PhotoModPlusと呼ばれる新しいウェブサーバを紹介する。GNNは、複数の光合成原核生物ゲノムから得られ…

Minhashをメタゲノム解析へ応用する CMash

Minhashは、2つの集合の類似性をJaccard指数(集合の和に対する交点の大きさの比として定義される)の観点から推定する確率的な手法である。この手法は、対象となる集合の大きさが似ている場合に最も優れた性能を発揮し、集合の大きさが大きく異なる場合には…

包括的な遺伝子セットのエンリッチメント解析ウェブサーバー Enrichr

エンリッチメント解析は、ゲノムワイド実験で得られた遺伝子セットを解析するための一般的な手法である。ここでは、Enrichrと呼ばれるこの分野のツールの1つを大幅に更新した。Enrichrには、現在、解析やダウンロードが可能な多様な遺伝子セットライブラリの…

シーケンスアラインメントやHMMER3のHMMプロファイルをlogoで視覚化する skylign

ロゴは、分子生物学において、配列の保存パターンをコンパクトなグラフで表現するためによく用いられる。ロゴは、配列アラインメントや隠れマルコフモデルに含まれる情報を、各位置に文字のスタックを描くことで表現する。スタックの高さはその位置の保存度…

ショートリードとロングリードによりトランスクリプトームアセンブリの構造回復とアバンダンス推定を行う StringTieの新しいバージョン

トランスクリプトームのアセンブリには、short-read RNA sequencingとlong-read RNA sequencingのそれぞれに長所と短所がある。ショートリードは精度が高い反面、複数のエクソンにまたがることができない。Long-read技術は、完全な長さの転写産物を捉えるこ…

生命科学実験の検索・提案のためのウェブアプリケーション LEXAS

2021 12/11 誤字修正 細胞生物学では,研究者は関連する論文を読み,記述されている実験や結果を検討することでウェットな実験を計画する。今日、研究者は実験を計画するために長い時間をかけて文献を調査している。 実験計画を加速するために、本著者らはLE…

オックスフォードナノポアシークエンシングリードのトリミングツール ProwlerTrimmer

トリミングおよびフィルタリングツールは、配列アラインメントの精度を高め、結果の信頼性を向上させるため、DNAシーケンス解析において有用である。オックスフォード・ナノポア・テクノロジー(ONT)のトリミングおよびフィルタリングツールは、現在のとこ…

ゲノムアセンブリと遺伝地図を統合するツール Chromonomer

新しいリファレンスゲノムの配列決定とコンピュータによるアセンブリのペースは加速している。しかし、DNAシーケンシング技術やアセンブルソフトウェアツールは進化し続けているが、反復配列などのゲノムの生物学的特徴や、シーケンシングライブラリの調製に…

De novoトランスクリプトームアセンブリで誤ってアセンブリされたキメラ転写産物を除去する Bellerophon

トランスクリプトームの品質管理は、RNA-Seq実験において重要なステップである。しかし、de novo アセンブルされたトランスクリプトームの品質を評価することは、アセンブルを比較するリファレンスゲノムがないために困難である。本著者らは、キメラ配列の除…

Heterogeneityを考慮してシーケンスロゴを生成する MetaLogo

シーケンスロゴは、短い配列の保存性やバリエーションを視覚的に表示するために使用される。これにより、DNAやタンパク質の配列の固定パターンや保存されたモチーフを示すことができる。しかし、一般的なシーケンスロゴジェネレーターの多くは、入力されたす…

機械学習を利用してゲノムアセンブリ品質を総合的に評価する EvalDNA

興味のある生物に対して最も完全で、継続的で、正確なアセンブリを選択するためには、アセンブリの包括的な品質評価が必要である。本著者らは、Evaluation of De Novo Assemblies (EvalDNA)という新しいツールを開発した。このツールは、教師付き機械学習を…

ハイスループットシーケンシングデータから既知のヒトキメラ配列を迅速かつ正確に同定する ChiTaH

融合遺伝子やキメラは、通常、2つの異なる遺伝子からの配列で構成されている。このような融合配列のキメラRNAは、しばしばガンのドライバーとして機能する。このようなドライバーfusionを特定することは、診断や治療に重要である。DNA-SeqやRNA-Seqなどの次…

ロングリードアセンブリの正確なpolishignを行う BlockPolish

ロングリードシーケンス技術は、de novo ゲノムアセンブリの大きな進歩を可能にする。しかし、生のリードはエラー率が高く、エラー分布も広いため、結果的にアセンブリに多くのエラーが発生してしまう。ポリッシングは、ドラフトアセンブリのエラーを修正し…

バクテリアのプロモーター認識のための一般的なツール Promotech

2021 11/29 コマンド修正 プロモーターとは、転写装置が結合して特定の遺伝子の転写を開始するゲノム領域のことである。細菌のプロモーターを同定するための計算機ツールは何十年も前から存在している。しかし、これらのツールのほとんどは、1つまたは少数の…

グラフ構造に基づいてキメラコンティグを識別する、ショートリードのde novo transcriptomeアセンブラCStone

RNA-Seq実験で得られたコンティグを含め、過去10年間に蓄積された配列情報は飛躍的に増加しており、リードデータをアセンブルする際にはキメラ配列の定量が必須となっている。トランスクリプトームでは、de novoでアセンブリされたキメラは、基本的な転写産…

DRAGENのCPUのみ使う実装 DRAGMAP

2021 11/27 追記 まだ初期のアルファリリースということですが、DRAGMAPを試してみました。詳しくはGATKのブログを読んで下さい。BWA-MEMとの性能比較では、興味深い結果が提示されています。 GATK blog Introducing DRAGMAP, the new genome mapper in DRAG…