macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

2021-03-01から1ヶ月間の記事一覧

RNA-SeQC 2

サンプルの品質は、サンプルの保管、抽出、シーケンスプロトコルによって影響を受けるため、シーケンス後の品質管理は、RNAシーケンス(RNA-seq)データの生成と解析に不可欠な要素である。RNA-seqは、数百から数万サンプルの規模のコホートに適用されること…

TPMカウントから主成分分析を行う zpca

zpcaはFoivos Gypasが公開されているTPMカウントから主成分分析を行うツール。試してみる。 インストール ubuntu18.04のminiconda3.8環境でmambaを使って導入した。 #bioconda (link)mamba install -c bioconda -y zpca#dockerdocker pull zavolab/zpca#Sing…

(イネ科)比較ゲノミクスとパスウェイの力を植物研究に生かす Gramene

Gramene(http://www.gramene.org)は、モデル植物と主要作物のゲノムおよびパスウェイデータの比較機能解析に基づいたナリッジベースで、世界中の農業研究者をサポートする。このリソースは、FAIRデータ原則に基づいて、オープンアクセスと再現可能な科学を…

PacBioロングリード用の類似ゲノムアシスト再構築パイプライン AlignGraph2

第3世代シーケンサーのロングリードからアセンブルされたコンティグは、通常、第2世代のショートリードよりも完全である。しかし、現在のアルゴリズムでは、ロングリードを理想的な完全かつ正確なゲノムにアセンブルすること、つまり理論的に最良の結果を得…

Multiple Sequence Alignmentの結果を視覚化する Sequence Bundles

本研究では、複数の配列アライメント(MSA)を表現するための新しいデータ可視化手法であるSequence Bundlesを紹介する。既存のバイオインフォマティクスのデータ可視化手法(Sequence Logoなど)の主な限界を特定し、解決するために、Sequence Bundlesを用…

RepeatMaskerのヘルパースクリプトを使う

Philipp BayerさんがRepeatMaskerのヘルパースクリプトを使ってゲノムに散在する反復配列(wiki)がインタラクティブなプロットを作成する例を紹介されていた。試してみる。 TIL: The RepeatMasker helper-scripts https://t.co/JDWpkYAzzo and https://t.co…

ほぼ同一の冗長なゲノムを除く Assembly Dereplicator

Assembly DereplicatorはRyan R. Wickさんが公開、メンテナンスしているゲノムアセンブリのdereplicationを行うスクリプト。十分に近いアセンブリを除いてアセンブリがよりユニークになるようにする。。dereplicator.pyはスタンドアローンのスクリプトで、標…

植物の発現データの視覚化と探索を行う ePlant

現在のシステムバイオロジー研究では、異なる種類のデータを別々のソースからアクセスし、別々のツールを使って視覚化しなければならないという大きな課題がある。このようなワークフローをナビゲートするために必要な高い認知的負荷は、仮説の生成に悪影響…

ピークコールを行う YAPC

Githubより YAPCはATAC-seq、DNase-seq、ChIP-seqなどのゲノムハイスループットシーケンシングデータ用のピークコーラーである。1つのタイムポイントにつき2つの生物学的複製を持つ時系列データセット(または複数の条件を持つその他のデータ)において、特…

遺伝子融合イベントのアノテーションと視覚化を行う AGFusion

遺伝子融合(wiki)は、構造的染色体再編成の結果であり、関与する遺伝子にさまざまな機能的変化を引き起こす可能性がある。多くの場合、遺伝子融合によりキメラタンパク質が生成され、それによりタンパク質ドメインが組み合わされて新規機能が生成される。遺…

metabinkit

従来の形態学的同定による水生侵入種の検出は、しばしば時間がかかり、高度な分類学的専門知識を必要とし、緩和対応の遅れにつながる可能性がある。これらの障害を克服するために、Illumina ベースのシーケンシング技術を用いた複数種の環境 DNA (eDNA) 検出…

シングルセルとバルクのトランスクリプトームのリファレンスフリーおよびリファレンスガイドアセンブリを行うrnabloom

シングルセルRNAシーケンス(scRNA-seq)技術はここ10年で急速に進歩したが、シングルセル・トランスクリプトーム解析のワークフローでは、主に遺伝子発現データが用いられており、シングルセルレベルでのアイソフォーム配列解析はまだかなり限定的である。…

GET_PHYLOMARKERS

ゲノム配列が公開データベースに大量に蓄積されたことにより、生物学研究の多くの分野でゲノムレベルの系統解析が盛んに行われるようになった。しかし、様々な進化や遺伝的過程により、多くの遺伝子座が系統樹の再構築には好ましくない特性を持っている。こ…

機械学習によって適したパラメータ設定でNGSのデータの自動クオリティフィルタリングを行う seqQscorer

次世代シーケンシング(NGS)データファイルの品質管理は、必要ではあるが複雑な作業である。この問題を解決するために、一般的なNGSの品質特徴を統計的に特徴づけ、ツリーベースの分類アルゴリズムと深層学習分類アルゴリズムを用いた新しい品質管理手法を…

GTF/GFF2をCSVに変換する GTF2CSV

GTF

GTF2CSVは、GFF2をCSVに変換して、データベースに挿入したり、pandasのdataframeに読み込んでスライスしたりすることができる。 インストール pipを使って導入した。 Github pip install git+https://github.com/zyxue/gtf2csv.git#egg=gtf2csv > gtf2csv -h…

細菌の代謝パスウェイを予測し、正確な代謝モデルを再構築するための情報を提供する gapseq

微生物のゲノムスケールの代謝モデルは、生物の遺伝子型から表現型を予測するための強力なフレームワークである。しかし、手動での再構築は手間がかかる一方で、自動再構築では既知の代謝プロセスを再現できないことがよくある。gapseqは、精査された反応デ…

レポジトリから自動でdockerイメージを作成し、JupyterHub環境でコードを実行できるようにする repo2docker

Introducing repo2dockerより repo2dockerは、Pythonで書かれた軽量のコマンドラインツールで、gitリポジトリへのパスやURLを受け取り、それに適したdockerイメージを作成します。これを実現するために、人間が行うであろうステップを踏んでいます。すなわち…

染色体の遺伝子密度マップを描く DensityMap

2021 3/14 修正 ゲノムデータを可視化するためのツールはいくつか存在する。GbrowseやJbrowseのようないくつかのツールは、小さなゲノム領域に対しては非常に効率的であるが、ゲノム全体には適していない。また、PhenogramやCViTのように、ゲノム全体の可視…

ゲノムを比較してドットプロット図を出力する Dotplot

Githubより ドットプロットとは、主に生物学で使用される、配列の類似性をグラフィカルに視覚化するためのプロットである。Dotplotを作成しようとするプログラムはすでにたくさんあるが、残念なことに、これらのプログラムのほとんどはずっと前に作られたも…

腸内嫌気性細菌の代謝遺伝子クラスターを調べる gutSMASH

2021 5/26 論文引用 腸内細菌叢は何百もの小分子を産生し、その多くは宿主の生理機能を調節している。二次代謝産物の生合成遺伝子を同定する試みがなされているが、腸内細菌叢の化学的プロダクトは主に一次代謝産物で構成されている。本研究では、腸内細菌の…

疑わしいスプライスジャンクションをフィルタリングし、2パスで再アライメントをガイドする 2passtools

真核生物のゲノムの転写には、RNAの複雑な代替処理が関与している。ロングリードを用いた完全長RNAのシーケンスは、処理の真の複雑さを明らかにする。しかし、ロングリードシーケンス技術の比較的高いエラー率は、イントロン同定の精度を低下させる可能性が…

エラーの多いロングリードのシミュレータ Badread

DNA シーケンシングのプラットフォームは、DNA サンプル中のヌクレオチド(A、C、G、T)の配列を測定することを目的としている。Illumina社のシーケンサーは、過去10年間の大半を占めてきた技術だが、これらのプラットフォームでは、比較的小さい(~100~30…

ハイパフォーマンスなビニングツール BASALT

2021 3/8 追記 メタゲノムビニングは、微生物の詳細な特性評価を可能にする。本研究では、メタゲノムビニングの分解能と効率を向上させるために、BASALT(Binning Across a Series of AssembLies Toolkit)と呼ばれる新しいビニングツールキットを開発した。…

DNAおよびRNAウイルスの分類器 VirSorter2

ウイルスは多くの生物圏や人間の生態系において重要な役割を果たしているが、普遍的な遺伝子マーカー、データベースの代表、および十分に高度な同定ツールがないため、ほとんどのシグナルはメタゲノム/メタトランスクリプトーム配列データセットでは「隠さ…

バリアントデータのマイニングと管理のためのウェブベースの可視化ツール VCF-Server

次世代シーケンシング(NGS)は、疾患に関連した遺伝的変異の発見を促進しており、疾患の病因調査および臨床遺伝診断に広く使用されている(Gong、Jiang、Duan、およびLu、2018; Zhao&Wei、2018)。 NGSによって識別された変異は、通常、変異データを格納す…

連結コアタンパク質の多重整列を素早く生成する cognac

ゲノムデータの量は増加の一途をたどっている。そのためには、利用可能なデータ量に合わせた系統解析のためのツールが必要とされている。本研究では、このようなニーズに対応するために、系統解析のための遺伝子連結アラインメントを迅速に生成するためのユ…

MetaPop

微生物とそのウイルスは、海や土壌からヒトやバイオリアクターに至るまで、地球の生態系を動かす隠れたエンジンである。現在では、遺伝子マーカーによるアプローチは、ゲノム解析による個体群間(マクロダイバーシティ)および個体群内(マイクロダイバーシ…

バリアントアノテーションを含むマンハッタンプロットを描く Manhattan++

過去10年間で、3300以上のゲノムワイド関連研究(GWAS)が行われている。ほぼすべてのGWAS研究は、主図または補足図としてマンハッタンプロットを提供している。いくつかのソフトウェアパッケージがマンハッタンプロットを生成することができるが、それらは…

KEGGパスウェイと発現プロファイルデータを視覚的に統合するウェブサーバー KeggExp

発現プロファイルデータを解析する際の知識発見には、効果的な可視化が重要である。しかし、発現プロファイルデータをKEGGパスウェイマップと視覚的に統合するための既存のツールは、広範なインタラクティブな可視化操作を欠いている。KeggExpは、1つのパス…

BreakID

標的としたシーケンシングデータから融合イベントを同定するためのBreakpoint Identification(BreakID)と呼ばれるツールを開発した。BreakIDは、不一致リードペアやスプリットリードを支持証拠とし、1ヌクレオチド分解能で遺伝子融合のブレークポイントを…