macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

2019-01-01から1年間の記事一覧

インタラクティブなGOエンリッチメント解析webサービス ShinyGO

2021 6/5 バージョンアップのツイート 2019年最後の投稿になります。今年もお世話になりました。来年もどうぞよろしくお願い致します。 ゲノムワイドな研究で特定された一連の遺伝子について、遺伝子オントロジー(GO)によって定義されたものなど、特定のパ…

ラージゲノムにもスケールする高速且つ精度の高いドラフトゲノムポリッシャー hypo

DNAシーケンサーによって生成されたフラグメント(リード)からゲノムを再構築するゲノムアセンブリと、種間または種内の遺伝的変異を調べるためのその解析は、ゲノミクスの中心である。 Pacific Biosciences(PacBio)やOxford Nanopore Technologies(ONT…

Whisper 2

第3世代のシーケンシングの開発にもかかわらず、高いスループットと低いエラーレートのショートリードプラットフォームは多くの生物学的分析に不可欠なままである。 これらは、とりわけ、スモール(Kim et al、2018)および構造(Cameron et al。、2019)変…

体細胞コピー数変化イベントを調べるFACETSをワンライナーで実行するcnv_facets

2019 12/27 誤字修正 Cancer Genome Atlas(TCGA)およびInternational Cancer Genome Consortium(ICGC)プロジェクトを含む大規模なシーケンス研究により、腫瘍と正常なサンプルペアの何万もの全ゲノム(WGS)および全エキソーム(WES)が生成された。対立…

メタゲノムのデータセットからコアオペロンを探索する POEM

オペロンはDNAの機能単位であり、その遺伝子はポリシストロン性mRNAとして共転写される。オペロンは、細菌に機能的複雑さをもたらす強力なメカニズムであり、したがって微生物の遺伝学、生理学、生化学、および進化から関心がある。全ゲノム中のオペロンを同…

ユニークな変異や全サンプルの変異HTMLレポート作成機能を持つbreseqのユーティリティツール gdtools

2020 1/15 コマンド追記 2021 4/24 追記 2021 5/14 countコマンド修正 2021 5/16 -pについて追記(赤字部分) GenomeDiffファイルは、サンプルで検出されたすべての変異を記述するbreseqによって出力されるテキストファイルである。 (これらは、コードの「d…

包括的なメタゲノム解析パイプライン MAGO

微生物種はさまざまな環境で重要な役割を果たしているが、メタゲノムデータセットからの高品質のゲノムの生成は、その生態学的および進化のダイナミクスを理解する上で大きな障害となっている。 Metagenome-Assembled Genomes Orchestra(MAGO)は、複数のマ…

edirectとSRA toolsを組み合わせてBioprojectのfastqを全てダウンロードする

タイトルの通り、Bioprojectの全fastqをダウンロードする。 インストール ubuntu18.04LTSでテストした。 Entrez Directのインストール apt update && apt install -y ncbi-entrez-direct#condaconda install entrez-direct fasterq-dumpは以前紹介しています…

バクテリアゲノムをリファレンスフリーで素早く分析する SKA

細菌性病原体のゲノムシーケンスは、疫学者の防具の重要なツールになりつつある。パルスフィールドゲル電気泳動やMLSTなどの従来の分子タイピングアプローチよりも特異性と感度が向上し、遺伝子型の抗微生物薬耐性予測などの疫学関連データも提供される。た…

HMMER web server

シーケンスの類似性を検出するためのプロファイル隠れマルコフモデル(HMM)の使用は広く普及している。それらの人気は、いくつかの関連およびアラインされた配列を使用してプロファイルHMMを構築できるという事実に由来し、それを使用して大きなシーケンス…

Ensemblのゲノムをダウンロードする pyensembl

PyEnsemblは、エキソンや転写産物などのEnsemblリファレンスゲノムメタデータのPythonインターフェイスである。 PyEnsemblは、Ensembl FTPサーバーからGTFおよびFASTAファイルをダウンロードし、ローカルデータベースにロードする。 インストール Github #bi…

膜タンパク質の推定膜貫通領域などのフィーチャを視覚化する Protter

biological sequences内の特徴の視覚化は、シーケンシングデータの統合分析および解釈に不可欠である。豊富なfeature annotations(例:遺伝子、プロモーター)および実験的証拠(例:RNA-Seq読み取り)のコンテキストでゲノムDNAなどの核酸配列を視覚化する…

ガン遺伝子パネルなどの変異をまとめた図を生成する GenVisRのwaterfall

超並列シーケンシング技術の継続的な開発により、生成されるゲノムデータの量が指数関数的に増加した(Kodama et al、2012)。この成長により、科学者はますます大規模なコホートレベルのゲノムデータセットを調査できるようになった。直感的な視覚化の生成…

RNA seqのライブラリタイプを推測する GUESSmyLT

ショートリードRNAシーケンシング(RNA-seq)は、特に遺伝子発現の調査、ゲノムアノテーションの実行、SNVの検出、またはオルタナティブスプライシングされた転写物の確認を可能にする強力なアプローチである。シーケンスリードには、使用するRNA-seqライブ…

GFF3を正確にソートする GFF3sort

HTML5とJavaScriptに基づく強力なゲノムブラウザとして、JBrowseは2009年にリリースされて以来広く使用されている[ref.1、2]。その構成ドキュメント[ref.3]によると、まず組み込みスクリプト「flatfile-to-json.pl」によってGFF3ファイル形式のゲノムアノテ…

CRISPR arrayを探すwebサービス CRISPRDetect

CRISPR-Casシステムは、バクテリオファージやプラスミドなどの外来遺伝物質からの保護を提供する原核生物の適応免疫システムである。特異性は、侵入するDNAまたはRNAを認識する短い非コーディングRNA(crRNA、CRISPR RNAと呼ばれる)によって提供される。こ…

assemblyの分析結果をJSON形式で出力する assembly-scan

タイトルの通りのツール。入力アセンブリ配列の簡単な要約統計をJSON形式で出力する。 開発の動機は、assemblathon-stats.plやassembly-statsなどの代替手段があるものの、これらはJSONを出力しなかったためと記載されている。 インストール macos10.14のpyt…

RNA seqのバリアントコールにも対応したABRA2

次世代シーケンス(NGS)は、さまざまなアプリケーションで広く使用されるツールになっている。バリアントコールは大きな関心が寄せられている領域であり、RNAへの関心も高まっている。NGSバリアントコールパイプラインの最初のステップの1つは、シーケンス…

既知生合成遺伝子クラスターのデータベース MIBiG 2.0

植物、微生物、菌類は、多くの場合、1つまたはいくつかの種にユニークな多種多様な特殊な代謝物を生成する。文明の夜明けから、人間は薬用、経済的、またはレクリエーション目的でこの宝の山を利用している。過去10年以内に、ゲノムに基づいた特殊な代謝産物…

fastqの分析結果をJSON形式で出力する fastq-scan

タイトルの通りのツール。開発の動機はGithubのREADME参照。 インストール macos10.14のPython 3.7環境でテストした。 本体 Github #bioconda (link)conda install -c bioconda -y fastq-scan > fastq-scan -h $ fastq-scan -h Usage: cat FASTQ | fastq-sca…

miniasmでアセンブリして得たGFAをポリッシュする minipolish

Miniasmはパワフルで高速なロングリードのアセンブリツールだが、polishステップを持たないため、実質、得られた配列は連結されたロングリードである。polishにはraconが使用できるが、raconはFASTAファイルで動作し、Miniasmが出力するGFAをファイルを入力…

植物のRNA seqデータからvirus配列を検出する Kodoja

ウイルス感染は、食物と燃料のために栽培される作物で特に重要な問題である。ウイルスは収量と品質の大きな損失を引き起こし、その結果、ウイルスは重要な経済的悪影響を及ぼす[ref.1]。英国では、ポテトウイルスYは年間3,000〜4,000万ポンドのジャガイモの…

DNA解析ソフト5 Artemis ゲノムブラウザ

2020 3/2 タイトル修正。DNA解析ソフトと表記した。 2020 3/13 追記 高スループットシーケンス(HTS)テクノロジにより、多数のサンプルの低コストシーケンスが一般的になった。 ゲノムリシーケンシング、集団規模の変異検出、全トランスクリプトームシーケ…

CRISPRsをゲノムから探すMinCED

MinCEDは、完全なゲノムまたはメタゲノムからアセンブルされたコンティグなどの環境データセットで、Clustered Regularly Interspaced Short Palindromic Repeats (CRISPRs) を見つけるプログラムである。 インストール 依存 Java Github #bioconda (link) c…

リボソームプロファイリングのクオリティメトリクスを提供する MappingQC

MappingQCは、リボソームプロファイリングデータのマッピングの品質の概要を示すいくつかの図を簡単に生成するツールである。 より具体的には、 P site offsetの計算、遺伝子分布、およびメタジェニック分類の概要を示す。 さらに、MappingQCは、データの標…

RNA seqのクオリティメトリクスを提供する RNA-SeQC

2022/01/23 インストール追記 RNA-seqは、細胞のトランスクリプトーム全体の特性評価を提供する。シーケンスのパフォーマンスとライブラリの品質の評価は、RNA-seqデータの解釈に不可欠だが、この問題に対処するツールはほとんない(論文執筆時点)。ここで…

IRIS-EDA(立ち上げだけ紹介)

生物学的システムの統合モデルを構築し、疾病を予防または治療するための実現可能な戦略を考案するには、適切な実験計画法とインタラクティブなインタフェースを備えた高度な計算ツールが必要である。 RNA-Seqは膨大な量の遺伝子発現データを作成しており、…

CheckMのplotコマンド

2021 4/2 追記 2021 8/30 checkm tetra 追記 checkmのゲノムアセンブリ評価コマンドについて以前紹介した。 ここでは、タイトルの通りCheckMのplotコマンドについて簡単に紹介する。このコマンドはbinningして得た一連のbinned.fastaのディレクトリに対して…

PHYLUCE

保存された領域、または超保存 (ultraconserved) された領域(以下、保存された遺伝子座 (conserved loci) )のエンリッチメントは、非モデル生物(Faircloth et al、2012、2013、2015)の複数の時間スケールでの普遍的なphylogenomic analysesを可能にする…

ロングリードのマッピングから逆位を検出する npInv

DNAのセグメントの向きが、染色体の残りの部分と比較してその先祖から反転している逆位多型(Inversion polymorphisms)は、ショウジョウバエの異なる系統のハイブリッドにおける染色体間の組換えの抑制因子として、スターテバントによって1917年に最初に発…