macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

format conversion

MarkdownをPDFに変換する mdpdf

mdpdfはMarkdown記法のドキュメントをPDFにレンダリングするツール。 インストール Minimal requirements commonmark PyMuMDF click Github pip install mdpdf > mdpdf --help $ mdpdf --help Usage: mdpdf [OPTIONS] [INPUTS]... Convert Markdown to PDF. …

ライフサイエンスのための包括的なフォーマットコンバーター BioConvert

2023/07/04 追記 バイオインフォマティクスは、長年にわたって開発されてきた数多くの標準やフォーマットで知られる分野である。このフォーマットの多さは時に補完的であり、しばしば冗長であるため、バイオインフォマティクスのデータ解析者に多くの課題を…

マイクロバイオームデータの統計的・機能的・統合解析を行う MicrobiomeAnalyst 2.0

マイクロバイオーム研究は、多様性プロファイリング、機能特性解析、トランスレーショナルアプリケーションなど、多様な目的を持つ生物医学、農業、環境科学において日常的に行われるようになってきた。その結果、複雑で、しばしばマルチオミックスデータセ…

TSV形式のバリアントコールファイル(バリアントテーブル)をVCF形式に変換する tsv-vcf-converter

レポジトリより このツールは、tsvリソースのリフトオーバーを容易にするために作成された。特殊文字はほとんど扱えず、あらゆるTSVファイルやVCFファイルを変換するのには適していないが、一般的なTSV形式のバリアントコール結果(indel、SVには対応しない…

GTF/GFFファイルのツールキット AGAT

2023/02/27 intron addに追記 HPより AGATは、あらゆる種類のGTFやGFFの欠落情報(特徴や属性)をチェック、修正、追加し、完全でソートされた標準的なgff3形式を作成する能力を備えている。長年にわたり、GTF/GFFフォーマットファイルに関連するあらゆるタ…

Graphiaによるパンゲノムグラフの可視化のサポートスクリプト GraPPLE

GraPPLEは、Graphia (Pubmed) によるパンゲノムグラフの可視化支援スクリプトです。細菌のパンゲノムグラフの活用法について学ぶためには、最近出たこちらの論文(link)がとても参考になりました。 Githubより GraPPLEのスクリプトは、バクテリアのパンゲノ…

GenBank Flat File FormatとJSON間の変換を行う GBSON

HPの解説より GenBank Flat File Format (.gb または .gbk) は、核酸やタンパク質の配列とそのアノテーションを保存できるファイルフォーマットとして広く利用されている。NIHの遺伝子配列データベース「GenBank」(https://www.ncbi.nlm.nih.gov/genbank/)…

アラインメント操作と要約統計量の計算のための高速なツールキット AMAS

近年、系統学で用いられるデータ量は爆発的に増加しており、数百から数千の遺伝子座と多数の分類群から多くの系統が推定されている。このような最新の系統学研究では、遺伝子のサブセットや連結配列の多重解析に加え、各遺伝子座の個別解析が必要となること…

ナノポアシグナルデータを効率的かつ並列に解析するための SLOW5フォーマットを扱う slow5tools

現在、最もポピュラーなシグナルレベル解析は、ソフトウェアNanopolish/f5cを用いたDNAメチル化プロファイリングである。この使用例をもとに、ハイパフォーマンス・コンピューティング(HPC)システムでのFAST5データ解析について解析した(論文補足説明2)…

European Nucleotide Archiveへのゲノムアノテーションサブミットを容易にするコンバーター EMBLmyGFF3

過去20年にわたり、多くのシーケンスアノテーションツールが開発され、生命のツリーのすべてのkingdomの幅広い生物の比較的正確なアノテーションの作成を容易にしている。ゲノム内で注釈が付けられた機能を記述するために、Generic Feature Format(GFF)が…

joinx

Githubより Joinxは、vcfファイルや.bedファイルに含まれるゲノムデータに対して演算(交差、差分など)を行うための軽量ツールである。また、いくつかの限定的な解析機能(コンコーダンスレポート)も提供する。joinxは、入力データが常にソートされている…

Pandocを使ってMarkdownをHTMLやword形式に変換する

マークダウンのビューアを持っていない人に向け、マークダウン記法で書かれた文書(例えばREADME.md)をPDFなどに変換してから送ることがあります。Pandocを使うとこの変換が簡単にできます。 User Guide https://pandoc.org/MANUAL.html Pandoc User’s Guid…

VCFファイルをテーブル形式に単純化する VcfSimplify

BiostarsとGithubより VCFファイルを管理・変更するツールはいくつかあるが、バイオインフォマティクスのサポートを受けていない生物学者が必要とする最も単純な出力を生成することができるシンプルで包括的なツールはまだない。このツールは、ソートされたV…

VCFやBCF を扱う bcftools

2020 11/17 追記 2021 4/244 追記、5/24 docker imageのリンク追加、6/2 callコマンド追記、9/17 論文引用、10/1 追記 2023/07/24 mpileup修正 bcftoolsは変異をコールしてバリアントコールフォーマットのVCFを出力したり、VCFやBCF(VCFのバイナリーフォー…

vcf/bcfから必要なフィールドだけ問い合わせる bcftoolsのqueryコマンド

2020 10/14 タイトル変更 manual http://samtools.github.io/bcftools/bcftools.html BCFtools HowTo Extracting information from VCFs bcftoolsのインストール Github #bioconda (link)conda install -c bioconda -y bcftools > bcftools # bcftools Progr…

Refseq accession IDからfull taxonomyに変換する PYlogeny

ETE3とBioPythonのEutilsを中心に構築されたアクセッション番号からtaxonomy IDとそれに関連する系統情報に変換することができるシンプルなツール。現在はRefseq accession IDに対応している。 インストール Github conda create -n PYlogeny python=3.6 -yc…

メタゲノムの機能プロファイリングを行う HUMAnN2

2020 4/19 流れを修正 2020 4/21 biom出力とh5pyインストール追記 2020 ステップ2のコマンド修正 微生物群集の機能プロファイルは、通常、包括的なメタゲノムやメタトランスクリプトーム配列の検索を用いて作成されるが、これらの検索は時間がかかり、偽の…

GFF3のツールキット GFF3toolkit

i5k Workspace @ NAL (HP) でサポートされているGFF3toolkit(https://github.com/NAL-i5K/GFF3toolkit)は、節足動物ゲノムプロジェクトとその研究コミュニティからのGFF3形式の遺伝子アノテーションを処理するためのツールスイートを提供する。 遺伝子アノ…

GenBankから配列やアノテーションを取り出すWebサービス FeatureExtract

イントロン/エクソン構造、プロモーター領域の内容、上流域および下流域における他の遺伝子の位置など、DNA配列の特徴のアノテーションに簡単にアクセスできることは、多くの生物学的問題に取り組むことが非常に有益である。たとえば、遺伝子内のイントロン…

GenBankやEMBL/ENA flat fileをNCBI submission用に変換する GB2sequin

2022/09/06 タイトル変更 一般的なウェットラボのユーザーは、ベクターNTI Advance(Life Technologies、Invitrogen、Carlsbad、CA、USA)またはLasergene SeqBuilder(DNASTAR、Madison、WI、USA)などの市販のシーケンス可視化およびアノテーションソフト…

pacbioのbamをfastqに変換する BAM2fastx

PacificBiosciences/bam2fastx Converting and demultiplexing of PacBio BAM files into gzipped fasta and fastq files. by @PacificBiosciences - Repository | DevHub.io BAM format specification for PacBio(5.1.0) https://pacbiofileformats.readt…

GFF ファイルのユーティリティ Gffread

2019 10/15 誤字修正 2020 7/27 help更新 2020 8/14 コマンド追記 2020 12/25 誤字修正 多くのバイオインフォマティクスプログラムは、遺伝子および転写産物をGFF形式(General Feature Format)で表し、ゲノム上の遺伝子および転写産物の特徴(染色体または…

様々なフォーマットのシーケンスファイルを素早くFASTA形式に変換する any2fasta

any2fastaは様々なフォーマットのシーケンスファイルをFASTAフォーマットに変換するperlスクリプトである。他の依存関係はなしにコアのPerlモジュールのみを使用する。非常に高速に実行する。(公開の動機はGithub参照) 以下のフォーマットをサポートしてい…

SRA/ENA/GEOのメタデータとデータを取得したり、IDを変換するツールキット pysradb

2022/04/20 タイトル修正 いくつかのプロジェクトはDNA-seq [ref.1]とRNA-seq [ref.2、3]データセットの要約を分析して公表する努力をしている。 NCBIのSRA(Sequencing Read Archive)[ref.4]からメタデータと生データを入手することは、公開されている次世…

taxonomy ID、種名、系統情報など相互変換する taxonkit

2019 1/24 lineageコマンドのミス修正 2019 7/5 ツイート追記 2019 7/9 タイトル修正、ツイート追記 2020 4/29 ツイート追記 2020 9/7 説明修正、タイトル変更 2020 9/8 インストール追記 2021 4/16 論文引用 NCBI taxonomy databaseは、公共のシーケンスデ…

fastaのフォーマットを変換したり、指定サイズを取り出す seqmajic

Documentation https://seqmagick.readthedocs.io/en/latest/ 対応フォーマット 拡張子によってフォーマットが自動認識される。 インストール mac os10.14の miniconda3-5.0環境でテストした。 依存 Python >= 3.4 biopython >= 1.70 本体 Github #Anaconda…

SAMTools互換の高速なsam,bam,cram処理ツール elprep

2019 7/28 コマンド修正 2019 8/3 リンク追加 一般にDNA配列解析はマッピングとそれに続く分析からなる(論文 図1)。マッピング段階では、BWA [論文より ref.1]のようなアライメントツールを介して既知の参照ゲノムにマッピングされる。その後、マッピング…

RNA seqのクオリティコントロールツール RSeQC

2019 12/2 インストール追記 2020 12/9 誤字修正, help追加 2022 インストール手順追記 RSeQCはクオリティ、GCバイアス、PCRバイアス、ヌクレオチド組成バイアス、シーケンスのデプス、strandの特異性、カバレッジ均一性およびゲノムのfeature上のカバレッジ…

TopHatのunmapped.bamを修復する TopHat-Recondition

tophatはスプライシングされた領域を跨ぐアライメントが可能なRNAのマッピングツールだが、他のアライメントユーツとは異なり、tophatのすべてのバージョンはアライメントされなかったリードを独自形式で別のbamに書き込む。このフォーマットが理由で、unmap…

高速なbam/samの解析ツール Sambamba

2018 8/20 mpileupコマンドの謝り修正 2019 2/26 condaインストール追記 2021 6/2 help更新 Sambambaはsam、bam、cramの処理ツール。D言語で構築されている。フォーマットを変えたり、フィルタリングすることができる。SAMToolsやPicard-toolsの一部機能と重…