macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

format conversion

GenBank Flat File FormatとJSON間の変換を行う GBSON

HPの解説より GenBank Flat File Format (.gb または .gbk) は、核酸やタンパク質の配列とそのアノテーションを保存できるファイルフォーマットとして広く利用されている。NIHの遺伝子配列データベース「GenBank」(https://www.ncbi.nlm.nih.gov/genbank/)…

アラインメント操作と要約統計量の計算のための高速なツールキット AMAS

近年、系統学で用いられるデータ量は爆発的に増加しており、数百から数千の遺伝子座と多数の分類群から多くの系統が推定されている。このような最新の系統学研究では、遺伝子のサブセットや連結配列の多重解析に加え、各遺伝子座の個別解析が必要となること…

ナノポアシグナルデータを効率的かつ並列に解析するための SLOW5フォーマットを扱う slow5tools

現在、最もポピュラーなシグナルレベル解析は、ソフトウェアNanopolish/f5cを用いたDNAメチル化プロファイリングである。この使用例をもとに、ハイパフォーマンス・コンピューティング(HPC)システムでのFAST5データ解析について解析した(論文補足説明2)…

European Nucleotide Archiveへのゲノムアノテーションサブミットを容易にするコンバーター EMBLmyGFF3

過去20年にわたり、多くのシーケンスアノテーションツールが開発され、生命のツリーのすべてのkingdomの幅広い生物の比較的正確なアノテーションの作成を容易にしている。ゲノム内で注釈が付けられた機能を記述するために、Generic Feature Format(GFF)が…

joinx

Githubより Joinxは、vcfファイルや.bedファイルに含まれるゲノムデータに対して演算(交差、差分など)を行うための軽量ツールである。また、いくつかの限定的な解析機能(コンコーダンスレポート)も提供する。joinxは、入力データが常にソートされている…

Pandocを使ってMarkdownをHTMLやword形式に変換する

マークダウンのビューアを持っていない人に向け、マークダウン記法で書かれた文書(例えばREADME.md)をPDFなどに変換してから送ることがあります。Pandocを使うとこの変換が簡単にできます。 User Guide https://pandoc.org/MANUAL.html Pandoc User’s Guid…

VCFファイルをテーブル形式に単純化する VcfSimplify

BiostarsとGithubより VCFファイルを管理・変更するツールはいくつかあるが、バイオインフォマティクスのサポートを受けていない生物学者が必要とする最も単純な出力を生成することができるシンプルで包括的なツールはまだない。このツールは、ソートされたV…

VCFやBCF を扱う bcftools

2020 11/17 追記 2021 4/244 追記 2021 5/24 docker imageのリンク追加 2021 6/2 callコマンド追記 2021 9/17 論文引用 2021 10/1 追記 bcftoolsは変異をコールしてバリアントコールフォーマットのVCFを出力したり、VCFやBCF(VCFのバイナリーフォーマット)…

vcf/bcfから必要なフィールドだけ問い合わせる bcftoolsのqueryコマンド

2020 10/14 タイトル変更 manual http://samtools.github.io/bcftools/bcftools.html BCFtools HowTo Extracting information from VCFs bcftoolsのインストール Github #bioconda (link)conda install -c bioconda -y bcftools > bcftools # bcftools Progr…

Refseq accession IDからfull taxonomyに変換する PYlogeny

ETE3とBioPythonのEutilsを中心に構築されたアクセッション番号からtaxonomy IDとそれに関連する系統情報に変換することができるシンプルなツール。現在はRefseq accession IDに対応している。 インストール Github conda create -n PYlogeny python=3.6 -yc…

メタゲノムの機能プロファイリングを行う HUMAnN2

2020 4/19 流れを修正 2020 4/21 biom出力とh5pyインストール追記 2020 ステップ2のコマンド修正 微生物群集の機能プロファイルは、通常、包括的なメタゲノムやメタトランスクリプトーム配列の検索を用いて作成されるが、これらの検索は時間がかかり、偽の…

GFF3のツールキット GFF3toolkit

i5k Workspace @ NAL (HP) でサポートされているGFF3toolkit(https://github.com/NAL-i5K/GFF3toolkit)は、節足動物ゲノムプロジェクトとその研究コミュニティからのGFF3形式の遺伝子アノテーションを処理するためのツールスイートを提供する。 遺伝子アノ…

GenBankから配列やアノテーションを取り出すWebサービス FeatureExtract

イントロン/エクソン構造、プロモーター領域の内容、上流域および下流域における他の遺伝子の位置など、DNA配列の特徴のアノテーションに簡単にアクセスできることは、多くの生物学的問題に取り組むことが非常に有益である。たとえば、遺伝子内のイントロン…

GenBankやEMBL/ENA flat fileをNCBI submission用に変換する GB2sequin

2022/09/06 タイトル変更 一般的なウェットラボのユーザーは、ベクターNTI Advance(Life Technologies、Invitrogen、Carlsbad、CA、USA)またはLasergene SeqBuilder(DNASTAR、Madison、WI、USA)などの市販のシーケンス可視化およびアノテーションソフト…

pacbioのbamをfastqに変換する BAM2fastx

PacificBiosciences/bam2fastx Converting and demultiplexing of PacBio BAM files into gzipped fasta and fastq files. by @PacificBiosciences - Repository | DevHub.io BAM format specification for PacBio(5.1.0) https://pacbiofileformats.readt…

GFF ファイルのユーティリティ Gffread

2019 10/15 誤字修正 2020 7/27 help更新 2020 8/14 コマンド追記 2020 12/25 誤字修正 多くのバイオインフォマティクスプログラムは、遺伝子および転写産物をGFF形式(General Feature Format)で表し、ゲノム上の遺伝子および転写産物の特徴(染色体または…

様々なフォーマットのシーケンスファイルを素早くFASTA形式に変換する any2fasta

any2fastaは様々なフォーマットのシーケンスファイルをFASTAフォーマットに変換するperlスクリプトである。他の依存関係はなしにコアのPerlモジュールのみを使用する。非常に高速に実行する。(公開の動機はGithub参照) 以下のフォーマットをサポートしてい…

SRA/ENA/GEOのメタデータとデータを取得したり、IDを変換するツールキット pysradb

2022/04/20 タイトル修正 いくつかのプロジェクトはDNA-seq [ref.1]とRNA-seq [ref.2、3]データセットの要約を分析して公表する努力をしている。 NCBIのSRA(Sequencing Read Archive)[ref.4]からメタデータと生データを入手することは、公開されている次世…

taxonomy ID、種名、系統情報など相互変換する taxonkit

2019 1/24 lineageコマンドのミス修正 2019 7/5 ツイート追記 2019 7/9 タイトル修正、ツイート追記 2020 4/29 ツイート追記 2020 9/7 説明修正、タイトル変更 2020 9/8 インストール追記 2021 4/16 論文引用 NCBI taxonomy databaseは、公共のシーケンスデ…

fastaのフォーマットを変換したり、指定サイズを取り出す seqmajic

Documentation https://seqmagick.readthedocs.io/en/latest/ 対応フォーマット 拡張子によってフォーマットが自動認識される。 インストール mac os10.14の miniconda3-5.0環境でテストした。 依存 Python >= 3.4 biopython >= 1.70 本体 Github #Anaconda…

SAMTools互換の高速なsam,bam,cram処理ツール elprep

2019 7/28 コマンド修正 2019 8/3 リンク追加 一般にDNA配列解析はマッピングとそれに続く分析からなる(論文 図1)。マッピング段階では、BWA [論文より ref.1]のようなアライメントツールを介して既知の参照ゲノムにマッピングされる。その後、マッピング…

RNA seqのクオリティコントロールツール RSeQC

2019 12/2 インストール追記 2020 12/9 誤字修正, help追加 2022 インストール手順追記 RSeQCはクオリティ、GCバイアス、PCRバイアス、ヌクレオチド組成バイアス、シーケンスのデプス、strandの特異性、カバレッジ均一性およびゲノムのfeature上のカバレッジ…

TopHatのunmapped.bamを修復する TopHat-Recondition

tophatはスプライシングされた領域を跨ぐアライメントが可能なRNAのマッピングツールだが、他のアライメントユーツとは異なり、tophatのすべてのバージョンはアライメントされなかったリードを独自形式で別のbamに書き込む。このフォーマットが理由で、unmap…

高速なbam/samの解析ツール Sambamba

2018 8/20 mpileupコマンドの謝り修正 2019 2/26 condaインストール追記 2021 6/2 help更新 Sambambaはsam、bam、cramの処理ツール。D言語で構築されている。フォーマットを変えたり、フィルタリングすることができる。SAMToolsやPicard-toolsの一部機能と重…

fastqのクオリティスコアをASCII +64からASCII +33に変換する。

BBtoolsのreformat.shを使えば、ASCII+64でクオリティスコアを計算しているfastqをASCII+33に変換することができる。 シングルリード reformat.sh in=input.fq out=output_phred33.fq qin=64 qout=33 ペアリード reformat.sh in1=input1.fq in2=input2.fq ou…

高速で高効率なfastqの圧縮ツール DSRC

DSRCはマルチスレッドに対応したfastq(ABI SOLiD, and 454/Ion Torrent)の圧縮ツール。gzipやbzipなどの汎用的な圧縮ツールと比較して15~60%高効率とされる。圧縮・解凍速度も極めて速く、8スレッドで500MB/s出るとされる。 インストール binaryのダウンロ…

FASTAを修復するEMBOSSのseqretコマンド

2019 6/19 インストール追記 2019 7/15 タイトル修正 2019 8/7リンク追加 2019 10/3コメント追加 FASTAをいじっていると、何らかの拍子に構造がおかしくなってsamtoolsのindexでsegmentation errorを起こすことがある。途中に空行ができていたり、特殊文字が…

VCFを管理、編集する VCFtools

2019 4/16 condaインストール 2019 12/9ビルド手順の誤り修正 2020 1/5 mergeの説明追加 2020 4/18 基本コマンド追記 2020 10/13 追記 20200 10/14 分かりにくい説明を修正 2021 2/17 dockerリンク追加 2021 5/16 ”変異”を”バリアント”に修正 VCFtoolsは、バ…

DNA解析ソフトに近い機能を提供するwebツール集 SMS

2019 8/7リンク追加 2021 10/3リンクエラー修正 SMSは、NGSの登場よりずっと以前から使われているDNA/プロテインの編集や変換ができるツール集である。昔からあるDNA解析ソフトの大半の機能をカバーしている。webサーバー版とオフラインで動くローカル版があ…

多機能なNGS分析ツール BBtools 其の2

20196/13 タイトル修正 2020 7/24 bbdukコマンド追記 の続き。BBtoolsの残りのコマンドを紹介する。紹介するのは以下のコマンド。 Reformat - フォーマット変換やクオリティトリミング。 Repair - ペアリードの順番が壊れたファイルを修復する。 Stats - ア…