macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

NCBI

NCBIのGenBankゲノムアセンブリ (GCA) とRefSeqゲノムアセンブリ(GCF)

2020/11/19 誤字修正 識別子がGCA_で始まるゲノムアセンブリは、GenBankアセンブリと呼ばれる。GenBankアセンブリは、ユーザーがサブミットしたゲノムアセンブリを意味する。一方、識別子がGCF_で始まるゲノムアセンブリは、RefSeqのアセンブリになる。こち…

NCBIのデータベースへのリモート検索によって保存された遺伝子クラスターを探索し、クラスタリングして視覚化する cblaster

2020 11/11 extractコマンド追記 代謝、薬剤耐性、病原性などの生物学的パスウェイに関与する遺伝子は、多くの場合、遺伝子クラスターとしてクラスター化されている。相同な遺伝子クラスターを特定することは、その機能や進化の研究に役立つが、既存のツール…

(NCBI)AMR遺伝子を探索する AMRFinderPlus

NCBIは、タンパク質アノテーションおよび/またはアセンブルされたヌクレオチド配列を用いて、AMR遺伝子、抵抗性関連の変異、および他のクラスの遺伝子を同定するツールであるAMRFinderPlusを開発した。AMRFinderPlusは病原体検出パイプラインで使用され、こ…

真菌を中心とした真核生物ゲノムのアノテーションパイプライン funannotate

Funannotateはゲノム予測、アノテーション、比較のためのソフトウェアパッケージである。元々は真菌ゲノム(真核生物の中では小さいもので30 Mb程度のゲノム)のアノテーション用に書かれていたが、より大きなゲノムにも対応できるように進化してきた。この…

NCBI Genome のBrowse by Organism機能

2020 10/25 追記 ハイスループットシークエンシング技術の普及により、NCBIなどの塩基配列データベースに登録されるゲノム数は爆発的に増大している。BLAST検索をやり直したら少し前は無かったゲノム情報が出てきた、という話も度々耳にする。特にバクテリア…

GenbankアクセッションIDからtaxonomyを返す acc2tax

タイトルの通りのツール。 インストール macos標準のclangでビルドした。 Github git clone https://github.com/richardmleggett/acc2tax.gitcd acc2tax/cc -o acc2tax acc2tax.c#パスの通ったディレクトリにコピーcp acc2tax /usr/locasl/bin/ > acc2tax -h…

NCBI taxdumpをlineageファイルに変換するスクリプト NCBItax2lin

2020 9/9,9/10 コード修正 タイトルの通り。 インストール condaでpython3.7の仮想環境を作ってテストした(macos10.14)。 依存 ncbitax2lin requires python-3.7 Github conda create -n ncbitax2lin -y python=3.7conda activate ncbitax2linpip install …

Refseq accession IDからfull taxonomyに変換する PYlogeny

ETE3とBioPythonのEutilsを中心に構築されたアクセッション番号からtaxonomy IDとそれに関連する系統情報に変換することができるシンプルなツール。現在はRefseq accession IDに対応している。 インストール Github conda create -n PYlogeny python=3.6 -yc…

SRAなどのシーケンシングデータを一括ダウンロードする grabseqs

2020 4/1 タイトル修正、誤字修正 2020 10/24 仮想環境を解くって導入するように修正 ハイスループットシーケンシングは、生物学的な疑問を解決するための強力な技術である。Grabseqsは、Sequence Read Archive(SRA)、Metagenomics Rapid Annotation throu…

UCSC、NCBI、Ensemblからゲノムをダウンロードする genomepy

タイトルの通りのツール。簡単に紹介します。 インストール 依存 tabix genePredToBed genePredToGtf bedToGenePred gtfToGenePred gff3ToGenePred conda install -c bioconda -y ucsc-genepredtobedconda install -c bioconda -y ucsc-genepredtogtfconda i…

NCBI submission用にGenBankをテーブル形式に変換する GB2sequin

一般的なウェットラボのユーザーは、ベクターNTI Advance(Life Technologies、Invitrogen、Carlsbad、CA、USA)またはLasergene SeqBuilder(DNASTAR、Madison、WI、USA)などの市販のシーケンス可視化およびアノテーションソフトウェアを使用して、プラス…

ゲノムを分類、クラスタリングし、視覚化する JGI-GenomeConstellation

2019 11/3 タイトル修正 これまでに特定されていない分類群を含む分類群の分類は、南極の乾燥した谷にある永久に氷に覆われた湖を含む、記載されていない生息地の微生物群集を特徴付ける重要なタスクである。現在の監視された系統発生ベースの方法は、そのよ…

NCBI GEO のRNA-seqデータを分析する GREIN

RNA-seqデータセットをGene Expression Omnibus(GEO)およびSequence Read Archive(SRA)のリポジトリに保存すると、公開されている研究の再現性が保証され、再利用が容易になる。これらのデータの再分析は、新しい科学的洞察をもたらす可能性があり、新し…

NCBIのGenomic feature座標変換機能(Remap)

What is NCBI Remap? https://www.ncbi.nlm.nih.gov/genome/tools/remap/docs/whatis About our alignments 紹介動画 使い方 Assembly-Assembly Coordinate remapping service: NCBIにアクセスする。 生物を指定する。ここではヒトを選択。 クリックして決定…

nrなどのNCBIデータベースをダウンロードする ncbi-blast-dbs

2018 12/10 タイトル訂正 2020 9/6 2020 9/7追記2020 9/11 わかりにくい説明を修正 2020 9/11 簡単な並列処理例追記 2020 9/12.9/15 taxonkit コマンド修正, わかりにくい部分を修正 2020 10/3 taxonkitのコマンドを修正 2020 10/10 コマンド微修正 2020 10/…

NCBI FTPサーバからゲノム配列をダウンロードする ncbi-genome-download

2019 11/8 コマンドのミス修正("Escherichia coli" => "Escherichia") 2019 12/19 関連ツールリンク追加 タイトルの通りの機能をもつスクリプト。 ncbi-genome-downloadに関するツイート インストール mac os10.13のminiconda2-4.0.5環境でテストした。 依…

NCBIからバクテリアゲノムをダウンロードする

コンプリートなゲノムのダウンロード。 wget ftp://ftp.ncbi.nlm.nih.gov/genomes/genbank/bacteria/assembly_summary.txt awk -F '\t' '{if($12=="Complete Genome") print $20}' assembly_summary.txt > assembly_summary_complete_genomes.txtmkdir bacte…

NCBIで全データを一度にblast解析し、得られたリストをEntrez Directでアノテーションに変換する。

2020 10/9 リンク追加 複数の配列のblast解析を行う場合、ローカルでデータベースなどを構築して進めるのが一つの手である。しかしローカルだとデータベースの更新や、データサイズが問題になる(例えばnrのデータも2015年にダウンロードすると200GBを超えて…