macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

NCBI

NCBI Genome のBrowse by Organism機能

ハイスループットシークエンシング技術の普及により、NCBIなどの塩基配列データベースに登録されるゲノム数は爆発的に増大している。BLAST検索をやり直したら少し前は無かったゲノム情報が出てきた、という話も度々耳にする。特にバクテリアやアーキアはゲノ…

GenbankアクセッションIDからtaxonomyを返す acc2tax

タイトルの通りのツール。 インストール macos標準のclangでビルドした。 Github git clone https://github.com/richardmleggett/acc2tax.gitcd acc2tax/cc -o acc2tax acc2tax.c#パスの通ったディレクトリにコピーcp acc2tax /usr/locasl/bin/ > acc2tax -h…

NCBI taxdumpをlineageファイルに変換するスクリプト NCBItax2lin

2020 9/9,9/10 コード修正 タイトルの通り。 インストール condaでpython3.7の仮想環境を作ってテストした(macos10.14)。 依存 ncbitax2lin requires python-3.7 Github conda create -n ncbitax2lin -y python=3.7conda activate ncbitax2linpip install …

Refseq accession IDからfull taxonomyに変換する PYlogeny

ETE3とBioPythonのEutilsを中心に構築されたアクセッション番号からtaxonomy IDとそれに関連する系統情報に変換することができるシンプルなツール。現在はRefseq accession IDに対応している。 インストール Github conda create -n PYlogeny python=3.6 -yc…

SRAなどのシーケンシングデータを一括ダウンロードする grabseqs

2020 4/1 タイトル修正、誤字修正 ハイスループットシーケンシングは、生物学的な疑問を解決するための強力な技術である。Grabseqsは、Sequence Read Archive(SRA)、Metagenomics Rapid Annotation through Subsystems Technology(MG-RAST)サーバー、iMi…

UCSC、NCBI、Ensemblからゲノムをダウンロードする genomepy

タイトルの通りのツール。簡単に紹介します。 インストール 依存 tabix genePredToBed genePredToGtf bedToGenePred gtfToGenePred gff3ToGenePred conda install -c bioconda -y ucsc-genepredtobedconda install -c bioconda -y ucsc-genepredtogtfconda i…

NCBI submission用にGenBankをテーブル形式に変換する GB2sequin

一般的なウェットラボのユーザーは、ベクターNTI Advance(Life Technologies、Invitrogen、Carlsbad、CA、USA)またはLasergene SeqBuilder(DNASTAR、Madison、WI、USA)などの市販のシーケンス可視化およびアノテーションソフトウェアを使用して、プラス…

ゲノムを分類、クラスタリングし、視覚化する JGI-GenomeConstellation

2019 11/3 タイトル修正 これまでに特定されていない分類群を含む分類群の分類は、南極の乾燥した谷にある永久に氷に覆われた湖を含む、記載されていない生息地の微生物群集を特徴付ける重要なタスクである。現在の監視された系統発生ベースの方法は、そのよ…

NCBI GEO のRNA-seqデータを分析する GREIN

RNA-seqデータセットをGene Expression Omnibus(GEO)およびSequence Read Archive(SRA)のリポジトリに保存すると、公開されている研究の再現性が保証され、再利用が容易になる。これらのデータの再分析は、新しい科学的洞察をもたらす可能性があり、新し…

NCBIのGenomic feature座標変換機能(Remap)

What is NCBI Remap? https://www.ncbi.nlm.nih.gov/genome/tools/remap/docs/whatis About our alignments 紹介動画 使い方 Assembly-Assembly Coordinate remapping service: NCBIにアクセスする。 生物を指定する。ここではヒトを選択。 クリックして決定…

nrなどのNCBIデータベースをダウンロードする ncbi-blast-dbs

2018 12/10 タイトル訂正 2020 9/6 2020 9/7追記2020 9/11 わかりにくい説明を修正 2020 9/11 簡単な並列処理例追記 2020 9/12.9/15 taxonkit コマンド修正, わかりにくい部分を修正 ncbi-blast-dbsはデータベースファイルを並行してダウンロードすることで…

NCBI FTPサーバからゲノム配列をダウンロードする ncbi-genome-download

2019 11/8 コマンドのミス修正("Escherichia coli" => "Escherichia") 2019 12/19 関連ツールリンク追加 タイトルの通りの機能をもつスクリプト。 ncbi-genome-downloadに関するツイート インストール mac os10.13のminiconda2-4.0.5環境でテストした。 依…

NCBIからバクテリアゲノムをダウンロードする

コンプリートなゲノムのダウンロード。 wget ftp://ftp.ncbi.nlm.nih.gov/genomes/genbank/bacteria/assembly_summary.txt awk -F '\t' '{if($12=="Complete Genome") print $20}' assembly_summary.txt > assembly_summary_complete_genomes.txtmkdir bacte…

NCBIで全データを一度にblast解析し、得られたリストをEntrez Directでアノテーションに変換する。

複数の配列のblast解析を行う場合、ローカルでデータベースなどを構築して進めるのが一つの手である。しかしローカルだとデータベースの更新や、データサイズが問題になる(例えばnrのデータも2015年にダウンロードすると200GBを超えていた)。 ネットワーク…