macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

NCBI

2 つのアセンブリ間のアライメントを比較するNCBIの Comparative Genome Viewer

NCBI Insightsより NCBIのComparative Genome Viewer (CGV)では、2 つのアセンブリ間のアライメントを表示および比較し、欠失、逆位、転座を含むゲノム配列および構造の違いを確認することができます。 NCBIのComparative Genome Viewer (CGV)で利用できる全…

保存されているタンパク質ドメインを検索するNCBIの CD-Search

2023/02/22 タイトル修正 2004年に最初の論文(ref.1)が出たNCBIのCD-Searchサービスは、RPS-BLASTを用いてクエリタンパク質配列を多くのソースデータベースから収集された保存ドメインモデルと比較し、保存されているタンパク質ドメインヒットを提示する。…

NCBI SRA Run Selectorを使う

2022/11/26 追記 SRA Run Selectorは、SRAに保存されている大規模なランのセットを取り出し、どのランを解析に使用するかを絞り込み、結果をメタデータとしてダウンロードすることができる。 NCBI-Hackathons/SRA Run Selector Tutorial https://github.com/…

入力された DNA 配列からオープンリーディングフレームを検索する ORF finder

原核生物のオープンリディングフレーム(ORF)予測ツールは繊細で、頻度は少ないものの、配列のわずかな違いで遺伝子予測されなことが起きることがある。遺伝子予測精度がゲノム配列によって異なると、比較ゲノム解析で遺伝子の有無を調べる際に問題となる。…

UniProtKBデータベースをダウンロードしてBLAST検索する。

#2022/07/10誤字修正、07/12誤字修正 #2022/07/28 ツイート追記 Universal Protein Resource (UniProt)は、European Bioinformatics Institute (EBI) (*2)とSIB Swiss Institute Bioinformaticsが共同研究して構築している知識ベースである(*1)。タンパク質…

NCBIのGenBankゲノムアセンブリ (GCA) とRefSeqゲノムアセンブリ(GCF)

2020/11/19 誤字修正 NCBIの識別子がGCA_で始まるゲノムアセンブリはGenBankアセンブリと呼ばれる。GenBankアセンブリは、ユーザーがサブミットしたゲノムアセンブリを意味する。また、識別子がGCF_で始まるゲノムアセンブリは、RefSeqのアセンブリである。…

NCBIのデータベースへのリモート検索によって保存された遺伝子クラスターを探索し、クラスタリングして視覚化する cblaster

2020 11/11 extractコマンド追記 2022/11/21 登録コマンド追記 代謝、薬剤耐性、病原性などの生物学的パスウェイに関与する遺伝子は、多くの場合、遺伝子クラスターとしてクラスター化されている。相同な遺伝子クラスターを特定することは、その機能や進化の…

(NCBI)AMR遺伝子を探索する AMRFinderPlus

2021 10/24 conda -> mamba, 論文引用 NCBIは、タンパク質アノテーションおよび/またはアセンブルされたヌクレオチド配列を用いて、AMR遺伝子、抵抗性関連の変異、および他のクラスの遺伝子を同定するツールであるAMRFinderPlusを開発した。AMRFinderPlusは…

真菌を中心とした真核生物ゲノムのアノテーションパイプライン funannotate

2021/11/17 dockerについて追記 2023/08/08 引用修正 Funannotateはゲノム予測、アノテーション、比較のためのソフトウェアパッケージである。元々は真菌ゲノム(真核生物の中では小さいもので30 Mb程度のゲノム)のアノテーション用に書かれていたが、より…

NCBI Genome のBrowse by Organism機能

2020 10/25 追記 ハイスループットシークエンシング技術の普及により、NCBIなどの塩基配列データベースに登録されるゲノム数は爆発的に増大している。BLAST検索をやり直したら少し前は無かったゲノム情報が出てきた、という話も度々耳にする。特にバクテリア…

GenbankアクセッションIDからtaxonomyを返す acc2tax

タイトルの通りのツール。 インストール macos標準のclangでビルドした。 Github git clone https://github.com/richardmleggett/acc2tax.gitcd acc2tax/cc -o acc2tax acc2tax.c#パスの通ったディレクトリにコピーcp acc2tax /usr/locasl/bin/ > acc2tax -h…

NCBI taxdumpをlineageファイルに変換するスクリプト NCBItax2lin

2020 9/9,9/10 コード修正 タイトルの通り。 インストール condaでpython3.7の仮想環境を作ってテストした(macos10.14)。 依存 ncbitax2lin requires python-3.7 Github conda create -n ncbitax2lin -y python=3.7conda activate ncbitax2linpip install …

Refseq accession IDからfull taxonomyに変換する PYlogeny

ETE3とBioPythonのEutilsを中心に構築されたアクセッション番号からtaxonomy IDとそれに関連する系統情報に変換することができるシンプルなツール。現在はRefseq accession IDに対応している。 インストール Github conda create -n PYlogeny python=3.6 -yc…

SRAなどのシーケンシングデータを一括ダウンロードする grabseqs

2020 4/1 タイトル修正、誤字修正 2020 10/24 仮想環境を解くって導入するように修正 2021 5/23 conda => mambaに修正 ハイスループットシーケンシングは、生物学的な疑問を解決するための強力な技術である。Grabseqsは、Sequence Read Archive(SRA)、Meta…

UCSC、NCBI、Ensemblからゲノムをダウンロードする genomepy

2021 10/9 コマンドの修正(バージョンアップ) タイトルの通りのツール。簡単に紹介します。 インストール 依存 tabix genePredToBed genePredToGtf bedToGenePred gtfToGenePred gff3ToGenePred conda install -c bioconda -y ucsc-genepredtobedconda ins…

GenBankやEMBL/ENA flat fileをNCBI submission用に変換する GB2sequin

2022/09/06 タイトル変更 一般的なウェットラボのユーザーは、ベクターNTI Advance(Life Technologies、Invitrogen、Carlsbad、CA、USA)またはLasergene SeqBuilder(DNASTAR、Madison、WI、USA)などの市販のシーケンス可視化およびアノテーションソフト…

ゲノムを分類、クラスタリングし、視覚化する JGI-GenomeConstellation

2019 11/3 タイトル修正 これまでに特定されていない分類群を含む分類群の分類は、南極の乾燥した谷にある永久に氷に覆われた湖を含む、記載されていない生息地の微生物群集を特徴付ける重要なタスクである。現在の監視された系統発生ベースの方法は、そのよ…

NCBI GEO のRNA-seqデータを分析する GREIN

RNA-seqデータセットをGene Expression Omnibus(GEO)およびSequence Read Archive(SRA)のリポジトリに保存すると、公開されている研究の再現性が保証され、再利用が容易になる。これらのデータの再分析は、新しい科学的洞察をもたらす可能性があり、新し…

NCBIのGenomic feature座標変換機能(Remap)

What is NCBI Remap? https://www.ncbi.nlm.nih.gov/genome/tools/remap/docs/whatis About our alignments 紹介動画 使い方 Assembly-Assembly Coordinate remapping service: NCBIにアクセスする。 生物を指定する。ここではヒトを選択。 クリックして決定…

nrなどのNCBIデータベースをダウンロードする ncbi-blast-dbs

2018 12/10 タイトル訂正 2020 9/7追記2020 9/11 わかりにくい説明を修正、9/11 簡単な並列処理例追記、9/12.9/15 taxonkit コマンド修正, わかりにくい部分を修正、10/3 taxonkitのコマンドを修正、10/10 コマンド微修正、10/28 誤字修正 2022 1/6 例のパラ…

NCBI FTPサーバからゲノム配列をダウンロードする ncbi-genome-download

2019 11/8 コマンドのミス修正("Escherichia coli" => "Escherichia") 2019 12/19 関連ツールリンク追加 タイトルの通りの機能をもつスクリプト。 インストール mac os10.13のminiconda2-4.0.5環境でテストした。 依存 本体 GIthub #anaconda環境ならconda…

NCBIからバクテリアゲノムをダウンロードする

コンプリートなゲノムのダウンロード。 wget ftp://ftp.ncbi.nlm.nih.gov/genomes/genbank/bacteria/assembly_summary.txt awk -F '\t' '{if($12=="Complete Genome") print $20}' assembly_summary.txt > assembly_summary_complete_genomes.txtmkdir bacte…

NCBIで全データを一度にblast解析し、得られたリストをEntrez Directでアノテーションに変換する。

2020 10/9 リンク追加 複数の配列のblast解析を行う場合、ローカルでデータベースなどを構築して進めるのが一つの手である。しかしローカルだとデータベースの更新や、データサイズが問題になる(例えばnrのデータも2015年にダウンロードすると200GBを超えて…