macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

2020-09-01から1ヶ月間の記事一覧

シングルセルのシークエンシングデータをシミュレートする SCSsim

シングルセルシーケンシング(SCS)の技術的な問題点として、アレルドロップアウト(ADO)やアンバランス増幅があり、これらを効果的にエミュレートすることは、SCSベースのバイオインフォマティクスツールを確実にベンチマークするために必要である。このような…

ドラフトゲノムからplasmidを検出する RFPlasmid

細菌の抗生物質耐性(AMR)遺伝子は、多くの場合プラスミド上に保持されており、これらのプラスミドは細菌間でAMR遺伝子を移行させることができる。分子疫学やリスク評価のためには、遺伝子が転写性の高いプラスミド上にあるのか、より安定した染色体上にあ…

ミトコンドリアゲノムをショートリードからアセンブルする MitoFinder(既知ミトコンドリアゲノム情報が必要)

2020 9/29 タイトル修正 ハイスループットシーケンシング技術の発展により、核内ultraconserved DNA elements(UCE)(wiki)のターゲットエンリッチメントシーケンシングが可能となり、数千ものゲノムマーカーから系統関係を日常的に推論できるようになった…

FASTA3 package(fasta36)

D J Lipman, W R Pearson, 1985 新たに決定されたアミノ酸配列とデータベースで既に利用可能な配列との間の類似性の検索を容易にするアルゴリズムが開発された。このアルゴリズムは多くのマイクロコンピュータ上で効率的に動作するため、繊細なタンパク質デ…

bamを操作する包括的なツールキット BamDeal

2021 9/6 コード修正 BamDeal は bam ファイルの包括的な解析を行うためのフル機能ツールキットである。C/C++ 言語で実装されており、Linux と Mac OS X オペレーティングシステムで利用可能である。 インストール 依存 Pre-installations of 4 libraries or…

Multi FASTAのGC含量や長さを表示する EMBOSSのinfoseqコマンド

EMBOSSパッケージのinfoseq は、1 つ以上の入力配列に関する基本情報を画面上に表示する。これには、Uniform Sequence Address (USA)、名前、アクセッション番号、タイプ(核酸またはタンパク質)、長さ、C+Gの割合、および説明が含まれる。オプションでHTML…

Small RNA-Seqのfeatureを定量する mmannot

真核生物のスモールRNA(sRNA)は、長さ200bp未満の、通常は翻訳されていないRNAとして定義されている。これらのRNAは、細胞生活の多くの側面に関与していることが示されている[1, 2]。 一般的には、特定の大きさの範囲、生合成、機能パスウェイによって分類…

配列の豊富さを含むsequence indexを作る REINDEER

本研究では、配列の索引付けを行い、データセットのコレクションに渡ってその豊富さを記録する新しい計算手法であるREINDEERを紹介する。これまでのところ、他の方法では、大規模なデータセットに対して効率的なインデックス付けを行うことができなかったが…

long RNA sequencingリードの正確なアラインメントを行う uLTRA

ロングリードRNAシークエンシング技術は、トランスクリプトームのランドスケープを研究するための主要なシークエンシング技術として急速に確立されつつある。このような解析の多くは、ゲノムに対するリードのスプライスアラインメントに依存している。しかし…

真菌のgenomeとtranscriptomeのデータベース Fungi.guru

Fungi kingdomは真核生物の従属栄養生物で構成されており、生態系のバランスを整える役割を担い、分解者として大きな役割を果たしている。また、真菌は、抗生物質や薬理学的な性質を持つ二次代謝物を多種多様に産生している。しかし、真菌の遺伝子機能に関す…

Metalign

サンプル中の微生物の存在と相対的な存在量を予測するメタゲノムプロファイリングは、マイクロバイオーム解析の重要な第一歩である。アラインメントベースのアプローチは、多くの場合、正確ではあるが計算が困難であると考えられている。ここでは、効率的か…

NCBI Genome のBrowse by Organism機能

2020 10/25 追記 ハイスループットシークエンシング技術の普及により、NCBIなどの塩基配列データベースに登録されるゲノム数は爆発的に増大している。BLAST検索をやり直したら少し前は無かったゲノム情報が出てきた、という話も度々耳にする。特にバクテリア…

3990xの計算機でprokka を並列ランする(ベンチマーク)

2020 9/17、9/20 文章修正 3990x(64コア)のような多くのCPUコアが利用できるプロセッサを積んだ計算機を使いこなすには、高度に並列化された計算が欠かせない。しかし並列化は技術的に可能なケースと不可能なケースが存在する。並列化が捗りそうなHigh-Thr…

fastqのクオリティ分析を行う Quack

ハイスループットDNAシーケンシングツールによって生成されたデータの品質は、そのデータが生物学的発見にどの程度役立つかを判断するために迅速に評価されなければならない。データセットのサイズがますます大きくなり、迅速な品質評価が重要になっているた…

GenbankアクセッションIDからtaxonomyを返す acc2tax

タイトルの通りのツール。 インストール macos標準のclangでビルドした。 Github git clone https://github.com/richardmleggett/acc2tax.gitcd acc2tax/cc -o acc2tax acc2tax.c#パスの通ったディレクトリにコピーcp acc2tax /usr/locasl/bin/ > acc2tax -h…

メタゲノムのビニングされた真核生物由来コンティグの品質を調べる EukCC

微生物のDNAは日常的に抽出され、配列決定され、ゲノムにアセンブリされている。回収されたゲノムの品質を推定することは、不完全なゲノムや汚染されたゲノムが公表されるのを防ぐために非常に重要である。シングルコピーマーカー遺伝子(SCMG)は、新たにア…

バクテリアゲノムの比較ゲノム解析を行うwebサービス EDGAR

2022/03/28 URL 更新, POCP matrix追記 Bergey's Manual of Systematics of Archaea and Bacteriaより 次世代シークエンシングアプローチの展開により、完全にシークエンシングされたゲノムの数は急速に増加している。その結果、単一ゲノムだけでなく、関連…

Average amino acid identity(AAI)を計算する CompareM

2020 10/5 追記 2020 10/9 修正 CompareMは大規模な比較ゲノム解析をサポートするソフトウェアツールキットである。ゲノムのセット(アミノ酸の同一性など)と個々のゲノム(コドン使用率など)の統計を提供する。数千ゲノムへのスケーラビリティを可能にす…

入力プロテオームから類似したタンパク質のデータベースを自動検索し、プロテオームから近い種を調べる AAI-profiler

全ゲノムショットガンシーケンスは、分類学的分類の再評価を推進し、シングルセルゲノミクスの出現は生物多様性に関する知識を大きく広げている(1)。これらすべての応用分野において、分類学的分類に関するオリジナルの文献を検索するよりも、配列データを直…

ラージデータセットのコアゲノムを高速に構築する CoreCruncher

コアゲノムとは、原核生物のある集団や種のすべての、あるいはほぼすべての系統が共有する遺伝子の集合を意味する。コアゲノムを推定することは多くのゲノム解析に不可欠だが、ほとんどの手法はすべてのゲノムのペアを比較することに依存している。ここでは…

NCBI taxdumpをlineageファイルに変換するスクリプト NCBItax2lin

2020 9/9,9/10 コード修正 タイトルの通り。 インストール condaでpython3.7の仮想環境を作ってテストした(macos10.14)。 依存 ncbitax2lin requires python-3.7 Github conda create -n ncbitax2lin -y python=3.7conda activate ncbitax2linpip install …

Refseq accession IDからfull taxonomyに変換する PYlogeny

ETE3とBioPythonのEutilsを中心に構築されたアクセッション番号からtaxonomy IDとそれに関連する系統情報に変換することができるシンプルなツール。現在はRefseq accession IDに対応している。 インストール Github conda create -n PYlogeny python=3.6 -yc…

Webベースのデータ分析プラットフォーム NASQAR その3 (SHAMAN)

2回目の続きになります。今回はNASCARで利用可能なメタ16S分析ツールSHAMANを簡単に紹介していきます。 SHAMANのPreprintよリ 定量的メタゲノム技術は、マイクロバイオームと環境や個人の要因(例えば、疾患、地理的起源など)との関連を特定するために広く…

Webベースのデータ分析プラットフォーム NASQAR その2

2020 9/6 誤解を招く説明を修正 1回目の続きになります。今回はEnrichment のツールを簡単に紹介していきます。 Enrichment 2つのアプリケーションが利用できる。 解析フローはこの手順を踏襲したものになっている。こちらを読めばどんなコマンドを実行して…

Webベースのデータ分析プラットフォーム NASQAR

2020 9/6 追記 次世代シーケンシング(NGS)テクノロジーの急速な進歩により、ゲノムデータは近年大幅に成長している[ref.1、2]。一般的なアプリケーションには、de novoゲノムシーケンス;ゲノム変異、転写因子結合部位、クロマチン修飾、クロマチンアクセシ…

微生物ゲノムの包括的なアノテーションを行う MicrobeAnnotator

2020 9/5 修正 2020 9/7 誤字修正、出力追記、 2023/07/04 論文引用 ハイスループットシーケンシングにより、利用可能な単離株、シングルセル、メタゲノムからの微生物ゲノムの数が増加している。これらのゲノムを解析・比較するためには、高速で包括的なア…

HapSolo

最近のロングリードシークエンシング技術の著しい進歩にもかかわらず、二倍体ゲノムのアセンブルは依然として困難な課題である。主な障害は、高度にヘテロ接合性のある領域を表すオルタナティブなコンティグを区別することである。プライマリなコンティグと…

バクテリアとアーキアの正式名称やタイプストレイン情報などを掲載するデータベース LPSN

2020 9/3、9/6 誤字修正 1997年の論文 このリストには、International Journal of Systematic Bacteriologyに掲載された細菌の正式名称がアルファベット順に年代順に掲載されている。5,569種(1996年12月31日現在)を網羅しており、インターネット上で入手可…