macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

2019-09-01から1ヶ月間の記事一覧

メタゲノムのビニングを行う MetaBAT2

2020 4/4 追記 2021 5/30 help更新 微生物の分離と培養に基づく微生物群集の研究は、高スループットの全ゲノムショットガンシーケンスベースのメタゲノムに徐々に置き換えられている(Van Dijk et al、2014; Tringe&Rubin、2005でレビュー)。計算メタゲノ…

マッピングとバリアントコールを両方行う MapCaller

2023/09/20 バージョンされたコマンドに更新 次世代シーケンシング(NGS)技術の進歩により、近い将来に精密医療のさまざまなアプリケーションをサポートできるようになってきている(Ku and Roukos、2013)。ますます多くの医学的および生物学的研究でNGS技…

配列をクラスタリングする Sumaclust

次世代シーケンシングの開発により、数百万のシーケンスを妥当な時間で処理するための効率的なツールが必要になる。Sumaclustは、LECAによって開発されたプログラムで、高速かつ正確な方法でシーケンスをクラスター化することを目的としている。 このツール…

BWTによる高速なゲノム間アラインメントを行う GSAlign

パーソナルゲノミクスと比較ゲノミクスは、臨床診療とゲノム研究においてますます重要になっている2つの分野である。両方のフィールドは、配列の保存と構造の変化を発見するためにシーケンスアラインメントが必要である。ゲノム配列のアラインメントを処理す…

Human Phenotype Ontology (HPO)データベース(Exomiserについて紹介)

鑑別診断 (differential diagnostics, wiki) およびトランスレーショナルリサーチの基盤となるのは、詳細な表現型の特定である: 詳細な個々の臨床異常のコンピューター分析である(ref.1,2)。 Human Phenotype Ontology(HPO, wiki)は、計算によるdeep phe…

アセンブリ結果を評価する dnAQET

次世代シーケンス(NGS)テクノロジーの導入により、大量のゲノムシーケンスデータを生成できるようになった。これにより、個人のゲノムをシーケンシングしてde novoアセンブリすることが可能になった。約10年前、NGSテクノロジーにより、二倍体de novoゲノ…

miRNAとそのターゲット遺伝子のデータベース miRTarBase

MicroRNA(miRNA)は、18〜25ヌクレオチドの小さな非コーディングRNAであり、動物と植物の両方で転写後レベルの中心的な調節因子である。 miRNAとそのターゲットmRNAの完全またはほぼ完全な相補的結合は、mRNAの分解を促進したり、mRNAの翻訳を抑制したりし…

タンパク質相互作用を調べる BioGRID

大量の個々のタンパク質または遺伝的相互作用、およびRNA、DNA、膜、炭水化物、低分子代謝産物の相互作用から集約された生物学的相互作用ネットワークは、遺伝子と表現型の関係およびすべての細胞の機構的基盤を理解するためのフレームワークとして機能する…

prokaryotic virusのcontigをクラスタリングしTaxonomic assignmentを行う vContact2

2019 9/25 誤字修正 細菌と古細菌は、海洋と土壌の生態系での栄養とエネルギーのサイクルに役割を果たしており、人間の健康にも重要な役割を果たしている。細菌や古細菌に感染するウイルスは、殺害、代謝再プログラミング、または遺伝子導入によってこれらの…

タンパク質のホモリピートを分析するwebサーバー dAPE

Low Complexity(LC)は、タンパク質中のタンデムリピートおよびcompositionally biased regions(CBR)のようなアミノ酸組成にほとんど多様性がない領域を説明するために使用される一般用語である。ホモリピート、またはpolyX領域は、単一のアミノ酸残基の…

初めてコマンドを使う人向けの解説:その1、指定した領域から配列を抽出する

2019 9/20追記 ゲノムのダウンロード この記事では、初めてコマンドで動作するツールを使う方向けにゲノムの指定した領域から配列を抽出する方法について説明します。コンピュータはmacを想定しています。普通はpython3やanacondaを入れ、condaのコマンドを…

ONTのロングリードから抗生物質耐性遺伝子の分布を調べるwebサーバー NanoARG

薬剤耐性(AMR)は、感染症を予防および治療する能力を損ない、世界的な公衆衛生の脅威になる[ref.1]。現在、抗生物質耐性による世界中の年間死亡者数は、2050年までに1,000万人を超えると推定されている[ref.2]。これに対応して、多くの国内および国際機関…

pacbioのbamをfastqに変換する BAM2fastx

PacificBiosciences/bam2fastx Converting and demultiplexing of PacBio BAM files into gzipped fasta and fastq files. by @PacificBiosciences - Repository | DevHub.io BAM format specification for PacBio(5.1.0) https://pacbiofileformats.readt…

rRNAのアンプリコンシーケンスのトリミングを行う FIGARO

マイクロバイオーム研究は、巨視的世界にとっての微生物コミュニティの重要性についての途方もない洞察を提供し続けている。ハイスループットDNAシーケンシング技術(すなわち、次世代シーケンス)は、微生物分類群を同定し、生物学的および環境試料の多様性…

ロングリードRNA seqのアライナー Graphmap2

オックスフォードナノポアテクノロジー(ONT)[ref.1]やパシフィックバイオサイエンス(PacBio)[ref.2]などの企業が達成したシーケンシングテクノロジーの進歩により、長さが10 kbpを超えるロングリードが生成される。当初、このようなロングリードのエラー…

モデルベースでDNA-DNAハイブリダイゼーションを計算するwebツール GGDC

2020 7/28 追記、タイトル修正 DNA-DNAハイブリダイゼーション(DDH)は、古細菌および細菌種の描写のための分類学的ゴールドスタンダードとして現在も使用されているウェットラボ法である。 2つのそれぞれの生物のゲノムDNAがDDHの類似性が70%未満であるこ…

リードやコンティグ配列のリード長ヒストグラム

pyfaidxとRのhistを使えばワンライナーで出力できる。 インストール #python (link)pip install pyfaidx 実行方法 FASTAファイルを指定する。 faidx --transform chromsizes input.fa | cut -f2 | Rscript -e 'data <- as.numeric (readLines ("stdin")); su…

シングルセルとメタゲノムに対応したIDBA-UDアセンブラ

2021 2/7 タイトル修正 2021 4/24,26 追記 次世代シーケンシングにより、シングルセルシーケンシングまたはメタゲノムシーケンシングテクノロジーを使用して、微生物環境のシーケンシングができる。しかし、両方の技術には、ゲノムの異なる領域または異なる…

Pacbioのロングリードのシミュレータ PaSS

PacBioやSMRT(1分子リアルタイム)シーケンスやナノポアシーケンスを含む第3世代のシーケンス技術は、これまでにないシーケンスリード長をゲノムを研究する研究者に提供し、ゲノミクス研究に革命をもたらしている[ref.1]。 Pacific BioSciencesが開発したSM…

fungiのゲノムアセンブリ完全性評価ツール FGMP

ハイスループットシークエンシングおよび分析ツールの最近の爆発により、培養不可能な生物を含む生命のツリーを横切るほぼ全ての種のシークエンシングがより容易かつ安価になった。しかしながら、これらのゲノムの質と完全性は、リピート領域をアセンブリす…

ユーザー指定の文献リストを使って文献を仕分ける分類器 BioReader

現在、生物医学科学が直面している「ビッグデータ問題」は、分析能力を超えるゲノム配列、プロテオミクス、トランスクリプトームおよびメタゲノムプロファイルなどの大量のraw biological dataによるものである。生物医学文献でも同様の傾向が観察されている…

tRNA配列を比較する tRNAviz

比較研究および豊富なシーケンシングに基づく分子アッセイに何千ものゲノムが利用可能な現在、tRNA遺伝子の全相補体がどのように展開され調節されるかについての我々の理解が進んでいる。トランスファーRNA(tRNA)はタンパク質翻訳の中心であり、さまざまな…

Functional enrichment analysisとID変換を行う g:Profiler

2019 9/12 誤字修正、おかしな文章削除 ハイスループット研究からの遺伝子リストの解釈には、最新のデータに基づいた有能で便利なツールが必要である。 Enrichr(ref.1)、WebGestalt(ref.2)、Metascape(ref.3)、KOBAS(ref.4)、AgriGO(ref.5)などのf…

興味があるタンパク質情報を文献やデータベースからマイニングする PaperBLAST

ゲノムシーケンスは、タンパク質の機能が決定される速度をはるかに超えて、新規タンパク質の発見を加速している(ref,1)。ゲノムシーケンスを解釈し、これらの予測されたタンパク質の役割のアノテーションを付けるには、新規タンパク質と特徴付けられたタン…

viral quasispeciesのハプロタイプを再構成する PEHaplo

高い突然変異率、自然選択および組換えは、RNAウイルス集団の高い遺伝的多様性につながる可能性がある(Domingo-Calap et al、2016)。これらはclosely relatedだが異なるウイルス株で構成されている。ウイルス集団のこれらのグループは、しばしばquasispeci…

DAVIDデータベース

2019 10/20 誤字修正 2019 10/26タイトル修正 従来の生物学的研究アプローチでは、通常、一度に1つの遺伝子またはいくつかの遺伝子を研究する。対照的に、ハイスループットゲノム、プロテオミクス、およびバイオインフォマティクススキャニングアプローチ(…

NCBI GEO のRNA-seqデータを分析する GREIN

RNA-seqデータセットをGene Expression Omnibus(GEO)およびSequence Read Archive(SRA)のリポジトリに保存すると、公開されている研究の再現性が保証され、再利用が容易になる。これらのデータの再分析は、新しい科学的洞察をもたらす可能性があり、新し…

MG-RAST(簡単な紹介)

2022/06/26 追記 分子生物学、とりわけ、微生物群集(メタゲノミクス分野)のハイスループットシーケンシングは、気候変動、環境汚染、人間の健康などに関わる微生物群集の組成と機能的内容の理解を急速に進歩させている。メタゲノミクスは、以前は実験室制…

追加配列のアノテーションを含めるように既存のfastaとgff3を改変する reform

タイトルの通りのスクリプト。使い方は下のテストラン参照。 インストール 依存 reform requires Python3 and Biopython. 本体 Github pip install biopythongit clone https://github.com/gencorefacility/reform.git cd reform/ > python3 reform.py -h $ …