macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

2019-08-01から1ヶ月間の記事一覧

UniProtKBデータベースを3つのレベルでクラスタリングした Uniclust データベース

UniProt(ref.1)やGenBank(ref.2)などの公共データベースのタンパク質配列の数は、さまざまな大規模ゲノミクスプロジェクト(ref.3〜5)のために急速に増加している。急速な成長により、多くのアプリケーションが代表的なサブセットで動作するようになっ…

STRINGデータベース

個々のタンパク質の構造的および機能的情報が蓄積されているが(ref.1–3)、それらの相互作用に関する知識は断片化されたままになっている。いくつかの相互作用は、たとえばlarge cellular machineries(ref.4〜6)の3次元再構築のコンテキストで非常によく…

Uniprotデータベースに対する高速なタンパク質ホモロジーサーチを行う SANSparallel

近年、シーケンスの数が著しく増加している。これにより、データベース検索(ref.1〜4)がますます長くなり、無料のコンピューティングサービスと事前に計算されたデータベースが閉鎖に追い込まれたりまたは依存するようにクラウドソーシング(ref.5〜7)に…

GOアノテーション間の関係と類似性を調べるwebサーバー NaviGO

遺伝子の機能解明は、バイオインフォマティクスを含む現代の生物学における中心的な問題の1つである。体系的な機能的アノテーションのために、GOは遺伝子機能の語彙(以後、term)として広く使われている[ref.1]。 GO termは、term間の親の関係が表されてい…

Functional annotationを行うwebサーバー PANNZER2

2021 10/7 論文引用 正確なfunctional annotationを持つタンパク質は、生物学的研究に不可欠である。残念ながら、タンパク質配列の大部分は機能的に特徴付けられていない。つまり、実験的に検証されたアノテーションはない。ハイスループットシーケンスの進…

UniProt のUniRef データベース

UniRefデータベース (UniProt Reference Clusters) は、UniProtナレッジベースと選択されたUniParcレコード(UniParc link)からクラスター化されたシーケンスセットを提供し、複数の解像度(100%、90%、50%の同一性)でシーケンススペースを完全にカバー…

GFF ファイルのユーティリティ Gffread

2019 10/15 誤字修正 2020 7/27 help更新 2020 8/14 コマンド追記 2020 12/25 誤字修正 多くのバイオインフォマティクスプログラムは、遺伝子および転写産物をGFF形式(General Feature Format)で表し、ゲノム上の遺伝子および転写産物の特徴(染色体または…

微生物ゲノムアセンブリの品質と比較ゲノミクス(correspondence要約)

私(論文のオーサー;hereafter、私)の最近の研究では、低品質の細菌ゲノム配列(ここでは「多くのコンティグを含むゲノム配列アセンブリ、最終的には明らかなミスアセンブリと未解決のプラスミド配列」と定義)を扱ってきた。主要な問題は、ゲノムのクオリ…

Gene Ontologyデータベース AmiGO2

AmiGOのペーパーより Gene Ontologyプロジェクト[GO(http://www.geneontology.org); Gene Ontology Consortium、2000]は、構造化された統制語彙、またはオントロジーを開発し、遺伝子およびその産物(遺伝子産物)の基本的な特性を種に依存しない方法で記…

複数のFASTAファイルをNNN...で連結する CombineFasta

2021 7/12 リンク修正 タイトルの通りのツール。 インストール Technically, this program works on all operating systems; however, it has only been tested on Linux. 依存 Java jdk version 1.8 This git repository A decent (>16Gb) amount of RAM Gi…

メタゲノムのハイブリッドアセンブリツール OPERA-MS

2019 8/31 docker imageのhelpコマンドのエラー修正 2021 6/15 データベースのダウンロード追記 腸内微生物叢は、ホストの健康に寄与する多様な代謝特性を付与する数百種の豊かなコミュニティを持っている(ref.1)。また、抗生物質耐性遺伝子の貯蔵庫として…

NCBIのGenomic feature座標変換機能(Remap)

What is NCBI Remap? https://www.ncbi.nlm.nih.gov/genome/tools/remap/docs/whatis About our alignments 紹介動画 使い方 Assembly-Assembly Coordinate remapping service: NCBIにアクセスする。 生物を指定する。ここではヒトを選択。 クリックして決定…

EnsemblのGenomic feature座標変換機能(CrossMap)

2019 8/22 リンクミス修正 Ensemblのゲノム座標変換ツールを紹介する。オンラインで使用できる。 使い方 Ensembl Tools https://asia.ensembl.org/info/docs/tools/index.html Assembly Converterを選択する。 またはEnsemblのモデル生物ゲノムページからCon…

Genomic featureの座標を変更する UCSC liftOver

ヒトの場合は代表的なリファレンスゲノムもいまだ不完全であり、更新が繰り返されている。また、ゲノムがFinishしているスモールゲノムでも、株や系統の違いによる座標の違いがあり、研究によってはリファレンスゲノムを更新し、coding reginやexonなどのgen…

包括的なfunctional annotationを行うwebツール FunctionAnnotator

シーケンス技術の向上により、次世代シーケンス(NGS)がトランスクリプトーム研究にますます頻繁に使用されている。適切なリファレンスゲノムがないため、非モデル生物のトランスクリプトームの分析はモデル生物のトランスクリプトームと非常に異なる。 Tri…

Functional annotationを行うwebサーバー GO FEAT

2019 8/17 タイトル修正 、tips追記 ゲノムデータおよびトランスクリプトームデータに生物学的意味を与えることは、特にハイスループットテクノロジーによって生成される大量のデータと、この目的のために開発されたツール、Webサーバー、およびデータベース…

8章 補足資料1

2020 2/2 追記 章末補足資料 1、どのアノテーション情報を使うか よく研究された大腸菌であっても、数百以上の様々なゲノムが登録されている。同じ系統の株でもGene IDなどは統一されていない。そのため、100%塩基配列が同じゲノムと考えてわずかに違う株の…

ヒトゲノムを扱えるハイパフォーマンスなロングリードアセンブラ Shasta

2020 3/14 動画追加 2020 9/30 論文引用追加 2022/02/04 v0.9 2022/06/08 アップデートに伴いコマンド修正, help更新 ロングリードシーケンシング技術からヒトゲノムアセンブリを作成する現在のワークフローは、大きなコホートへの効率的な拡大を妨げるコス…

多機能な配列処理ツール VSEARCH(USEARCHの代替)

2019 8/9 説明の誤り修正 2019 9/15 両鎖クラスタリングのコメント追加 2024/06/17 追記 Rockström et al. (2009) とSteffen et al. (2015) は、生物多様性の損失を人類の短期生存のための主要な脅威として提示した。シークエンシング技術における最近の進歩…

FASTA配列のオンラインツールボックス FaBox

FaBoxは、生物学者や医学研究者がシーケンスデータを使用して典型的なタスクを迅速に実行できるようにする、シンプルで直感的なWebサービスのコレクションである。 このサービスを使用すると、シーケンスヘッダーを簡単に抽出、編集、置換し、ヘッダー情報に…

fasta/fastq/bamのユーティリティツール fxtools

インストール ubuntu16.0.4でテストした。 本体 Github git clone https://github.com/yangao07/fxtools.git --recursivecd fxtools; make > ./fxtools $ fxtools Program: fxtools (light-weight processing tool for FASTA, FASTQ and BAM format data) Us…

複数のシーケンシング技術に対応したドラフトアセンブリpolishingツール Apollo

第三世代のシークエンシング技術は900Kもの塩基対(bp)を含むロングリードをシークエンシングすることができる。これらの長いリードは、アセンブリ(すなわち対象のゲノム)を構築するために使用される。残念なことに、第3世代のシーケンシング技術は高いシ…

マッピングからコンセンサス配列を出力するbcftoolsのconsensusコマンド

2019 8/5 bcftools help追加 2019 8/30追記 2019 11/11追記 2020 3/20 bowtiee2コマンド修正 2021 5/24 dockerhubのイメージへのリンク追加 変異株のリファレンスをゲノムに当て、その個体についてコンセンサス配列を作成したいことがある。 これはbcftools…

elPrep 4

2020, 2021 9/17 追記 elPrep 4はelPrep [ref.1]の大幅に拡張された再実装であり、DNAシーケンシングパイプラインでのバリアントコールのシーケンスアライメント/マップファイル(SAM / BAM)[ref.2]を準備するためのマルチスレッドツールである。パイプライ…