macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

Preprint

(プロテイン)レシプロカルベストヒットを抽出する getRBH.pl

タンパク質配列の迅速な比較のためのソフトウェアの著者は、そのソフトウェアの速度を評価し、その結果をそのタスクのための最も一般的なソフトウェアと比較しているが、より特殊な用途、例えば、Reciprocal Best Hit(RBH)としてのオルソログの発見のよう…

一般的なラボのデータ分析を高速化するshinyアプリケーション FaDA

RプログラミングShinyパッケージを用いて開発されたWebベースのデータ解析・可視化ツールが研究者に提案されることが増えている。これらのツールは、様々な視点からデータを解析したり、インタラクティブな可視化を提供したりするのに便利である。そのため、…

マルチプルシーケンスアラインメント(MSA)のクリーニングツール CIAlign

生物学の分野では、生物学的な特徴や関係性を調べるための多くの調査の基礎となっているのが、複数の配列のアラインメント(MSA)である。これらのアラインメントは、多くのバイオインフォマティクス解析の中心となっている。しかし、MSAの配列は不完全であ…

ONTのリードを量子化(離散化)して扱う QAlign

2020 10/16 論文引用 DNA/RNA配列のリードを互いに、あるいはリファレンスゲノム/トランスクリプトームに効率的かつ正確にアラインメントすることは、ゲノム解析における重要な問題である。ナノポアシーケンシングは主要なシーケンシング技術として登場し、…

ドラフトゲノムからplasmidを検出する RFPlasmid

細菌の抗生物質耐性(AMR)遺伝子は、多くの場合プラスミド上に保持されており、これらのプラスミドは細菌間でAMR遺伝子を移行させることができる。分子疫学やリスク評価のためには、遺伝子が転写性の高いプラスミド上にあるのか、より安定した染色体上にあ…

配列の豊富さを含むsequence indexを作る REINDEER

本研究では、配列の索引付けを行い、データセットのコレクションに渡ってその豊富さを記録する新しい計算手法であるREINDEERを紹介する。これまでのところ、他の方法では、大規模なデータセットに対して効率的なインデックス付けを行うことができなかったが…

long RNA sequencingリードの正確なアラインメントを行う uLTRA

ロングリードRNAシークエンシング技術は、トランスクリプトームのランドスケープを研究するための主要なシークエンシング技術として急速に確立されつつある。このような解析の多くは、ゲノムに対するリードのスプライスアラインメントに依存している。しかし…

真菌のgenomeとtranscriptomeのデータベース Fungi.guru

Fungi kingdomは真核生物の従属栄養生物で構成されており、生態系のバランスを整える役割を担い、分解者として大きな役割を果たしている。また、真菌は、抗生物質や薬理学的な性質を持つ二次代謝物を多種多様に産生している。しかし、真菌の遺伝子機能に関す…

Webベースのデータ分析プラットフォーム NASQAR その3 (SHAMAN)

2回目の続きになります。今回はNASCARで利用可能なメタ16S分析ツールSHAMANを簡単に紹介していきます。 SHAMANのPreprintよリ 定量的メタゲノム技術は、マイクロバイオームと環境や個人の要因(例えば、疾患、地理的起源など)との関連を特定するために広く…

Webベースのデータ分析プラットフォーム NASQAR

2020 9/6 追記 次世代シーケンシング(NGS)テクノロジーの急速な進歩により、ゲノムデータは近年大幅に成長している[ref.1、2]。一般的なアプリケーションには、de novoゲノムシーケンス;ゲノム変異、転写因子結合部位、クロマチン修飾、クロマチンアクセシ…

微生物ゲノムの包括的なアノテーションを行う MicrobeAnnotator

2020 9/5 修正 2020 9/7 誤字修正、出力追記 ハイスループットシーケンシングにより、利用可能な単離株、シングルセル、メタゲノムからの微生物ゲノムの数が増加している。これらのゲノムを解析・比較するためには、高速で包括的なアノテーションパイプライ…

CyVerseとIGBを接続するWebアプリケーション BioViz Connect

ゲノミクスの大規模データセットを利用するために、生物学者はデータの保存、処理、分析、アノテーション、可視化のための計算システムを必要としている。CyVerseのようなクラウドベースのサイエンスゲートウェイは、ストレージと解析ツールを提供するが、可…

ONT ダイレクトRNA seqで修飾された塩基を検出する nanocompore

RNA分子は、その構造や相互作用に影響を与える転写後修飾(PTM)を受けている。現在までに、150以上の天然に存在するPTMが同定されているが、その機能の大部分は未だ不明である。近年、少数のPTMが、ハイスループットシーケンシングを用いた実験的アプローチ…

性染色体のロングリードソート法 SRY

現在公開されているリファレンスゲノムの多くは、性染色体の配列マップがなく、アセンブルが完成していないのが現状である。近年のロングリード塩基配列解析や集団配列解析の進歩により、従来のような複雑な実験を必要とせずに性染色体のアセンブルが可能と…

バクテリアゲノムからプロファージを予測してアノテーションをつける DBSCAN-SWA

2020 8/21 追記と修正 ファージは、細菌宿主ゲノム中のバクテリオファージの細胞内形態として、通常、高い特異性を持って細菌のDNAに組み込まれ、水平遺伝子導入(HGT)に寄与している。ファージを用いて細菌を死滅させ、病原性細菌感染症や耐性細菌感…

RNA seqのロングリードをリファレンスフリーでクラスタリングする RATTLE

ナノポアを用いた1分子ロングリードシークエンシングは、あらゆるサンプルからトランスクリプトームを測定する前例のない機会を提供する。しかし、現在の解析方法では、リファレンスゲノムやトランスクリプトームとの比較、あるいは複数のシークエンシング…

アノテーションパイプライン BRAKER2

2020 8/14 補足追記 2020 8/15 補足追記 2020 10/1、10/2 help追記 2020 10/4 追記, タイトル修正 2020 10/16 誤字修正 遺伝子予測の完全自動化は、次世代シーケンシングの出現以来、バイオインフォマティクスの重要な課題となっている。真核生物ゲノムアノ…

複数のロングリードドラフトアセンブリを使って連続性の高いアセンブリを得る GALA

高品質のゲノムアセンブリは、遺伝学や医学研究の分野で幅広く応用されている。しかし、現在のワークフローでは、ギャップのない染色体スケールのアセンブリを実現することは非常に困難である。ここでは、preliminaryなアセンブリやキメラを含む生データから…

(microbial genomes)低分子量タンパク質のアノテーションを付ける SmORFinder

Sberroら(2019)が行った最近の研究により、ヒトマイクロバイオーム内に存在するスモールタンパク質の広大な未踏空間が明らかになった。現在のところ、これらの小さなオープンリーディングフレーム(smORF)は既存のリファレンスゲノムではアノテーションさ…

高速なアライナー Accel-Align

シーケンシング技術の向上により、シーケンシングコストはゲノムあたり100ドルに向かって進み続けている。しかし、シーケンスデータをリファレンスゲノムにマッピングすることは、シーケンスによって導入されるindelやミスマッチを処理するための編集距離に…

リアルデータに忠実なショートリードをシミュレートする ReSeq

ハイスループットのシーケンシングデータでは、生データから科学的な結果に至るまでのデータ処理において、計算ツール間の性能比較は、情報に基づいた意思決定を行うために不可欠である。シミュレーションは手法比較の重要な要素だが、標準的なIlluminaのゲ…

エラーの多いロングリードのハイブリッドエラーコレクションツール Ratatosk

2020 7/26 追記 全ゲノムシークエンシングのルーチン化には、ショートリードシークエンシング(SRS)技術を補完するロングリードシークエンシング(LRS)技術が不可欠になってきている。LRSプラットフォームは103 から106塩基のDNAフラグメントリードを生成…

(ヒトゲノム)ミトコンドリアハプロタイプを検出することでサンプルの汚染を検出する Haplocheck

ヒトのミトコンドリアDNA(mtDNA)は、長さ16.6kbの核外DNAである(Andrews et al). mtDNAは母系を介してのみ継承され、世界的にヒトの母系の系統と女性の(前)歴史的な人口動態パターンの再構築を容易にしている。mtDNAの厳密な母方遺伝は、ハプロタイプ…

StoatyDive

タンパク質の生物学的機能は、その相互作用パートナーと相互作用のモードによって決まる。これらの相互作用を研究することで、オルタナティブスプライシングや転写後調節などの細胞メカニズムに関する視野が広がる。クロスリンク、またはクロマチン免疫沈降…

Linnean分類システムのランクに応じて分類学の系統を提供する分類学データベース Taxallnomy

あらゆる生物学的データは分類学的データと密接にリンクしており、いくつかのバイオインフォマティクス分析は目的を達成するために分類学的情報に依存している。メタゲノミクス、臨床法医学、その他の分野では、サンプル中に存在する生物を同定し、グループ…

ヌクレオチド配列をアセンブリグラフにアラインメントする SPAligner

ゲノムアセンブリのグラフベースの表現は、最近では遺伝子検索からハプロタイプ分離まで、さまざまなアプリケーションで利用されている。これらのアプリケーションの多くは、アセンブリグラフへの配列のアラインメントに基づいているが、このようなアライン…

高速かつメモリ使用量の少ないポリッシングツール POLCA

2020 6/29 インストール手順修正 Pacific Biosciences(PacBio)によるSingle Molecule Real Time(SMRT)シーケンスや、Oxford Nanopore Technologies(ONT)によるnanoporeシーケンスなどの第3世代シーケンスプラットフォームは、数キロベースからメガベー…

自動化されたProkaryotesのRNA seq解析パイプライン ProkSeq

2020 6/29 補足説明追加。 RNA-seq技術は、導入以来、病原性細菌の研究において異なる条件にさらされた細菌からの複数のサンプルにわたる遺伝子発現の違いを同定し、定量化するために広く利用されてきた。一部の例外を除いて、遺伝子発現を評価するための現…

リファレンスゲノムのアノテーション情報をターゲットゲノムに移す Liftoff

DNA シーケンシング技術と計算手法の向上により、多くの種の高品質なゲノムアセンブリが大幅に増加している。これらのゲノムの生物学を理解するためには、遺伝子の特徴やその他の機能的エレメントのアノテーションが不可欠であるが、ほとんどの種ではリファ…

繰り返し配列を分析する RepeatProfiler

2020 7/7 リンクミス修正 モデル生物におけるDNAリピートの研究は、ゲノムの進化や表現型の変化を促進する多くのプロセスにおけるリピートDNAの役割を浮き彫りにしている。反復配列はシングルコピーDNAよりもはるかにダイナミックであるため、進化の遅いゲノ…