macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

Preprint

配列の豊富さを含むsequence indexを作る REINDEER

本研究では、配列の索引付けを行い、データセットのコレクションに渡ってその豊富さを記録する新しい計算手法であるREINDEERを紹介する。これまでのところ、他の方法では、大規模なデータセットに対して効率的なインデックス付けを行うことができなかったが…

long RNA sequencingリードの正確なアラインメントを行う uLTRA

ロングリードRNAシークエンシング技術は、トランスクリプトームのランドスケープを研究するための主要なシークエンシング技術として急速に確立されつつある。このような解析の多くは、ゲノムに対するリードのスプライスアラインメントに依存している。しかし…

真菌のgenomeとtranscriptomeのデータベース Fungi.guru

Fungi kingdomは真核生物の従属栄養生物で構成されており、生態系のバランスを整える役割を担い、分解者として大きな役割を果たしている。また、真菌は、抗生物質や薬理学的な性質を持つ二次代謝物を多種多様に産生している。しかし、真菌の遺伝子機能に関す…

Webベースのデータ分析プラットフォーム NASQAR その3 (SHAMAN)

2回目の続きになります。今回はNASCARで利用可能なメタ16S分析ツールSHAMANを簡単に紹介していきます。 SHAMANのPreprintよリ 定量的メタゲノム技術は、マイクロバイオームと環境や個人の要因(例えば、疾患、地理的起源など)との関連を特定するために広く…

Webベースのデータ分析プラットフォーム NASQAR

2020 9/6 追記 次世代シーケンシング(NGS)テクノロジーの急速な進歩により、ゲノムデータは近年大幅に成長している[ref.1、2]。一般的なアプリケーションには、de novoゲノムシーケンス;ゲノム変異、転写因子結合部位、クロマチン修飾、クロマチンアクセシ…

微生物ゲノムの包括的なアノテーションを行う MicrobeAnnotator

2020 9/5 修正 2020 9/7 誤字修正、出力追記 ハイスループットシーケンシングにより、利用可能な単離株、シングルセル、メタゲノムからの微生物ゲノムの数が増加している。これらのゲノムを解析・比較するためには、高速で包括的なアノテーションパイプライ…

CyVerseとIGBを接続するWebアプリケーション BioViz Connect

ゲノミクスの大規模データセットを利用するために、生物学者はデータの保存、処理、分析、アノテーション、可視化のための計算システムを必要としている。CyVerseのようなクラウドベースのサイエンスゲートウェイは、ストレージと解析ツールを提供するが、可…

ONT ダイレクトRNA seqで修飾された塩基を検出する nanocompore

RNA分子は、その構造や相互作用に影響を与える転写後修飾(PTM)を受けている。現在までに、150以上の天然に存在するPTMが同定されているが、その機能の大部分は未だ不明である。近年、少数のPTMが、ハイスループットシーケンシングを用いた実験的アプローチ…

性染色体のロングリードソート法 SRY

現在公開されているリファレンスゲノムの多くは、性染色体の配列マップがなく、アセンブルが完成していないのが現状である。近年のロングリード塩基配列解析や集団配列解析の進歩により、従来のような複雑な実験を必要とせずに性染色体のアセンブルが可能と…

バクテリアゲノムからプロファージを予測してアノテーションをつける DBSCAN-SWA

2020 8/21 追記と修正 ファージは、細菌宿主ゲノム中のバクテリオファージの細胞内形態として、通常、高い特異性を持って細菌のDNAに組み込まれ、水平遺伝子導入(HGT)に寄与している。ファージを用いて細菌を死滅させ、病原性細菌感染症や耐性細菌感…

RNA seqのロングリードをリファレンスフリーでクラスタリングする RATTLE

ナノポアを用いた1分子ロングリードシークエンシングは、あらゆるサンプルからトランスクリプトームを測定する前例のない機会を提供する。しかし、現在の解析方法では、リファレンスゲノムやトランスクリプトームとの比較、あるいは複数のシークエンシング…

eukaryotesのアノテーションパイプライン BRAKER2

2020 8/14 補足追記 2020 8/15 補足追記 遺伝子予測の完全自動化は、次世代シーケンシングの出現以来、バイオインフォマティクスの重要な課題となっている。真核生物ゲノムアノテーションパイプラインBRAKER1では、自己学習型のGeneMark ETとAUGUSTUSを組み…

複数のロングリードドラフトアセンブリを使って連続性の高いアセンブリを得る GALA

高品質のゲノムアセンブリは、遺伝学や医学研究の分野で幅広く応用されている。しかし、現在のワークフローでは、ギャップのない染色体スケールのアセンブリを実現することは非常に困難である。ここでは、preliminaryなアセンブリやキメラを含む生データから…

(microbial genomes)低分子量タンパク質のアノテーションを付ける SmORFinder

Sberroら(2019)が行った最近の研究により、ヒトマイクロバイオーム内に存在するスモールタンパク質の広大な未踏空間が明らかになった。現在のところ、これらの小さなオープンリーディングフレーム(smORF)は既存のリファレンスゲノムではアノテーションさ…

高速なアライナー Accel-Align

シーケンシング技術の向上により、シーケンシングコストはゲノムあたり100ドルに向かって進み続けている。しかし、シーケンスデータをリファレンスゲノムにマッピングすることは、シーケンスによって導入されるindelやミスマッチを処理するための編集距離に…

リアルデータに忠実なショートリードをシミュレートする ReSeq

ハイスループットのシーケンシングデータでは、生データから科学的な結果に至るまでのデータ処理において、計算ツール間の性能比較は、情報に基づいた意思決定を行うために不可欠である。シミュレーションは手法比較の重要な要素だが、標準的なIlluminaのゲ…

エラーの多いロングリードのハイブリッドエラーコレクションツール Ratatosk

2020 7/26 追記 全ゲノムシークエンシングのルーチン化には、ショートリードシークエンシング(SRS)技術を補完するロングリードシークエンシング(LRS)技術が不可欠になってきている。LRSプラットフォームは103 から106塩基のDNAフラグメントリードを生成…

(ヒトゲノム)ミトコンドリアハプロタイプを検出することでサンプルの汚染を検出する Haplocheck

ヒトのミトコンドリアDNA(mtDNA)は、長さ16.6kbの核外DNAである(Andrews et al). mtDNAは母系を介してのみ継承され、世界的にヒトの母系の系統と女性の(前)歴史的な人口動態パターンの再構築を容易にしている。mtDNAの厳密な母方遺伝は、ハプロタイプ…

StoatyDive

タンパク質の生物学的機能は、その相互作用パートナーと相互作用のモードによって決まる。これらの相互作用を研究することで、オルタナティブスプライシングや転写後調節などの細胞メカニズムに関する視野が広がる。クロスリンク、またはクロマチン免疫沈降…

Linnean分類システムのランクに応じて分類学の系統を提供する分類学データベース Taxallnomy

あらゆる生物学的データは分類学的データと密接にリンクしており、いくつかのバイオインフォマティクス分析は目的を達成するために分類学的情報に依存している。メタゲノミクス、臨床法医学、その他の分野では、サンプル中に存在する生物を同定し、グループ…

ヌクレオチド配列をアセンブリグラフにアラインメントする SPAligner

ゲノムアセンブリのグラフベースの表現は、最近では遺伝子検索からハプロタイプ分離まで、さまざまなアプリケーションで利用されている。これらのアプリケーションの多くは、アセンブリグラフへの配列のアラインメントに基づいているが、このようなアライン…

高速かつメモリ使用量の少ないポリッシングツール POLCA

2020 6/29 インストール手順修正 Pacific Biosciences(PacBio)によるSingle Molecule Real Time(SMRT)シーケンスや、Oxford Nanopore Technologies(ONT)によるnanoporeシーケンスなどの第3世代シーケンスプラットフォームは、数キロベースからメガベー…

自動化されたProkaryotesのRNA seq解析パイプライン ProkSeq

2020 6/29 補足説明追加。 RNA-seq技術は、導入以来、病原性細菌の研究において異なる条件にさらされた細菌からの複数のサンプルにわたる遺伝子発現の違いを同定し、定量化するために広く利用されてきた。一部の例外を除いて、遺伝子発現を評価するための現…

リファレンスゲノムのアノテーション情報をターゲットゲノムに移す Liftoff

DNA シーケンシング技術と計算手法の向上により、多くの種の高品質なゲノムアセンブリが大幅に増加している。これらのゲノムの生物学を理解するためには、遺伝子の特徴やその他の機能的エレメントのアノテーションが不可欠であるが、ほとんどの種ではリファ…

繰り返し配列を分析する RepeatProfiler

2020 7/7 リンクミス修正 モデル生物におけるDNAリピートの研究は、ゲノムの進化や表現型の変化を促進する多くのプロセスにおけるリピートDNAの役割を浮き彫りにしている。反復配列はシングルコピーDNAよりもはるかにダイナミックであるため、進化の遅いゲノ…

ゲノムスケッチを用いて迅速にコホートサンプルの関連性を推定する somalier

複数の空間的または縦断的生検から得られたシーケンシングデータを解釈する際には、サンプルのmix upを検出することが不可欠であるが、生殖細胞変異の研究よりも困難である。腫瘍のほとんどのゲノム研究では、遺伝的変異は腫瘍とサンプル提供者の正常組織の…

正確な系統推定のためのアラインメントトリミングツール ClipKIT

複数シーケンスのアラインメントにおける発散性の高い部位は、相同性の誤った推論や置換の飽和に起因しており、系統推論に悪影響を及ぼすと考えられている。トリミング手法は、系統推論の前にこれらのサイトを除去することを目的としているが、最近の解析で…

メタゲノムのビニング後の解析を行う自動化されたパイプライン MetaSanity

2020 5/29 構成を修正、タイトル変更 2020 6/1 コマンド修正 マイクロバイオーム研究の重要性はますます一般的になっており、さまざまな生態系(例:海洋、構築、宿主関連など)を理解するために不可欠である。研究者は、微生物ゲノムの分析のため、高度に再…

ロングリードのマルチプルシーケンスアラインメントを行う abPOA (POAのSIMD実装拡張)

マルチプルシーケンスアラインメント(MSA)問題を解決するために、Leeら(2002)によって最初に導入されたのがPartial order alignment(POA)である。POAでは、MSAをdirected acyclic graph(DAG)(有向無閉路グラフ)として表現し、動的計画法(wiki)(…

Snipe

食中毒は、開発途上国と開発途上国の両方において、世界の食品の安全性と公衆衛生を脅かす顕著な脅威となっている。毎年、病原体に汚染された食品は、米国で約4,800万人の人に病気を引き起こし、12万8,000人が入院し、3,000人が死亡している(www. producedaf…