macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

2020

ミトコンドリアゲノムをショートリードからアセンブルする MitoFinder

ハイスループットシーケンシング技術の発展により、核内ultraconserved DNA elements(UCE)(wiki)のターゲットエンリッチメントシーケンシングが可能となり、数千ものゲノムマーカーから系統関係を日常的に推論できるようになった。最近では、ミトコンド…

Small RNA-Seqのfeatureを定量する mmannot

真核生物のスモールRNA(sRNA)は、長さ200bp未満の、通常は翻訳されていないRNAとして定義されている。これらのRNAは、細胞生活の多くの側面に関与していることが示されている[1, 2]。 一般的には、特定の大きさの範囲、生合成、機能パスウェイによって分類…

配列の豊富さを含むsequence indexを作る REINDEER

本研究では、配列の索引付けを行い、データセットのコレクションに渡ってその豊富さを記録する新しい計算手法であるREINDEERを紹介する。これまでのところ、他の方法では、大規模なデータセットに対して効率的なインデックス付けを行うことができなかったが…

long RNA sequencingリードの正確なアラインメントを行う uLTRA

ロングリードRNAシークエンシング技術は、トランスクリプトームのランドスケープを研究するための主要なシークエンシング技術として急速に確立されつつある。このような解析の多くは、ゲノムに対するリードのスプライスアラインメントに依存している。しかし…

真菌のgenomeとtranscriptomeのデータベース Fungi.guru

Fungi kingdomは真核生物の従属栄養生物で構成されており、生態系のバランスを整える役割を担い、分解者として大きな役割を果たしている。また、真菌は、抗生物質や薬理学的な性質を持つ二次代謝物を多種多様に産生している。しかし、真菌の遺伝子機能に関す…

メタゲノムのビニングされた真核生物由来コンティグの品質を調べる EukCC

微生物のDNAは日常的に抽出され、配列決定され、ゲノムにアセンブリされている。回収されたゲノムの品質を推定することは、不完全なゲノムや汚染されたゲノムが公表されるのを防ぐために非常に重要である。シングルコピーマーカー遺伝子(SCMG)は、新たにア…

ラージデータセットのコアゲノムを高速に構築する CoreCruncher

コアゲノムとは、原核生物のある集団や種のすべての、あるいはほぼすべての系統が共有する遺伝子の集合を意味する。コアゲノムを推定することは多くのゲノム解析に不可欠だが、ほとんどの手法はすべてのゲノムのペアを比較することに依存している。ここでは…

Webベースのデータ分析プラットフォーム NASQAR その3 (SHAMAN)

2回目の続きになります。今回はNASCARで利用可能なメタ16S分析ツールSHAMANを簡単に紹介していきます。 SHAMANのPreprintよリ 定量的メタゲノム技術は、マイクロバイオームと環境や個人の要因(例えば、疾患、地理的起源など)との関連を特定するために広く…

Webベースのデータ分析プラットフォーム NASQAR

2020 9/6 追記 次世代シーケンシング(NGS)テクノロジーの急速な進歩により、ゲノムデータは近年大幅に成長している[ref.1、2]。一般的なアプリケーションには、de novoゲノムシーケンス;ゲノム変異、転写因子結合部位、クロマチン修飾、クロマチンアクセシ…

微生物ゲノムの包括的なアノテーションを行う MicrobeAnnotator

2020 9/5 修正 2020 9/7 誤字修正、出力追記 ハイスループットシーケンシングにより、利用可能な単離株、シングルセル、メタゲノムからの微生物ゲノムの数が増加している。これらのゲノムを解析・比較するためには、高速で包括的なアノテーションパイプライ…

バクテリアとアーキアの正式名称やタイプストレイン情報などを掲載するデータベース LPSN

2020 9/3、9/6 誤字修正 1997年の論文 このリストには、International Journal of Systematic Bacteriologyに掲載された細菌の正式名称がアルファベット順に年代順に掲載されている。5,569種(1996年12月31日現在)を網羅しており、インターネット上で入手可…

REscan

リピート拡張は、神経疾患における遺伝的変異の重要なクラスである。しかしながら、従来のシークエンシング法を用いた新規なリピート拡張の同定は、ショートシークエンシングリードに対するそれらの典型的な長さ、およびリピート配列への正確でユニークなア…

CyVerseとIGBを接続するWebアプリケーション BioViz Connect

ゲノミクスの大規模データセットを利用するために、生物学者はデータの保存、処理、分析、アノテーション、可視化のための計算システムを必要としている。CyVerseのようなクラウドベースのサイエンスゲートウェイは、ストレージと解析ツールを提供するが、可…

ロングリードシークエンシングから環状プラスミドを同定しARGsなどのアノテーションをつける PlasmIdent

多剤耐性菌の感染は、多くの場合、治療の選択肢が限られているか、あるいは全くないままである。細菌種間での遺伝子の水平移動によるプラスミドの移動は、抗生物質耐性遺伝子(ARG)拡大の重要なモードを表している。ここでは、複数の細菌種内および細菌種間…

コピー数変化(多型)をインタラクティブなプロットで視覚化する reconCNV

コピー数変動(CNV)は、不均衡な構造リアレンジメントの重要なカテゴリーである。ハイスループットなターゲットシーケンスでCNVを検出する方法はますます洗練されてきているが、これらのデータからCNVをインタラクティブかつ動的に可視化するための専用ツー…

性染色体のロングリードソート法 SRY

現在公開されているリファレンスゲノムの多くは、性染色体の配列マップがなく、アセンブルが完成していないのが現状である。近年のロングリード塩基配列解析や集団配列解析の進歩により、従来のような複雑な実験を必要とせずに性染色体のアセンブルが可能と…

バクテリアゲノムからプロファージを予測してアノテーションをつける DBSCAN-SWA

2020 8/21 追記と修正 ファージは、細菌宿主ゲノム中のバクテリオファージの細胞内形態として、通常、高い特異性を持って細菌のDNAに組み込まれ、水平遺伝子導入(HGT)に寄与している。ファージを用いて細菌を死滅させ、病原性細菌感染症や耐性細菌感…

ショートリードとロングリード両方に対応した高速なクオリティフィルタリングツール RabbitQC

2020 8/19 追記 現代のシーケンシング技術は、生物学や医学の多くの分野で革命を起こし続けている。生成されたデータセットはエラーが発生しやすいため、下流のアプリケーションでは通常、FASTQファイルを前処理するための品質管理手法が必要となる。しかし…

RNA seqのロングリードをリファレンスフリーでクラスタリングする RATTLE

ナノポアを用いた1分子ロングリードシークエンシングは、あらゆるサンプルからトランスクリプトームを測定する前例のない機会を提供する。しかし、現在の解析方法では、リファレンスゲノムやトランスクリプトームとの比較、あるいは複数のシークエンシング…

複数の系統的証拠を利用してオルソログとパラログを予測する MetaPhOrs

2020 8/17 追記と誤字修正 異なる種の遺伝子間の相同性関係を推定することは、比較ゲノム学の中心的な課題である。そのため、長年にわたって多くのリソースと方法が開発されてきた。公開されているデータベースの中には、相同な遺伝子ファミリーの系統樹が含…

eukaryotesのアノテーションパイプライン BRAKER2

2020 8/14 補足追記 2020 8/15 補足追記 遺伝子予測の完全自動化は、次世代シーケンシングの出現以来、バイオインフォマティクスの重要な課題となっている。真核生物ゲノムアノテーションパイプラインBRAKER1では、自己学習型のGeneMark ETとAUGUSTUSを組み…

複数のロングリードドラフトアセンブリを使って連続性の高いアセンブリを得る GALA

高品質のゲノムアセンブリは、遺伝学や医学研究の分野で幅広く応用されている。しかし、現在のワークフローでは、ギャップのない染色体スケールのアセンブリを実現することは非常に困難である。ここでは、preliminaryなアセンブリやキメラを含む生データから…

完全性、正確性、連続性を考量してゲノムアセンブリを評価する PDR

既存のゲノムアセンブリ評価指標は、ゲノムアセンブリの品質の特定の側面についての限られた知見しか提供しておらず、時にはお互いに意見が合わないこともある。アセンブリ間の統合的な比較をより良くするために、著者らはここで新しいゲノムアセンブリ評価…

(ヒトゲノム)高速かつ精度の高いロングリードのSVコーラー cuteSV

構造変化(SV)とは、欠失、挿入、逆位、重複、転座などのゲノムリアレンジメントで、その大きさが50 bpを超えるものを指す。ヒトゲノム上で最大のdivergencesとして、SV はヒトの疾患(遺伝性疾患やガンなど)、進化(遺伝子欠損やトランスポゾン活性など)…

(microbial genomes)低分子量タンパク質のアノテーションを付ける SmORFinder

Sberroら(2019)が行った最近の研究により、ヒトマイクロバイオーム内に存在するスモールタンパク質の広大な未踏空間が明らかになった。現在のところ、これらの小さなオープンリーディングフレーム(smORF)は既存のリファレンスゲノムではアノテーションさ…

フェージングの品質を評価、改善する phaseME

同じDNA分子上でどの突然変異が発生しているかを検出することは、その結果を予測するために不可欠である。これは、ゲノム変異のphasingによって達成することができる。それにもかかわらず、最先端のハプロタイプphasingは、現在のところ、再構成されたハプロ…

Transcript-level Aware なロングリードのエラーコレクションを行う TALC

ロングリードシーケンシング技術は、複雑なRNAトランスクリプト構造を決定するために非常に重要だが、エラーが発生しやすい。同じサンプルからシーケンスされたショートリードの精度と深さを利用してロングリードを補正する「ハイブリッド補正」アルゴリズム…

高速なアライナー Accel-Align

シーケンシング技術の向上により、シーケンシングコストはゲノムあたり100ドルに向かって進み続けている。しかし、シーケンスデータをリファレンスゲノムにマッピングすることは、シーケンスによって導入されるindelやミスマッチを処理するための編集距離に…

リアルデータに忠実なショートリードをシミュレートする ReSeq

ハイスループットのシーケンシングデータでは、生データから科学的な結果に至るまでのデータ処理において、計算ツール間の性能比較は、情報に基づいた意思決定を行うために不可欠である。シミュレーションは手法比較の重要な要素だが、標準的なIlluminaのゲ…

(コムギなど)倍数性ゲノムのホモログ特異的なプライマーを自動作成する AutoCloner

2020 7/27 誤字修正 小麦のような倍数性の生物は、分子生物学の最も単純な手順さえも複雑にしている。農作物のゲノム配列に関する知識は急速に増加しているが、研究者の間では、すべての種の完全な全ゲノムを作成するまでにはまだ長い道のりがある。そのため…