macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

テスト失敗

メタゲノムのリードの発生からbinningまで自動でシミュレーションする MAGICIAN

シーケンスリードからメタゲノムアセンブリゲノム(MAGs)を回収することで、微生物群集とその構成員に関するさらなる洞察が可能になり、場合によっては単一分離ゲノム用に設計されたツールでそのような配列を解析することもできる。結果の質は配列の質に依…

ウルトラロングデータセットに対する高速多重塩基配列アラインメント法 FMAlign2

バイオインフォマティクスにおいて、マルチプル配列アライメント(MSA)は極めて重要なタスクである。しかし、従来の方法では、ウルトラロングシークエンスのアライメントに苦労することが多い。この問題に対処するため、研究者たちは、並列アラインメントの…

分類学的シグナルを組み込むことでメタゲノムリードのアノテーションと分類学的プロファイリングを改善する RAT

メタゲノム解析には、リードベースの分類学的プロファイリング、アセンブル、メタゲノムアセンブリゲノム(MAGs)のビニングが一般的である。ここでは、これらのステップを統合したRead Annotation Tool (RAT)を報告する。RATを使ってMAGやコンティグから得…

遺伝子アノテーションの品質評価を行う OMArk

多様な生物種のゲノム配列がますます豊富になる時代において、タンパク質をコードする遺伝子レパートリーの質を評価することは極めて重要である。最先端のゲノムアノテーション評価ツールは、遺伝子レパートリーの完全性を測定するが、遺伝子の過剰予測やコ…

De novoトランスクリプトームアセンブリとアノテーションのSnakemakeパイプライン transXpress

RNA-seqとde novoトランスクリプトームアセンブリは、非モデル生物の生物学的研究に変革をもたらす技術であるが、RNA-seqデータの計算処理には、多くの異なるソフトウェアツールが必要である。このようなde novoトランスクリプトームワークフローの複雑さは…

断片的なアセンブリから高品質のバクテリオファージゲノムを得る Phables

ヒトの腸内に存在する微生物群は、ヒトの健康に強い影響を及ぼしている。腸内細菌やウイルスは、炎症性腸疾患などの消化器系疾患に影響を与える。バクテリオファージと呼ばれる細菌に感染するウイルスは、ヒトの腸内の細菌群集を制御する上で重要な役割を担…

染色体外環状DNA(eccDNA)を検出するパイプライン ECCsplorer

Extrachromosomal circular DNAs(eccDNA)は、染色体から物理的に分離したリング状のDNA構造で、100bpから数メガバイトの大きさである。eccDNAは、タンデムに繰り返されるDNAの他に、遺伝子のコピーや最近活性化したトランスポゾームエレメントを持つことが…

ヒトゲノム領域の包括的エンリッチメント解析ソフトウェア GREAP

ゲノムのハイスループットシーケンスの急速な発展により、豊富なエピジェネティクスマーカーを持つDNA制御要素が多数同定され、機能性ゲノム領域データの急速な蓄積が促進されている。ヒトの機能性ゲノム領域の網羅的な理解と研究は、現在でも比較的急務の課…

ノイズの多いロングリードの高感度で高速なマッピングを行う kngMap

PacBioやOxford Nanoporeのような1分子シーケンスの急速な発展に伴い、出力されるリードの長さは増加し続けており、最先端のゲノムアプリケーションに劇的な可能性を与えている。これらのリードをリファレンスゲノムにマッピングすることは、ダウンストリー…

ScrapPaper

本論文では、PubMedやGoogle Scholarの検索結果から雑誌情報を抽出するPythonスクリプト、ScrapPaperを紹介する。現在、このプログラムを開発した動機は、科学文献のタイトルやリンクなどの情報を取得し、リストとして保存してメタ分析や文献の比較研究など…

メタゲノム情報も利用するメタトランスクリプトームアセンブラ MetaGT

メタゲノムシーケンスは、微生物コミュニティのゲノム配列と構成に関する洞察を提供することができるが、メタトランスクリプトーム解析は、微生物コミュニティの機能的活性を研究するために有用であると考えられる。RNA-Seqデータは、コミュニティ内の活性な…

keggcharter

Githubより KEGGCharter は KEGG API と Pathway 機能のユーザーフレンドリーな実装です。特徴は KEGG ID から KEGG Orthologs (KO) への変換、および KO から EC 番号への変換。 主要な分類群の代謝ポテンシャルを KEGG メタボリックマップで表現(上位 10 …

ノイズの多いロングリードを分類する deSAMBA

ノイズの多いロングリードの分類を特定するための高速かつ正確な分類ツールが未だ存在せず、有望なロングリードメタゲノムシーケンス技術の利用におけるボトルネックとなっている。本発表では、de Bruijn graph-based Sparse Approximate Match Block Analyz…

遺伝子近傍の保存性を調べる FlaGs

オペロンや遺伝子群の進化を理解し、機能的な関連を予測するためには、異なる進化段階における遺伝子近傍の保存性を解析することが重要である。このツールFlaGs(Flanking Genesの略)は、NCBIのタンパク質アクセッションのリストを入力とし、近傍にコードさ…

メタゲノム解析のための自動化されたワークフロー MAGNETO

2022/06/17 誤字修正 メタゲノム-アセンブルゲノム(MAG)は、メタゲノムデータから回収された個々のゲノムを表す。MAGは、未培養微生物のゲノム多様性の解析や、自然環境における機能・代謝の可能性を明らかにするために非常に有用である。近年の計算機開発…

ロングリードのアセンブルとエラー訂正によるコンセンサス配列の生成パイプライン MAECI

ナノポアシーケンスは長いリードを生成し、特にドラフト細菌ゲノムのアセンブリにおいて、次世代シーケンシングと比較してユニークな利点を提供する。しかし、データの特性やアセンブリアルゴリズムに起因するアセンブリエラーが発生することがある。これら…

アセンブリの内容をどれだけ反映したコールであるかに基づいてSVコールを評価する TT-Mars

大規模なシークエンス研究により、一般的な構造バリアント(SV)やレアバリアントなどの遺伝子バリアントと形質や疾患との関連付けが可能になった。SVには、欠失、挿入、重複、50塩基以上のリアレンジメントが含まれ、これらは遺伝的多様性、発達障害、ガン…

メタゲノム由来配列のインサートライブラリのアセンブリアーノテーションツール MINTIA

地球上には、多様な生態系に適応した何兆もの細菌種が存在している。固有の代謝機能を獲得することで、多様な生態系に適応している。これらの機能を担う遺伝子の多くは未培養のバクテリアに属しており、まだ発見されていない。機能的活性スクリーニングに基…

ロングリードcDNAシーケンスも利用できる真核生物ゲノムの自動化されたアノテーションツール LoReAn

1分子完全長相補DNA(cDNA)配列決定は、転写産物の構造やスプライス形態を明らかにすることで、ゲノムアノテーションを支援することができるが、現在のアノテーションパイプラインにはそのような情報が組み込まれていない。本研究では、ロングリードアノテ…

SeqWho

シーケンサー技術の大幅な向上とプロトコルの増加により、シーケンサーは複雑な生物学的問題に答えるために使用されるようになってきた。それに伴い、解析パイプラインはより時間と複雑さを増し、通常、非常に大規模な事前検証ステップを必要とするようにな…

plotsr

第3世代のゲノム解読技術により、高品質のゲノムアセンブリの数が急激に増加している。このため、個々の生物種の複数のアセンブルゲノムを比較することが可能になり、その構造的特性を可視化するための新しいツールが求められている。ここでは、ゲノム間の構…

機械学習と意味的類似性によってGene Ontologyのアノテーションを行う CrowdGO

ますます増加し多様化するゲノム上の遺伝子機能の解析は、ほぼ全て計算機による予測手法に依存している。また、これらのソフトウェアは、コミュニティーのベンチマーク活動を通じて明らかにされたように、それぞれ異なる長所と短所を持っており、多数かつ多…

ABRIDGE

技術の進歩により、シークエンシングマシンは膨大な量の遺伝子データを生成するようになり、ストレージの需要が増加している。多くのゲノム解析ソフトウエアは、リードアライメントをトランスクリプトームアセンブリや遺伝子数推定などの目的で利用している…

ショートリードから全ゲノム系統樹の自動再構築を行う REALPHY

微生物の進化動態の研究は、手頃な価格のハイスループットシーケンス技術の利用により、一度の研究で何百もの関連する分類群の全ゲノム配列の解読が可能となり、大きく変貌を遂げてきている。一般に、これらの分類群の系統樹を再構築することは、あらゆる進…

超高速で高精度なアンプリコンシークエンス解析ツール LotuS2

2023/04/21 追記 アンプリコンシークエンスは、マイクロバイオームのプロファイリングにおいて確立されたコスト効率の高い手法である。しかし、このデータを処理するための多くのツールは、大きなデータセットを処理するためにバイオインフォマティクスのス…

Minhashをメタゲノム解析へ応用する CMash

Minhashは、2つの集合の類似性をJaccard指数(集合の和に対する交点の大きさの比として定義される)の観点から推定する確率的な手法である。この手法は、対象となる集合の大きさが似ている場合に最も優れた性能を発揮し、集合の大きさが大きく異なる場合には…

De novoトランスクリプトームアセンブリで誤ってアセンブリされたキメラ転写産物を除去する Bellerophon

トランスクリプトームの品質管理は、RNA-Seq実験において重要なステップである。しかし、de novo アセンブルされたトランスクリプトームの品質を評価することは、アセンブルを比較するリファレンスゲノムがないために困難である。本著者らは、キメラ配列の除…

機械学習を利用してゲノムアセンブリ品質を総合的に評価する EvalDNA

興味のある生物に対して最も完全で、継続的で、正確なアセンブリを選択するためには、アセンブリの包括的な品質評価が必要である。本著者らは、Evaluation of De Novo Assemblies (EvalDNA)という新しいツールを開発した。このツールは、教師付き機械学習を…

ハイスループットシーケンシングデータから既知のヒトキメラ配列を迅速かつ正確に同定する ChiTaH

融合遺伝子やキメラは、通常、2つの異なる遺伝子からの配列で構成されている。このような融合配列のキメラRNAは、しばしばガンのドライバーとして機能する。このようなドライバーfusionを特定することは、診断や治療に重要である。DNA-SeqやRNA-Seqなどの次…

転写産物の正確な翻訳と評価を行う TranSuite

タンパク質の翻訳プログラムでは、転写産物の中で最も長いオープンリーディングフレーム(ORF)が選択されることが多いため、データベースには不正確なORFや誤ってアノテーションされたORFが多数存在する。早期終止コドン(PTC)を含む非生産的な転写産物の…