macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

deep neural network

グラフニューラルネットワークを用いてタンパク質機能予測を行う PANDA2

ハイスループットなシークエンス技術により、大量のタンパク質配列が生成されているが、タンパク質配列のアノテーションは、低スループットで高価な生物学的実験に大きく依存している。そのため、タンパク質配列から機能的な知識を推測するために、正確かつ…

グラフ畳み込みネットワークによりタンパク質の機能予測を行う DeepFRI

配列データベースに登録されるタンパク質数の急増とその機能の多様化により、自動的な機能予測のための計算機によるアプローチが課題となっている。本発表では、タンパク質言語モデルとタンパク質構造から抽出した配列特徴を利用して、タンパク質の機能を予…

ハプロタイプを考慮してロングリードシーケンスからマッピング困難な領域のSNPやインデルを正確に検出する NanoCaller

ロングリードシーケンスでは、ショートリードシーケンスではマッピングが困難とされているゲノム領域でのバリアント検出ができる。この手法では、長距離ハプロタイプ情報を用いてSNPを検出し、検出されたSNPとロングリードを位相合わせし、ローカルリアライ…

機械学習と意味的類似性によってGene Ontologyのアノテーションを行う CrowdGO

ますます増加し多様化するゲノム上の遺伝子機能の解析は、ほぼ全て計算機による予測手法に依存している。また、これらのソフトウェアは、コミュニティーのベンチマーク活動を通じて明らかにされたように、それぞれ異なる長所と短所を持っており、多数かつ多…

アミノ酸配列からググってタンパク質の機能を調べる ProteInfer

アミノ酸配列からタンパク質の機能を予測することは、バイオインフォマティクスの長年の課題である。従来の手法では、配列アライメントを用いて、クエリ配列を何千ものタンパク質ファミリーのモデルや個々のタンパク質配列の大規模データベースと比較する。…

生合成遺伝子クラスターを高精度にde novo同定する GECCO

生合成遺伝子クラスター(BGC)は、医療やバイオテクノロジーに利用可能な新規かつ特殊な代謝物をコードしている可能性があるため、(メタ)ゲノムマイニングの魅力的なターゲットとなっている。本稿では、条件付きランダムフィールド(CRF)を用いて、メタ…

メタゲノム、メタトランススクリプトーム、ncRNAのシークエンシングデータからrRNA配列を正確かつ高速に検出・除去する RiboDetector

2022/03/11追記 トランスクリプトームやトランスラトーム技術の進歩により、RNAの活性プロファイルやRNAによる制御機構を深く研究することが可能になった。リボソームRNA(rRNA)配列は細胞内RNAの中で非常に豊富に存在するが、ターゲット配列にポリアデニレ…

メタゲノムデータに適用可能な機械学習モデル SignalP 6.0

シグナルペプチド(SP)は、すべての生物において、タンパク質の分泌や移動を制御する短いアミノ酸配列である。SPは配列データから予測することができるが、既存のアルゴリズムでは既知のSPの種類を全て検出することはできない。本稿では、5種類のSPをすべて…

深層学習に基づく真核生物配列の分類ツール Tiara

多くのメタゲノムデータが利用可能になるにつれ、真核生物のメタゲノム解析が新たな課題として浮上してきた。真核生物の核およびオルガネラのゲノムを適切に分類することは、真核生物の多様性をより深く理解するために不可欠なステップである。 メタゲノムデ…

メタゲノムアセンブリの品質評価を行う DeepMAsED

アセンブリーの品質を評価する手法の多くは、リファレンスゲノム(アセンブリを比較するためにキュレートされたゲノムのセット)を必要とする。そのような手法として、コンティグを1つ以上のリファレンスゲノムにマッピングして、逆位、リアレンジメント、種…

ウィルスメタゲノムのビニングのための効率的な深層学習ツール CoCoNet

メタゲノム解析は、微生物群集の特徴を明らかにし、マイクロバイオームと生物学的プロセスの複雑な関連性を解明する可能性を秘めている。アセンブリは、メタゲノミクス実験において最も重要なステップの1つである。アセンブリとは、重複するDNAシーケンスリ…

nf-coreのDeepVariantパイプライン

nf-core/deepvariantより 2017年12月にGoogleブレインチームがDeepLearningをベースにしたVariant Caller, DeepVariantをリリースした。DeepVariantはまずBAMファイルに基づいて画像を構築し、次にDeepLearningの画像認識アプローチを使用してバリアントを取…

Deep learningによって高速かつ精度の高いオーソロガスタンパク質のアサインメントを行う DeepNOG

タンパク質オロソログ群データベースは、進化解析、機能アノテーション、または系統を超えた代謝パスウェイのモデリングのための強力なツールである。また、配列は通常、プロファイル隠れマルコフモデルなどのアライメントベースの手法でオーソロガスなグル…

ディープニューラルネットワークベースのシグナルペプチド予測ツール SignalP 5.0

2022/1/5 URL修正 シグナルペプチド(SP)は、新しく合成された多くのタンパク質のアミノ末端にある短いアミノ酸配列で、タンパク質を膜内に、あるいは膜を越えて標的とするものである。バイオインフォマティクスツールはアミノ酸配列からSPを予測することが…

ONTのロングリードアセンブリをポリッシュする PEPPER

2021 12/24 ツイート追記 P.E.P.P.P.E.R.は、オックスフォード・ナノポア・シークエンシング技術で動作するように設計されたディープ・ニューラル・ネットワーク・ベースのポリッシャーである。P.E.P.P.E.R.は、各ゲノム位置のサマリー統計からコンセンサス…

データベースのゲノム情報とAMR耐性/感受性情報から細菌のAMR表現型を予測する VAMPr

2020 3/37 タイトル修正 Antimicrobial resistance(AMR)は、公衆衛生に対する脅威の増加である。 AMRを決定する現在の方法は、非効率的な表現型アプローチに依存しており、多くの病原体と抗菌薬の組み合わせのAMRメカニズムの理解が不完全なままとなってい…

体細胞変異を検出する NeuSomatic

体細胞変異はガンの発生、進行、および治療における重要なサインである。体細胞変異の正確な検出は、腫瘍とノーマルの交差汚染、腫瘍の異質性、シークエンシングアーティファクト、およびカバレッジのために困難である。一般に、前述の問題で発生する誤検出…

メタゲノムのデータセットからコアオペロンを探索する POEM

オペロンはDNAの機能単位であり、その遺伝子はポリシストロン性mRNAとして共転写される。オペロンは、細菌に機能的複雑さをもたらす強力なメカニズムであり、したがって微生物の遺伝学、生理学、生化学、および進化から関心がある。全ゲノム中のオペロンを同…

(ヒトゲノム向け)ニューラルネットワークを使用したロングリードのSVコーラー NanoVar

構造変異は、多くのヒト疾患の発症に関与しており、ヒト集団の遺伝的変異の大部分を占めている(ref.3,4)。 50 b5を超えるゲノム変化として定義される構造変異(SV)は、遺伝子調節異常または新規遺伝子融合を引き起こす可能性のある遺伝子病変を形成するこ…

ニューラルネットワークを使ってONTのロングリードの低クオリティ領域を除く MiniScrub

Pacific Biosciences [ref.1]やOxford Nanopore [ref.2]のような企業のシーケンシング技術がゲノムアセンブリ[ref.1]、[ref.10]、抗菌剤耐性遺伝子[ref.18]、個人用トランスクリプトームシーケンシング[ref.19]、およびドラフトゲノム[ref.20]の改善に寄与し…

メタゲノムcontigのビニングとアノテーションwebサーバー BusyBee Web

メタゲノムシーケンシング、すなわち微生物混合群集から無差別に抽出されたDNAの全ゲノムシーケンシングは、分類学的組成および環境マイクロバイオームの機能的可能性を研究するために首尾よく使用されてきた(ref.1-4)。従来の単離培養工程の独立性は、費…

ディープCNNによってONTのバーコーディングロングリードをdemultiplexingするdeepbinner

Multiplexing(バーコード)は、ハイスループットDNAシーケンス能力を複数のサンプルに分散させるために使用される一般的な方法である[ref.1]。各入力DNA試料について、独自のバーコードがシーケンシング用に調製されたDNA分子のライブラリーに組み込まれる…

推定antibiotic resistance genes を予測するDeepARG

2019 7/5 dockerタグ修正 2019 9/25 インストール追記 2022/09/09 追記 抗生物質耐性は緊急かつ高まる世界的な公衆衛生の脅威である。抗生物質耐性による死亡者数は、2050年までに年間1000万人を超え、世界中で約100兆米ドルかかると推定されている[ref.1-3]…

メタゲノムのアセンブリ配列からプラスミド配列を予測する PlasFlow

プラスミドは、変化する環境条件下で急速な進化とそれらの宿主の適応を促進するmobile genetic elementsである(ref1,2)。プラスミドは、宿主細胞内で自律的に複製するの染色体外のDNA断片であり、細菌種において広く存在している。既知のプラスミドの大部…

machine leraningも併用するmetagenomeのビニングツール Autometa

2019 4/22 誤字修正 2019 5/6 リンク追記 2019 6/23 ランのstep1,2 の説明修正 2019 9/25 step1のフラグの誤り修正 微生物は、人間を含む地球上のほとんどすべての生物に繋がることが知られており、そこでは微生物は健康、病気および農業に多大な影響を与え…

リファレンスなしでnanopore Direct RNA seqのリードの向きを予測する ReorientExpress

ロングリードシークエンシング技術は、あらゆる種からのトランスクリプトームの体系的な調査を可能にする。ただし、機能評価には5 'から3'への方向を正しく決定する必要がある。 complementary DNA(cDNA)ライブラリーのシーケンシングは、一般に多数のリー…

Nanoporeのsquiggle plot (basecallされたリード含む) のシミュレータ DeepSimulator

2019 4/17 誤字修正 2020 1/30タイトル修正 2020 2/1リンク追加 次世代シークエンシング(NGS)技術により、研究者はDNAおよびRNAをハイスループットでシーケンシングすることが可能になり、これはゲノミクス、トランスクリプトミクスおよびエピゲノミクスに…

ウィルス分類器 viruses_classifier

次世代シーケンシング(NGS)の台頭により、メタゲノムは微生物生態学におけるゴールドスタンダードとなった。その限界、主にウイルス間の普遍的なマーカー遺伝子の欠如にもかかわらず、ウイルスメタゲノミクスはウイルス発見のための主要なツールとなってい…

複数のSVコール結果をマージする FusorSV

欠損、重複、挿入、逆位、コピー数変化、転座などの構造変化(SV)は、ヒトの遺伝的多様性の最も重要な決定因子の1つである。 1000ゲノムプロジェクト(1000GP)などのコンソーシアムの取り組みは、典型的なゲノムが2100〜2500のSV(> 50bp)を含み、SNPの約…

ホストゲノムや汚染配列を検出し、分離を助ける PhylOligo

シーケンシング技術の発展により、複雑な非モデル生物ゲノムおよび生物共同体のゲノムをシーケンシングの標的とすることが可能になった。これらの非モデル生物のいくつかは、それらの環境から単離することが困難だったりin vitroでクローン化ができなかった…