macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

2021

包括的かつ品質管理されたタンパク質間相互作用のデータベース STRINGデータベース

2021 11/8 タイトル修正 細胞の生命活動は、生体分子間の複雑な機能的相互作用によって成り立っている。その中でも、タンパク質-タンパク質間の相互作用は、その多様性、特異性、適応性から特に重要である。STRINGデータベースは、物理的相互作用と機能的相…

タンデムリピートとその周辺のリードアラインメントをハプロタイプに分解して可視化する REViewer

2021 10/27、20/28追記 ショートタンデムリピート拡張は、家族性筋萎縮性側索硬化症やハンチントン病をはじめとする多くの神経遺伝性疾患の原因となっている。最近では、全ゲノムやエクソームのシーケンスデータからリピートの拡大を同定する方法が複数開発…

包括的なマイクロRNAおよびtRFシーケンシング解析パイプライン miRge3.0

マイクロRNAとtRFは、遺伝子の翻訳制御に関与することで知られる低分子ノンコーディングRNAの一種である。次世代シーケンサー(NGS)の進歩により、high-throughput small RNA-seq研究が可能になったが、これには強固なアラインメントパイプラインが必要であ…

原核生物ゲノム中の偽遺伝子候補を検出する Pseudofinder

2022/07/09 論文引用 原核生物のゲノムは一般的に遺伝子密度が高く、偽遺伝子(機能していない、あるいは不活性化された遺伝子の残骸)は比較的少ない。しかし、近年の生態系の変化や、共生生物や病原体が経験したような極端な個体数の減少など、特定の状況…

シアノバクテリアのキュレーションされた16S rRNA遺伝子のwebデータベース Cydrasil 3

シアノバクテリアは、広く普及している重要な細菌門であり、地球上の炭素・窒素固定のかなりの部分を担っている。しかし、シアノバクテリアの16S rRNA遺伝子配列の信頼性の高い正確な自動分類は、相反する体系的なフレームワーク、一貫性のない分類学的な定…

スケーラブルなインフラ上での比較ゲノミクスサービス EDGAR3.0

EDGARプラットフォームは、何千もの微生物ゲノムの事前計算されたオルソロジーデータのデータベースを提供するウェブサーバーで、比較ゲノミクスおよび系統学の分野で最も確立されたツールの一つである。EDGARは、事前に計算された遺伝子アラインメントに基…

ハプロタイプresolved のSNV、SV、およびメチル化を包括的に検出するPRINCESS

ロングリードシーケンスは、構造変異(SV)の検出やメチレーションコールに有利であることが示されている。多くの研究では、SV、メチル化、またはSNVのphasingのいずれかに焦点が当てられているが、バリアントの組み合わせによってのみ、サンプルに関する包…

アンサンブル学習による病原性配列の正確で高感度な機能スクリーニングを行う SeqScreen

2022/06/23 論文引用 2023/04/3 関連論文へのリンク 現代の卓上DNA合成技術と新興病原体への関心の高まりにより、懸念される病原体に対するオリゴヌクレオチドのスクリーニングの重要性が高まっている。しかし、オリゴヌクレオチドの正確で高感度な特性評価…

コンポジション、カバレッジ、アセンブリグラフによるメタゲノムビニングを行う MetaCoAG

2021 10/8 追記 メタゲノムビニングにより、様々な種の様々な遺伝物質を研究し、特性を明らかにし、微生物群集についての洞察を得ることができるようになった。既存のビニングツールはメタゲノミクスのde novoアセンブリをビニングするが、アセンブリグラフ…

深層学習に基づく真核生物配列の分類ツール Tiara

多くのメタゲノムデータが利用可能になるにつれ、真核生物のメタゲノム解析が新たな課題として浮上してきた。真核生物の核およびオルガネラのゲノムを適切に分類することは、真核生物の多様性をより深く理解するために不可欠なステップである。 メタゲノムデ…

バクテリアのゲノム縮小のための遺伝子必須性予測と欠失の設計を行う DELEAT

2021 10/7 追記 遺伝子の必須性を研究することは、生命の基本原理を理解する上で基本的なことであり、また多くの分野で応用されている。ここ数十年の間に、さまざまな実験やバイオインフォマティクスの手法を用いて、何十もの必須遺伝子セットが決定され、こ…

生物の生存に不可欠な遺伝子のデータベース DEG(バージョン15アップデート)

必須遺伝子とは、生物が特定の条件下で生存するために必要な遺伝子のことである。バクテリアの最小遺伝子セットの研究では、生命を維持するための基本的な細胞プロセスが解明されている。この5年間、CRISPR/Cas9をさまざまな種類のヒト細胞に適用することに…

RNA-Seqデータ解析のためのスタンドアローンおよびクラウドベースのシステム RNAdetector

2022 1/18追記 RNA-Seqはトランスクリプトームプロファイリングに広く用いられている技術であり、コーディングおよびノンコーディングRNA分子の解析が可能である。しかし、この技術は、Real-Time PCRやマイクロアレイなどの他の伝統的な技術に比べて、解析に…

リファレンスゲノム情報を半教師あり深層学習で取り込むことで、より優れたビニングを実現する SemiBin

2022/02/09 ツイート追記 2022/02/27 追記 2022/03/01 help更新 メタゲノムビニングとは、メタゲノムアセンブルゲノム(MAG)を構築する際に、同一ゲノムに由来すると予測される配列を自動的にグループ化するステップである。最も広く利用されているビニング…

NGSデータのクオリティフィルタリングパイプライン ngsComposer

2021 9/30 追記 次世代シーケンサー(NGS)は、大規模なオミックスデータの大量並列収集を可能にするが、客観的なデータ品質のフィルタリングパラメータは不足している。プラットフォームが生成するPhred値は有用な指標ではあるが、塩基ごとのクオリティスコ…

ロングリードのシミュレータ PBSIM2

近年、PacBioやOxford Nanoporeなどのハイスループットのロングリードシーケンサーが登場し、ショートリードシーケンサーに比べてエラーの多いロングリードが生成されるようになった。リードのエラー率の高さに加えて、エラーの不均一性は、ロングリードを用…

メタゲノムアセンブリのbin配列を評価する metashot/prok-quality

メタゲノムシークエンスにより、大規模なゲノムの同定とゲノムの特性解析が可能になる。Binningとは、未知の細菌や古細菌の配列断片(メタゲノムコンティグ)の複雑な混合物からゲノムを回収するプロセスである。メタゲノムから回収したゲノムの品質を評価す…

16S rRNA塩基配列データから超可変領域を抽出する HyperEx

16SリボソームRNA遺伝子は、生物学において最も研究されている遺伝子の一つである。この16SリボソームRNAの重要性は、細菌や古細菌の系統学や分類学上の解明に広く応用されていることによる。実際、16SリボソームRNAは、ほとんどすべてのバクテリアや古細菌…

機械学習の手法でエミュレートされたBWA-MEM: BWA-MEME

次世代シーケンサーの普及やシーケンサーのスループットの向上に伴い、効率的なショートリードのアライメントが求められているが、その中でもシーディングは主要な性能ボトルネックの一つとなっている。Seeding phaseのキーとなるチャレンジは、リファレンス…

elPrep 5を使ったバリアントコール

GATK Best Practices for variant callingに完全対応したelPrep5 (紹介) には、大きく分けて2つのモードが用意されています。1つ目は完全にRAM内で動作する(フィルタ)モードで、これは中間ファイルを全く書き出さず完全にRAM内で計算を進めるため、非常…

ロングリードを使ったSNVとSVのフェーシングを行う LongPhase

ロングリード・フェーシングは、二倍体ゲノムの再構築、バリアント・コーリングの改善、メタゲノミクスにおける微生物株の解決などに用いられてきた。しかし、既存の手法では、大きな構造変化(Structural Variation: SV)によって位相差ブロックが破壊され…

公開されているプラスチドゲノムのアノテーションとinverted repeatsを調べる airpg

2021 9/18 使い方を理解していなかったので一旦コマンドは消去 ほとんどの顕花植物では、プラスチドのゲノムは、大小のシングルコピーと2つの逆方向反復配列領域からなる4分割構造をしている。近年、何千ものプラスチドのゲノムが配列決定され、公的な配列リ…

(Prokaryotes)ドラフトゲノムのポリッシングを行う Polypolish

2021 10/21 論文引用 Githubより Polypolishはショートリードによるゲノムアセンブリを研磨するツールです。このカテゴリーの他のツールとは異なり、Polypolishは各リードが(単一の最適な位置ではなく)すべての可能な位置にアラインメントされたSAMファイ…

大規模な微生物の比較ゲノミクスのためのモジュラー式のツール PanACoTA

2021 9/8 修正 2021 9/9 誤字修正 2021 9/10 prokkaのバージョンによるエラー修正 (依存するライブラリの関係でpython3.7の環境に導入するように修正した), --prodigalのオプション消去 2021 10/15 docker imageのコマンド追記 2021 10/18 annotate追記 2021…

タンパク質配列を使って ロングリードのフレームシフトエラー修正を行う Proovframe

精度は向上しているものの、ロングリードデータの基本的な遺伝子予測は、small indelsから生じるフレームシフトによって損なわれることが多い。相補的なショートリードやロングリードを用いたコンセンサスポリッシュは、この影響を軽減することができるが、…

大量のタンデムリピート構造を含むゲノムをインタラクティブに可視化する StainedGlass

2022/01/13 論文引用 ドットプロット解析は、配列の同一性や方向性の違いのような複雑なリピートの基礎構造を明らかにするためによく用いられる。ロングリードシーケンス技術の進歩により、最近ではますます連続したリファレンスゲノムのアセンブリやヒトの…

Scaffold情報を用いてメタゲノムビンの連続性と質の向上を行う Binnacle

ハイスループットシーケンシングは微生物学の分野に革命をもたらしたが、メタゲノムショットガンシーケンシングデータから生物の完全なゲノムを再構築することは依然として困難である。回収されたゲノムは、生物の存在量の不均一性、ゲノム内およびゲノム間…

病原性細菌の比較トランスクリプトームおよび共発現データベース bacteria.guru

細菌は単細胞の原核生物であり、相互作用から寄生まで様々な共生関係を築くことができる。細菌の病原性に対抗するためには、遺伝子の機能と制御に関する理解を深めることが必要であり、それが新しい抗菌薬の開発につながる。 Gene expressionは遺伝子の機能…

(ヒトゲノム)超高速なk-mer問い合わせwebサービス KmerKeys

2022/05/21 論文引用 K-merは、ゲノム配列解析に使用される短いDNA配列である。K-merを使ったアプリケーションには、ゲノムアセンブリやアラインメントがある。しかし、バイオインフォマティクスの分野でk-merを広く利用するには、ゲノム配列データの巨大化…

原核生物のトランスポゾンデータベースとトランスポゾン解析のためのウェブポータル TnCentral

原核生物のトランスポゾンエレメント(TE)のウェブリソースであるTnCentral(https://tncentral.proteininformationresource.org/)の構造と組織について説明する。TnCentralには、Tn3、Tn7、Tn402、Tn554ファミリーのトランスポゾン、複合トランスポゾン、…