macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

堅牢で再現性の高い可視化のための自己デバッグ型マルチモーダルエージェント ggplotAgent

 

 出版物レベルの可視化を作成することはバイオインフォマティクスにおいて不可欠であるが、コーディングの専門知識が限られている研究者にとっては依然としてボトルネックとなっている。大規模言語モデル(LLM)はコード生成に長けているが、ライブラリの依存関係、データセットの不一致、構文エラーなどの理由で実践ではしばしば失敗する。これらの問題は手動での介入を必要とし、データ解釈を遅らせる。本論文では、出版可能なggplot2可視化を自動化する新たなマルチモーダル自己デバッグAIエージェント「ggplotAgent」を提案する。コード実行エラーを解決する二重層フレームワークと、美的な正確性を検証する視覚機能付きエージェントを特徴とする。DeepSeek-V3モデルとのベンチマーク比較において、ggplotAgentは100%のコード実行率(対85%)と「出版可能な」スコア1.9(対0.7)を達成した。驚くべきことに、ユーザーの文字通りのプロンプトを超えてプロットをインテリジェントに強化する「エキスパート協力者」としての能力を示し、ベースライン(−0.05)を+0.3上回る正のインサイトスコアを達成した。これらの結果は、自然言語から直接、正確で高品質な可視化を確実に生成する能力を実証している。ggplotAgentは、公開Webアプリケーション(https://ggplotagent.databio1.com/)およびオフラインStreamlitアプリとして自由に利用できる。ソースコードGitHubhttps://github.com/charlin90/ggplotAgent)で公開されている。本ソフトウェアはMITライセンスのもとで配布される。

 

Github

webサービス

https://ggplotagent.databio1.com/ にアクセスする。

 

レポジトリでは、よくある作図例としてvolcano plot、Violin plot、Heatmap、Box plotが挙げられている。

 

差分解析結果の遺伝子名、log2 fold change, FDRがあるCSVを準備する。

レポジトリの例: https://github.com/charlin90/ggplotAgent/blob/main/examples/volcano_example.csv

 

ファイルをアップロードする。

 

適切なプロンプトで指示する。

レポジトリの例:

Generate a publication-quality volcano plot with the x-axis representing log2 Fold Change and the y-axis representing -log10 FDR. Color points red for significantly upregulated features (log2FC > 1 and FDR < 0.05), blue for significantly downregulated features (log2FC < -1 and FDR < 0.05), and grey for all others. Add a horizontal dashed line indicating the significance threshold at FDR = 0.05, and vertical dashed lines at log2FC = 1 and -1. Ensure the plot has a clean white background with no grid lines.

 

Generate Plotをクリックして待つ。

 

3分ほどで以下のvolcano plotが出力された。図はPNGとPDFで保存できる。コードも必ず記録しておく。

(examples/volcano_example.csv使用)

 

相関プロット

レポジトリの例:

"Generate a publication-quality correlation plot with points."

(examples/corr_scatter.csv使用)

 

バブルプロット

 

プロット上にラベルされて見にくいのでプロンプトを変更した。

出力

 

さらにこちらの図をリファレンス図として提供した。

出力

 

 

論文より

  • ggplotAgent は、高品質な科学的可視化を民主化するための重要な一歩である。直感的でマルチモーダルなインターフェースと革新的な自己デバッグワークフローを提供することで、研究者は熟練したプログラマーでなくても、複雑なアイデアを再現性の高い論文品質の図に変換することができる。
  • ggplotAgent は大きな可能性を示しているが、考慮すべき制限事項がある。まず、現在の実装は、外部の独自の大規模言語モデルへの API 呼び出しに依存している。これにより、複雑なプロットは複数回のデバッグ反復と計算コストを必要とする可能性があるため、実行時のレイテンシに関連する課題が生じる。
  • リファレンス画像対応のビジョン対応エージェントは高レベルのスタイル(例:全体的なレイアウト)を効果的にキャプチャするが、参照画像から複雑なディテールをすべてピクセル単位で完璧に複製することは依然として大きな課題である。
  • 公開Webサーバーは現在、計算リソースが限られた単一インスタンス上にデプロイされている。大量の同時ユーザーリクエストや大規模なデータファイル(例:シングルセルRNA-seqマトリックス)を処理するには拡張性に欠ける。
  • ggplotAgent の現在のサンドボックス環境は、主に tidyverse と ggrepel を中心とした R パッケージのコアセットに意図的に制限されている。より広範な ggplot2 エコシステムには数百もの拡張パッケージ(例:ggvenn、ggridges)が含まれているが、それらは実行環境にプリインストールされていない。これは制御された機能セット上でコアフレームワークの堅牢性を厳密にテストするための意図的な設計選択となっている。

引用

ggplotAgent: a self-debugging multi-modal agent for robust and reproducible scientific visualization Open Access

Zelin Wang , Yuanyuan Yin , Jien Wang , Haiyan Yan , Xuan Xie , Yiqing Zheng

Bioinformatics Advances, Volume 6, Issue 1, 2026