AgentOps：AIエージェント時代の幕開けとガバナンスについて　～AgentOpsの体系的な理解を目指して～

CONFIDENTIAL
AgentOps
日比宏明
©2022 ARISE analytics Reserved.

アジェンダ
©2022 ARISE analytics Reserved. 1
□□Ops と AgentOps
1
AgentOps の構成要素
2
AgentOps で扱う主な課題と現状の緩和策
3
おわりに
4

AgentOps：AIエージェント時代の幕開けとガバナンス
- 近年の急速なAIの発展によって、AIエージェント時代が幕を開けている
- AIエージェントにおいても、DevOpsやMLOpsなどと同様に、AgentOpsによる効率的
な保守運用や改善作業が行えるような設計が必要である
- しかし、これらの知見はまだ手探りの状態である。
- 本資料では、公開されている様々な情報から、AgentOpsを体系的に理解することを目
指し、その重要性、直面する課題、そして未来について一考する。

進化するOps
新たな技術の出現によって DevOps から LLMOps へ発展していったように、AgentAIの出現によって
AgentAI特化の Ops の導入が必要となっている。
DevOps
専門チームによる
改善活動
MLOps AgentOps
LLMOps
静的な管理対象 + 動的な管理対象
• データセット
• MLモデル
• アプリケーションコード
• インフラストラクチャ (IaC)
• 自律型エージェントモデル
• 利用ツール
• 意思決定プロセス(思考・推論のトレース)
• 基盤モデル
• プロンプト
• ベクトルストア
入力・出力
意思決定プロセス
稼働状況
管理
対象
モニタ
リング
年 2007- 2015- 2020- 2023-
• AI Agent は複数のステップにわたるタスクを外部ツールと対話しながら自律的に実行するため、複数のコンポーネントのオーケスト
レーションに対応する必要がある。
• AI Agent を使用するうえでは最終的な出力だけでなく、それに至るまでの過程が重視されるため、意思決定プロセスも含めた可
視化が重要になってくる。
なぜ従来のOpsでは
不十分なのか？
開発(Dev)と運用(Ops)の連携により、ソフ
トウェアのリリースサイクルを高速化し、信頼性
を向上させる。
機械学習(ML)モデルのライフサイクル
全体を管理し、モデルの再現性と品
質を保証しながら本番環境への導入
を効率化する。
大規模言語モデル(LLM)を活用
したアプリケーションの固有のライフ
サイクルを管理・運用する。
自律型AIエージェントの振る舞いを統制・観
測し、信頼性、透明性、安全性を確保する。
目的

アジェンダ
1
2
3
おわりに
4

AgentOpsの構成要素
AgentOps には、これまでの Ops と同様にいくつかの大きなタスクに分解される。
設計
評価
展開
監視
改善
設計
評価
展開
監視
改善
AgentOpsの重要性 (エージェントシステムの最適化)
動的な行動計画の設計
→ 複雑な目標達成に向けた、自律的な行動の仕組みを設計
行動妥当性の評価
→ 意思決定プロセスを分析し、自律的な行動の適切性を評価
AI Agent の効率的なサービング
→ 複数のツールやAPIと連携した環境を効率的に展開
ガードレールと安全性の監視
→ 意図しない行動やコスト超過を防ぐための意思決定プロセスやポリシーを監視
運用で得られたフィードバックによる改善
→ 本番環境でFBを収集し、学習と改善を継続
AgentOpsのサイクルイメージ各タスクの概要

MLOps vs AgentOps
MLOpsはモデルやモデルの入出力を対象がしているが、AgentOps ではモデルだけでなくシステム全体の最
適化や最終出力までのプロセスに対象が広がっている。
設
計
評
価
展
開
監
視
改
善
MLOpsの重要性 (モデルの最適化)
静的なモデルアーキテクチャ
→ 予測タスクに特化したモデル構造の設計
予測精度の追求
→ モデル単体の性能を評価し、精度向上を目指す
モデルの効率的なサービング
→ パイプラインに組み込み、安定した推論環境を提供
モデルの性能監視
→ データドリフトや性能劣化を検知
オフラインでの再学習
→ 新しいデータでモデルを再学習し、性能を更新
AgentOpsの重要性 (エージェントシステムの最適化)
プロセス妥当性の評価
AI Agent の効率的なサービング
→ 複数のツールやAPIと連携した環境を効率的に展開
→意図しない行動やコスト超過を防ぐための意思決定プロセスやポリシーを監視
運用で得られたフィードバックによる改善
→ 本番環境でFBを収集し、学習と改善を継続

AgentOps の「設計」について掘り下げる
設計
評価
展開
監視
改善設計
AgentOpsのサイクルイメージタスクの概要

設計の要点
Agent システムの設計では、「どのようにエージェントを組み合わせるか」と「どのようなガードレールを導入する
か」が要点となる。
設計展開
評価監視改善
アーキテクチャパ
ターンの検討
責任ある設計
(ガードレールの導入)
シングルエージェント
マルチエージェント
エージェントAIメッシュ
論理的ガードレール
セキュリティガードレール
技術的・運用的ガードレール
設計の要点
単一の自律エンティティが意思決定
単純なタスクに適するが、スケーラビリティに限界がある場合がある
複数の専門エージェントが協調
- 階層型: オーケストレーターがタスクを分解し、ワーカーに委任。責任の所在が明確
- 協調型: 各エージェントが対等な立場で共有メモリ空間に情報を書き込み、集合的に解
決
オーケストレーターによる動的な協調
エージェントが発見可能なサービスとして機能し、オーケストレーターが動的にチーム編成。再利
用性とスケーラビリティを向上
偏見、差別、有害コンテンツ防止 (コンテンツフィルター、モデルアライメント)
プロンプトインジェクション、機密データ漏洩防止 (アクセス制御、データ匿名化)
APIコール上限、コスト上限、人間による承認要求などのビジネスルール
概要

設計
展開
監視
改善
評価評価
行動妥当性の検証
AgentOps の「評価」について掘り下げる。

評価の観点
最終成果だけでなく、ゴールに至るまでのプロセス全体の妥当性、効率性、安全性を多角的に評価する。内
部プロセス（思考の連鎖、ツールの選択など）も評価対象。
設計展開
評価監視改善
評価観点概要
多次元メトリクス
フレームワーク
レイテンシ、コスト、トークン消費量、完了までのステップ数。
効率性とコスト
エラー率、ガードレール発動率。
安全性と信頼性
タスク完了率、正確性・正解率、ツール利用の正当性。
タスクパフォーマンスと
品質
タスクパフォーマンスと品質の評価においてはベンチマークデータセットを使用、
または参考にした独自のデータセットを用いることが良いと思慮

[補足] ベンチマーク
設計展開
評価監視改善
一般的なタスク
における評価
WebArena ウェブサイト上での自律的なタスク遂行能力の評価 https://webarena.dev/
専門的なタスク
における評価
汎用的な評価
AgentBench
GAIA 実世界の問題解決能力を問うベンチマーク
https://huggingface.co
/gaia-benchmark
汎用的なタスクにおけるLLMエージェントの能力評価
https://github.com/TH
UDM/AgentBench
ToolBench 外部ツール（API）の利用能力評価
https://github.com/Op
enBMB/ToolBench
MLE-bench 機械学習エンジニアリング能力の評価
https://github.com/op
enai/mle-bench
PaperBench 研究論文の理解と実験の再現能力の評価
https://openai.com/ind
ex/paperbench/
MMAU 複数領域にわたるエージェント能力の網羅的な評価
https://github.com/ap
ple/axlearn/tree/main/
docs/research/mmau
評価観点ベンチマーク概要リンク

設計
評価
監視
改善
展開
展開
ツール連携の動的な管理
→ 複数のツールやAPIとの連携を設計し、複雑な相互作用を管理
AgentOps の「展開」について掘り下げる

展開の要点
設計展開
評価監視改善
一般的なDevOps, MLOpsなどと同様のため省略

設計
評価
展開
改善
監視
監視
→ 意図しない行動やコスト超過を防ぐためのポリシーを監視
AgentOps の「監視」について掘り下げる

可観測性への拡大
AgentOpsとその他Opsの決定的な違いとしてプロセスの監視があげられる。
設計展開
評価監視改善
DevOps MLOps AgentOps
LLMOps
- The Four Keys
- デプロイ頻度、
- 変更リードタイム
- 変更障害率
- サービス復元時間
- …
- モデル精度
- データ/コンセプトドリフト
- 推論速度
- …
- トークン使用量/コスト
- ハルシネーション/有害性検出率
- プロンプト性能
- RAG品質 (文脈関連性など)
- …
- タスク成功率
- ツール呼び出し成功率/レイテンシ
- タスク毎のコスト
- …
- エージェントの実行トレース (意思
決定プロセス)
(なし)
事前定義された
メトリクスの監視
動的振る舞いの
可観測性
メトリクス監視: 事前に定義されたメトリクスを追跡し、「何の」問題が発生したかを通知。
可観測性: システムの状態について任意の問いを発し、「なぜ」問題が発生したのかを理解するためのデータを収集・分析する能力。
ポイント

[補足] 主要な可観測性プラットフォーム
AgentOps.ai
[https://agentops.ai/]
エージェントのセッションリプレイ、メトリクス分析、コスト追跡を提供する統合監視プラットフォーム。CrewAI、AutoGenなど複数のフレームワークとシームレスに連携。
LangSmith (LangChain) [https://www.langchain.com/langsmith]
LLMアプリケーションのデバッグ、テスト、評価、モニタリングを支援。詳細なトレースとパフォーマンス分析を提供し、エージェントチェーンの可視化を実現。
OpenTelemetry
[https://opentelemetry.io/]
分散システム向けの標準化された可観測性フレームワーク。エージェントの動作ログ、メトリクス、トレースの収集と分析を可能にする基盤技術。
可観測性を向上させる技術
※ その他 AI agent 関連技術に関しては参考資料#1 を参照
設
計
展
開
評
価
監
視
改
善

設計
評価
展開
監視
改善改善
リアルタイムなフィードバックループ
→ 本番環境での行動ログを即座に分析し、学習と改善を継続
AgentOps の「改善」について掘り下げる

改善の目的
AgentOpsにおいては以下の観点での改善活動があげられる。
設計展開
評価監視改善
エージェントの
性能改善
セキュリティと
論理の確保
コストの
最適化
目的
プロンプトエンジニアリングの最適化
LLM の性能改善
ツールの連携強化
不適切な振る舞いの検出
権限の管理
API利用料の監視
リソース配分の最適化
エージェントのタスク実行能力を向上させるために、指示やコンテキストの与え方を調整します
特定のタスクに合わせて基盤となるLLM（大規模言語モデル）をファインチューニングし、応答の
精度や質を高めます。
エージェントが利用できる外部ツール（API、データベース、Web検索など）を増やし、より複雑な
タスクに対応できるようにします
ハルシネーション（事実に基づかない応答）やセキュリティ上のリスクとなる振る舞いを検知・防止
する仕組みを導入します。
エージェントに与えるアクセス権限を最小限に抑え、不正な操作を防ぎます。
LLMのAPI利用料など、エージェントが利用するリソースのコストを監視し、無駄な利用を削減しま
す。
エージェントのタスクに応じて計算リソースを動的に調整し、効率的な運用を目指します。
実施内容概要

改善のためのFB
AI エージェントの性能改善の指標として、3つの観点でデータを収集機能を準備しておくと良い。
設計展開
評価監視改善
How to get FB
FB
ソース
明示的 FB
ユーザーによる高評価/低評価、
直接的な訂正
暗黙的 FB
ユーザー行動からの推測 (商品
購入、対話放棄など)
システム FB
タスク成功率、エラー率、レ
イテンシなどの運用メトリクス
明示的FB
の例
承認/検証
エスカレーション/
フォールバック
データラベリング
と洗練
リスクの高いアクション実行前の人間による
確認において、どの程度・どのような内容が
承認・却下がされるか記録する。
エージェントに自信がなく、人間へ引き継い
だケースを記録する。
人間が応答をレビューし、誤り訂正や高品
質な応答を付与する。
明示的FB の例

アジェンダ
1
2
3
おわりに
4

再現性の危機想定外の病的ループ
経済的不安定性新たなセキュリティ脅威
AgentOpsで対面する主な課題
2
1

課題#1：再現性の危機
Agent AI では様々な要因によって再現性が確保できなくなってしまう可能性があるため、あらかじめ
予防策を実施しておく必要がある。
課題 #1
LLMの確率的性質
実行するたびに内容のテキストを生成する可能性
があり、エージェントの行動を変化させてしまう
課題 #2
外部環境の動的変化
APIを通じて外部の常に変化する情報源(株価、
天気など)にアクセスするため、昨日と今日でエー
ジェントの行動が変化してしまう。
課題 #3
エージェントの内部状態の変化
対話の履歴や過去のタスク実行結果を記憶し、
次の行動決定に使用しているため、同じ状態を再
現することが困難になります。
緩和策 #1
統計的評価
複数回のテスト実行を通じた成功率、ステップ数分布、
エラー種別の測定。
緩和策 #2
可観測性の確保
タイムトラベルデバッグやセッションリプレイ機能の導入
再現性が得られない要因となる課題再現性の危機に対する緩和策の例
…

課題#2：想定外の病的ループ
AgentAIの思考が袋小路に陥ってしまうことによる無限ループなど、予期せぬ振る舞いに対して予
防・監視する仕組みを導入する必要がある。
課題 #1
無限ループ
エージェントの「思考」が袋小路に陥る「認知的ループ」（例：ツール失敗ループ、ハルシネー
ションカスケード、過剰なタスク分解）。
緩和策 #1
ベンチマーキング
GAIAやAgentBenchのような標準化されたベンチマー
クの活用
緩和策 #4
LLM-as-a-Judge
LLMを評価者として利用し、評価プロセスを最適化させ
る
緩和策 #2
トピカル/行動ガードレール
特定のトピックや不適切な行動を制限（例：NVIDIA
NeMo Guardrails）
緩和策 #5
Human-in-the-Loop (HITL)
人間が評価基準の妥当性を検証したり、判断が難しい
ケースをレビューしたりする。
緩和策 #3
サーキットブレーカーパターン
外部ツール呼び出しの失敗を監視し、一定期間呼び
出しを停止することで、失敗ループを防ぐ）
緩和策 #6
階層型エージェントアーキテクチャ
「マネージャー」エージェントが「ワーカー」エージェントの活
動を監督し、堅牢性を高める
…
…

課題#3：経済的不安定性
コントロールが難しいAgentAIにおいて、そのワークフローに特化した FinOps の構築や、管理・制御
がしやすいアーキテクチャを構築することが重要である。
課題 #1
「トークン爆発」問題
LLMの使用量増加によるコストの指数関数的増加。
課題 #2
制御不能なループ
認知的ループが「制御不能な課金ループ」となり、多
大なコストを発生させる可能性がある。
緩和策 #1
トークン予算と最適化
タスクごとのトークン数や実行ステップ数に上限を設定。
プロンプト圧縮、応答キャッシングによるトークン消費の
最適化。
緩和策 #2
リアルタイムコスト監視とアラート
コストを特定のコンポーネントに細分化し、予算超過
時にアラートを発する。
経済的不安定性の要因となる課題経済的不安定性に対する緩和策の例
緩和策 #3
実行制御と権限管理
利用可能なツールやAPIコール数に制限を設ける、
エージェントごとに権限レベルを設定するなど、高コスト
な処理の実行を制限する
…

課題#4：新たなセキュリティ脅威
2
5
エージェントがツールを利用して外部環境に作用する能力が、新たな深刻なセキュリティリスクをもたらす可能
性がある。
課題 #1
AI Agent特有のサイバー攻撃
プロンプトインジェクション、データ漏洩/流出、過剰な権限
行使（Excessive Agency）、モデルポイズニングなど
緩和策 #1
Policy-as-Code (PaC)
RegoやCedarのような言語でエージェントの権限を
コードとして定義・強制。
緩和策 #3
自動化されたレッドチーミング
ぺネストレーションテストや、別のAIを攻撃者として用い
るなど、脆弱性を発見・防御策を講じる
セキュリティに関連する課題 AgentSecOps の導入による緩和策の例
緩和策 #2
トレーサビリティの確保
思考プロセスや実行ログに関して全てのエージェントの
ログを一元的に管理し、全体の流れを可視化
…

アジェンダ
1
2
3
おわりに
4

おわりに
本資料のまとめ
AIエージェントの自律性が高まる中、その信頼性、透明性、安全性を確保するためのAgentOpsが不可欠であり、従来の
運用（Ops）とは異なり、動的な管理対象と向き合う必要がある。その中で向き合う主な課題としては、非決定論的振る
舞い、意思決定プロセスの病的な振る舞いの制御・管理、コスト、セキュリティなどがあり、それぞれの課題の緩和策についても
様々な取り組みが試されている。
今後について
将来的には、AIエージェントが自身の運用を自己監視し、最適化する「自己修復的なOps」へと進化していく可能性も考え
られます。しかし、その段階に至るまでには、人間がAIの振る舞いを理解し、信頼し、そして最終的な責任を負うための堅牢
なフレームワークが不可欠です。DevOpsからAgentOpsへと続くこの進化の道筋は、そのための基盤を築く、現在進行形の
挑戦といえるでしょう。

参考資料

参考#1
DevOps について
• https://seleck.cc/devops
• https://newrelic.com/devops/what-is-devops
• https://www.knowledgehut.com/blog/devops/history-of-devops
• https://www.atlassian.com/devops/what-is-devops/history-of-devops
MLOps について
• https://learn.g2.com/mlops
• https://www.ibm.com/think/topics/mlops
LLMOps について
• https://eleks.com/blog/guide-to-llmops/
• https://medium.com/@soumavadey/the-evolution-of-llmops-from-devops-to-mlops-and-beyond-
b8a19536d3cd

参考#2
AgentOps について
• https://docs.agentops.ai/v2/introduction
• https://dysnix.com/blog/what-is-agentops
• https://shieldbase.ai/glossary/agentops
• https://research.ibm.com/blog/ibm-agentops-ai-agents-observability
• https://www.xenonstack.com/blog/agentops-ai
• https://www.infosys.com/iki/research/agentops-agentic-lifecycle-management.html
• https://www.querypie.com/ja/resources/discover/white-paper/21/welcome-to-the-age-of-agentsecops
• https://www.finops.org/wg/finops-for-ai-overview/

参考 #3
AI Agent関連ツール・プラットフォーム
• AgentOps.ai: https://agentops.ai/
• LangSmith (LangChain): https://www.langchain.com/langsmith
• OpenTelemetry: https://opentelemetry.io/
• CrewAI: https://www.crewai.com/
• AutoGen: https://microsoft.github.io/autogen/
• IBM AgentOps: https://www.ibm.com/think/topics/agentops
• Pinecone: https://www.pinecone.io/
• Weaviate: https://weaviate.io/
ベンチマーク
• AgentBench: https://github.com/THUDM/AgentBench
• GAIA: https://huggingface.co/gaia-benchmark
• WebArena:https://webarena.dev/
• ToolBench: https://github.com/OpenBMB/ToolBench
• MLE-bench : https://github.com/openai/mle-bench
• PaperBench :https://openai.com/index/paperbench/
• MMAU : https://github.com/apple/axlearn/tree/main/docs/research/mmau

AgentOps：AIエージェント時代の幕開けとガバナンスについて ～AgentOpsの体系的な理解を目指して～

More Related Content

What's hot

Similar to AgentOps：AIエージェント時代の幕開けとガバナンスについて ～AgentOpsの体系的な理解を目指して～

More from ARISE analytics