OpenAI、次世代AI「o3 Operator」を発表――Webブラウザを自在に操る革新的なAIエージェント | はてなベース株式会社

OpenAI、次世代AI「o3 Operator」を発表

Webブラウザを自在に操る革新的なAIエージェント――人間のようにクリック、スクロール、タイピングが可能

OpenAIは2025年5月23日、同社のAIモデル「o3」および「o4-mini」のシステムカードに関する重要な追加情報を発表しました。特に注目すべきは、2025年1月にリリースされた「Operator」の大幅なアップデートです。

Operatorは、Computer Using Agent(CUA)モデルとして設計された革新的なAIエージェントで、Webブラウザを使用してユーザーに代わってタスクを実行する能力を持ちます。今回の発表では、従来のGPT-4oベースのモデルから、より高性能なo3ベースのバージョンへのアップグレードが明らかになりました。

o3 Operatorの革新性

人間のようにWebページを見て、クリック、タイピング、スクロールを行い、複雑なタスクを自動実行する次世代AIエージェント。従来の対話型AIから、実際に行動するAIへの大きな進化を示しています。

Operatorとは:Computer Using Agent(CUA)の革新

Webブラウザを操作して実際のタスクを実行するAIエージェント

2025年1月にリサーチプレビューとして公開されたOperatorは、Computer Using Agent(CUA)モデルの先駆的な実装です。CUAは、従来のテキストベースの対話に留まらず、実際にWebブラウザを操作してユーザーのタスクを代行する「エージェント型AI」の新しいカテゴリーです。

Operatorの主要機能
  • Webページの視覚的理解:人間と同様にWebページを「見て」内容を理解
  • マウス操作の実行:クリック、ドラッグ&ドロップなどの精密な操作
  • キーボード入力:フォームへの入力、検索クエリの実行
  • スクロール操作:ページ内の情報を効率的に探索
  • 複数ページ間の移動:リンクをたどって関連情報を収集
  • タスクの自動実行:複雑な手順を自動化して完了
2025年1月
Operator(GPT-4oベース)をリサーチプレビューとして公開
2025年5月
o3ベースの新バージョンへアップグレード、安全性機能を大幅強化

GPT-4oからo3への進化:性能と安全性の大幅向上

次世代推論モデルによる能力向上と安全性強化

今回の発表で最も重要なのは、OperatorのベースモデルがGPT-4oからo3に変更されたことです。o3は、OpenAIの最新の推論特化型モデルで、複雑な問題解決能力と安全性において大幅な改善を実現しています。

項目 従来版(GPT-4oベース) 新版(o3ベース) 改善点
推論能力 基本的な論理的思考 高度な多段階推論 複雑なタスクの理解と実行精度向上
安全性機能 標準的な安全フィルター 多層的安全アプローチ コンピュータ使用に特化した安全データセット
判断能力 基本的な確認・拒否機能 高度な決定境界設定 適切な確認と拒否の判断精度向上
API互換性 GPT-4o API 4o API(互換性維持) 既存システムとの連携を保持
安全性の強化ポイント

o3 Operatorは、o3ファミリーの他のモデルと同様の多層的安全アプローチを採用しています。特にコンピュータ使用に関する安全データセットを用いてファインチューニングが行われ、確認と拒否に関する決定境界がより精密に設定されています。

技術的特徴と現在の制限事項

o3の推論能力を継承しつつ、特定の制約も存在

o3の推論能力を継承

o3 Operatorは、o3モデルの優れた推論能力を継承しており、複雑な多段階のタスクを論理的に分解し、効率的に実行することが可能です。これにより、従来のOperatorでは困難だった高度なWebタスクの自動化が実現されています。

現在の制限事項

一方で、o3 Operatorには重要な制限があります。o3の推論能力を継承しているものの、コーディング環境やターミナルへのネイティブアクセスは提供されていません。これは安全性とセキュリティを考慮した設計決定です。

重要な制限事項
  • コーディング環境へのアクセス不可:プログラミング作業の直接実行は制限
  • ターミナル操作の制限:システムレベルのコマンド実行は不可
  • Webブラウザ操作に特化:現在はWeb上のタスクに限定
o3
最新推論モデル
CUA
Computer Using Agent
Web
操作対象プラットフォーム

ビジネスへの影響と活用可能性

業務自動化の新たな可能性を切り拓く

期待される活用分野

o3 Operatorの登場により、これまで人間が手動で行っていた多くのWeb上の作業が自動化される可能性があります。特に反復的で時間のかかるタスクにおいて、大幅な効率化が期待されます。

主要な活用シナリオ
  • データ収集・調査:複数のWebサイトから情報を自動収集
  • フォーム入力作業:定型的な申請書類の自動入力
  • Eコマース操作:商品検索、価格比較、注文処理
  • ソーシャルメディア管理:投稿スケジューリング、コンテンツ管理
  • 顧客サポート:FAQ検索、チケット管理システム操作
  • レポート作成:Web上のデータを収集してレポート生成
生産性向上の可能性

McKinsey & Companyの調査によると、AIエージェントによる業務自動化は、知識労働者の生産性を20-40%向上させる可能性があります。o3 Operatorのような高度なCUAモデルは、この変革の中核を担うと予想されます。

今後の展望:AIエージェント時代の到来

Computer Using Agentが切り拓く新たな未来

o3 Operatorの発表は、AI技術の発展における重要なマイルストーンです。従来の「対話型AI」から「行動型AI」への転換点を示しており、今後のAI活用の方向性を大きく変える可能性があります。

OpenAIは今後、より多くのプラットフォームやアプリケーションに対応したCUAモデルの開発を進めると予想されます。また、安全性とセキュリティの更なる強化により、企業環境での本格的な導入が加速すると考えられます。

AIエージェント時代の特徴

AIが単なる「回答者」から「実行者」へと進化し、人間とAIの協働関係が根本的に変化します。これにより、創造的な業務により多くの時間を割けるようになり、人間の価値がより高次元の思考と判断に集中されることになるでしょう。

AIエージェント時代のビジネス変革をサポート

はてなベース株式会社では、o3 Operatorのような最新AI技術を活用したビジネス変革をサポートしています。
AIエージェントの導入から業務プロセスの最適化まで、企業のDX推進を全面的にバックアップいたします。

Facebook
Twitter
LinkedIn

関連記事