2026年5月19日、Googleは静かに、しかし決定的な一手を打った。新モデル「Gemini 3.5 Flash」のリリースだ。速度は他のフロンティアモデルの4倍。エージェントタスクのベンチマークでは前世代のGemini 3.1 Proを全面的に上回る。しかしこのモデルが本当に重要な理由は、スペックではない。Googleが「会話AIの時代は終わった」と宣言した、その意志にある。
TechCrunchのインタビューでGoogleの幹部は言った。「次のAIの波は、チャットボットではなくエージェントにかかっている」。ユーザーと対話して情報を返すだけのAIから、数時間・数週間にわたって自律的にタスクを実行し、人間の判断が必要な判断ポイントで一時停止するAIへ。この転換は、生成AIが「便利なツール」から「仕事を動かす存在」になることを意味する。
本記事では、Gemini 3.5 Flashの技術的な実力と、Googleがエージェントに賭ける戦略的背景を整理する。そして日本企業がこの転換をどう活かすべきか、具体的な示唆を提示する。
チャットボットとAIエージェントは何が違うのか
まず基本的な概念を整理しておこう。「チャットボット」と「AIエージェント」という言葉は混同されがちだが、実態は根本的に異なる。チャットボットは人間が質問し、AIが答えるという1問1答の繰り返しだ。一方のAIエージェントは、目標(ゴール)を与えられると自分で計画を立て、複数のツールやシステムを連携させながら、複数のステップにわたってタスクを完遂する。

この違いは利用者の体験にも直結する。チャットボットに「来月の売上予測レポートを作って」と頼むと、AIはテンプレートか一般論を返してくる。しかしエージェント型のAIなら、まず社内データベースにアクセスして過去の売上データを取得し、外部の市場情報を検索し、Excelやスプレッドシートで集計・グラフ化し、最終的にPDF形式のレポートを生成してSlackで送付する — これを一連の流れで自動実行できる。
| 比較軸 | チャットボット(従来型) | AIエージェント(Gemini 3.5 Flash等) |
|---|---|---|
| 応答スタイル | 人間が質問 → AIが回答 | 目標設定 → 自律的に計画・実行 |
| 自律性 | なし(指示待ち) | 高い(長時間・複数ステップ) |
| タスク処理 | 1ターン / 1回答 | 多段階・並列・反復実行 |
| ツール連携 | 限定的(プラグイン程度) | MCP・API・外部SaaS と深く統合 |
| 稼働時間 | リアルタイムのみ | 数時間〜数週間の連続稼働 |
| 成果物 | テキスト・情報の提示 | レポート・コード・完了したタスク |
Gemini 3.5 Flashの技術的実力 — 速くて賢くて安い
Gemini 3.5 FlashはGoogle DeepMindが2026年5月19日に正式リリースしたモデルで、Gemini 3.5ファミリーの第一弾となる。ポジショニングは「エージェントとコーディングにおけるフロンティア性能の最適解」とGoogleが明言している。具体的に何ができるのか、主要な仕様から確認しよう。
| 項目 | Gemini 3.5 Flash |
|---|---|
| コンテキスト長(入力) | 1,048,576トークン(約100万トークン) |
| コンテキスト長(出力) | 65,536トークン |
| 対応モダリティ | テキスト / 画像 / 音声 / 動画 / PDF |
| 速度 | 他のフロンティアモデルの4倍 |
| 料金(入力) | 1Mトークンあたり1.50ドル |
| 料金(出力) | 1Mトークンあたり9.00ドル |
| キャッシュ入力 | 1Mトークンあたり0.15ドル |
| 知識カットオフ | 2026年1月 |
| 提供経路 | Geminiアプリ / Gemini API / Google AI Studio / Antigravity |
注目すべきは速度とコストのバランスだ。他のフロンティアモデルの半分以下のコストで、4倍の出力速度を実現している。これはエージェントワークフローにおいて決定的に重要な仕様だ。エージェントは1回の会話ではなく、数百〜数千回のAPI呼び出しをオーケストレーションする。低コスト・高速でなければ、長時間の自律実行タスクが現実的にならない。
主要ベンチマークで示した実力
Googleが公表したベンチマーク結果を見ると、Gemini 3.5 Flashの強みがエージェント系タスクに集中していることがわかる。
| ベンチマーク | スコア | 測定内容 |
|---|---|---|
| MCP Atlas | 83.6% | 多段階エージェントワークフロー(前世代3.1 Proは73.9%) |
| Terminal-Bench 2.1 | 76.2% | コーディング能力(前世代3.1 Proは68.5%) |
| CharXiv Reasoning | 84.2% | マルチモーダル(グラフ・図表の読解) |
| MMMU-Pro | 83.6% | マルチモーダル理解 |
| Toolathlon | 56.5% | ツール利用・関数呼び出し |
| Finance Agent v2 | 57.9% | 金融エージェントタスク |
| 128kトークン長文処理 | 77.3% | 長文脈の理解・処理 |
特に「MCP Atlas」は注目指標だ。MCP(Model Context Protocol — AIが業務システムのデータを直接読み書きするための通信規格)を使った多段階ワークフローを評価するもので、エージェント実装の実用性を最もよく表す。83.6%というスコアは、Claude Opus 4.7やGPT-5.5を含む報告済み全モデルの中でトップの数値となっている。
MCP(Model Context Protocol)とは
AnthropicがオープンソースとしてリリースしたAI連携の通信規格。Googleを含む多くのAIプロバイダーが採用している。MCPを使うと、AIモデルがkintone・Salesforce・freee・Google Workspaceなどの業務SaaSに直接アクセスし、データを読み書きできるようになる。エージェントAIの普及を支えるインフラ規格として急速に広まっている。
なぜGoogleは「エージェント特化」に舵を切ったのか
AIの歴史の中で、チャットボットは確かに革新だった。ChatGPTが2022年11月に登場したとき、世界は驚いた。しかしチャットボットには本質的な限界がある。人間が常に席についてプロンプトを入力し続けなければならないという制約だ。
Googleの分析によれば、エンタープライズ顧客が求めているのは「より賢いチャットアシスタント」ではなく、「人間が関与しなくても仕事が進む仕組み」だ。財務部門が「1099税務フォームの処理」をAIに任せると言うとき、彼らはAIとの対話を楽しみたいのではなく、数週間かかる作業を自動化したいのだ。
Googleがこの転換を加速させた技術的背景として、Antigravity 2.0がある。Antigravityはエージェントファーストの開発基盤で、複数のサブエージェントを並列で動かすオーケストレーション機能を持つ。Gemini 3.5 Proが将来リリースされた際には「オーケストレーター(指揮者)」として機能し、Gemini 3.5 Flashが「サブエージェント(実行担当)」として多数のタスクを並列処理する設計になっている。これはまさに組織の上司・部下の分業モデルをAIで実現したものだ。
Gemini 3.5 Flash が対応する自律実行の例
OSをゼロから構築する / 研究プロジェクトを自律管理する / コーディングパイプラインを独立実行する / 金融機関向けの数週間にわたるデータ分析ワークフローを自動化する — これらがGoogle I/O 2026でデモされた実例だ。
実際のビジネス活用シナリオ — 導入企業の事例
Googleは発表と同時に、実際にGemini 3.5 Flashを採用した企業の事例を複数公開した。抽象的なベンチマークではなく、「本当に業務で使えるのか」を示す具体例として参考になる。
Shopify — 商品売上予測の長期データ分析
Shopifyは加盟店の売上予測に長期間のデータ分析が必要なケースでGemini 3.5 Flashを採用した。数百のSKU(個別商品管理単位)にわたる時系列データを処理し、季節性や市場トレンドを加味した予測レポートを自動生成する。従来は外部のデータアナリストに依頼していたような分析が、AIエージェントで内製化できるようになった。
Macquarie銀行 — 100ページ超の文書横断推論
オーストラリア大手の投資銀行Macquarieは、法務・コンプライアンス文書の読解にGemini 3.5 Flashを活用している。100ページを超える規制文書や契約書を横断的に読み、矛盾点・リスク箇所・要確認事項を低遅延で抽出する。従来は法務部門のシニアアナリストが数日かけていた作業が、数分に短縮された。
Xero — 1099税務フォームの複数週にわたる処理
会計ソフトのXeroは1099税務フォーム(米国の外注業者への支払い申告書)の処理に活用。サプライヤーごとの支払いデータを集計し、税務申告に必要な形式に変換し、送付まで含めた複数週にわたるワークフローをエージェントが自律的に処理する。税務担当者がチェックするのは最終的な例外ケースのみとなり、業務時間の大幅削減を実現した。
Ramp — 複合請求書のマルチモーダルOCR処理
法人経費管理のRampは、複雑な請求書の読み取りにGemini 3.5 Flashのマルチモーダル機能を活用している。手書きメモが混在する請求書、表形式・グラフ形式が入り混じった経費精算書をOCR(光学文字認識)で読み取り、過去の支払いパターンと照合して異常を検出する。従来の単純OCRでは対応できなかった複合書類を、AIが高精度で処理できるようになった。
AIエージェントを自社業務に導入したい方へ
はてなベースでは、Gemini・Claude・GPT-4oなど主要AIモデルを業務フローに組み込むエージェント導入支援を行っています。どのモデルが自社に適切か、既存システムとの連携方法、データ基盤の整備方針まで、一気通貫でご支援します。
Claude / GPT-4oとの比較 — どこが違うのか
Gemini 3.5 Flashを導入するか検討する際、他の主要モデルとの比較は避けられない。ここではClaude Opus 4.7(Anthropic)およびGPT-4o(OpenAI)との主な違いを整理する。なお、各社のモデルは進化が速いため、最新スペックは各社の公式ページで確認してほしい。
| 比較軸 | Gemini 3.5 Flash | Claude Opus 4.7 | GPT-4o |
|---|---|---|---|
| 速度(出力トークン/秒) | フロンティアモデル最速クラス | 高速(Claude Sonnet 3.5比) | 標準 |
| エージェントベンチ(MCP Atlas) | 83.6%(報告済み最高水準) | 競合スコア | 非公開 |
| 推論品質(GDPval-AA Elo) | 1,656 | 1,753(Claude Opus 4.7) | 参考値 |
| 最大コンテキスト長 | 約100万トークン | 200Kトークン | 128Kトークン |
| マルチモーダル対応 | テキスト/画像/音声/動画/PDF | テキスト/画像 | テキスト/画像/音声 |
| ツール連携(MCP対応) | ネイティブ対応 | ネイティブ対応(Anthropic考案) | 対応 |
| 料金(入力) | 1.50ドル/1Mトークン | 非公開 | 2.50ドル/1Mトークン(参考) |
Elo評価(GDPval-AA)ではClaude Opus 4.7が1,753に対してGemini 3.5 Flashは1,656と、純粋な推論の深さでは一歩譲る場面がある。しかし速度と価格あたりのパフォーマンス、そしてエージェントタスク特化のスコアでは、Gemini 3.5 Flashが優位に立っている。
使い方のイメージとしては、深い推論や複雑な文章生成が必要な場面ではClaude Opus 4.7が向き、大量の並列処理や長時間の自律実行が必要なエージェントワークフローではGemini 3.5 Flashが向いている、と整理できる。どちらが「勝ち」ではなく、用途に応じた選択が重要だ。
日本企業への示唆 — エージェント移行の3つのステップ
Gemini 3.5 Flashの登場が示す「エージェントAI時代の到来」は、日本企業にとっても他人事ではない。「AIを試した」段階から「AIで業務が動く」段階に移行しなければ、グローバル競合との生産性格差は開く一方だ。しかし焦りは禁物だ。エージェントAIの本格導入には、基盤整備が必要になる。
ステップ1 データ基盤の整備
AIエージェントが「自律的に仕事をする」には、AIがアクセスできるデータが整備されていなければならない。散在するスプレッドシート、属人的なメール、紙の書類 — これらがバラバラなままでは、エージェントに「売上予測を作って」と指示しても、データソースに辿り着けない。まず業務データを一元化し、AIが読めるフォーマットに整える作業が先決だ。
ステップ2 MCP連携による既存システムの開放
MCP(Googleもサポートするエージェント連携規格)を使えば、kintone・Salesforce・freee・Google Workspaceなどの既存システムをAIエージェントから操作できるようになる。新しいシステムへの乗り換えは不要で、既存投資を活かしたままAIを業務に直結させるのがMCP連携のメリットだ。
ステップ3 小さなワークフローから自動化を始める
最初から大掛かりな「全社DX」を目指す必要はない。月次の売上集計レポート、受注確認メールの仕分け、請求書のデータ入力 — こうした繰り返しが多く、手順が決まっている業務から自動化を始めると、短期間で成果を出しやすい。成功体験を積みながら、対象業務を広げていくアプローチが現実的だ。
はてなベースでは、こうした段階的なエージェント導入を多くの企業とともに実践してきた。「どこから手をつければいいかわからない」という状態でも、業務の棚卸しから一緒に始めることができる。
まとめ — チャットボットの次に来るもの
Gemini 3.5 Flashは単なる新しいAIモデルではない。Googleが「AIの使い方そのもの」を変えようとしている意思表明だ。チャットボットの時代が終わりを告げ、AIが自律的に仕事をこなすエージェントの時代が始まる — この転換はすでに始まっている。
- 速度 — 他のフロンティアモデルの4倍の出力速度で、長時間の自律実行タスクに対応
- コスト — 競合モデルの半分以下の価格で、大量のAPI呼び出しを伴うエージェントワークフローを現実的なコストで運用可能
- マルチモーダル — テキスト・画像・音声・動画・PDFを統合処理する能力で、複合書類の解析から映像の分析まで幅広い業務をカバー
- エージェント特化 — MCP Atlas 83.6%というトップクラスのスコアで、多段階の自律タスク実行を証明
- エコシステム — Antigravityとの連携により、将来のGemini 3.5 Proと組み合わせたオーケストレーター・サブエージェントの分業体制が可能
日本企業にとって、このタイミングは「様子見」から「実践」に移る好機だ。Gemini 3.5 Flashは個人・企業・開発者のいずれのルートでも利用できる。Geminiアプリでの一般利用、Google AI StudioからのAPI利用、Antigravityでのエンタープライズ活用 — それぞれのステージに応じた入口が用意されている。
AIエージェントを自社の業務基盤に組み込む
「AIを使ってみた」の次のフェーズへ。はてなベースは、データ基盤の整備・MCP連携設計・エージェントワークフローの実装まで、段階的な導入をご支援します。まずは無料相談で現状の課題をお聞かせください。