テキストも画像も動画も音声も、ひとつのベクトル空間で検索できる時代へ
3072次元 / Matryoshka対応 / 100+言語 / MTEB Multilingual 1位 — Google渾身のエンベディングモデル
この記事でわかること
2026年4月22日に正式版(GA)となったGoogleの「Gemini Embedding 2」を徹底解説します。テキスト・画像・動画・音声・PDFの5種類を統一ベクトル空間に変換できるマルチモーダル・エンベディングの仕組み、ストレージコストを最大96%削減できるMatryoshka次元削減、8つのタスクタイプ、OpenAI・Cohereとの料金比較、そしてRAG(検索拡張生成)への応用方法まで、企業のAI活用担当者に必要な情報をまとめました。
目次
- Gemini Embedding 2とは — Google発のマルチモーダル・エンベディング
- 5種類のマルチモーダル入力の詳細
- Matryoshkaベクトル — 次元数を自由に選べる仕組み
- 8つのタスクタイプ — 目的に合わせた最適化
- 料金比較 — OpenAI・Cohereとのコスト対決
- RAGとの組み合わせ — マルチモーダル検索が可能に
- 移行時の注意点 — ベクトル空間非互換と再エンベディング
- はてなベースの視点 — 自社RAGとの接続可能性
- まとめ
Gemini Embedding 2とは — Google発のマルチモーダル・エンベディング
Gemini Embedding 2は、Googleが2026年4月22日にGemini APIおよびGemini Enterprise Agent Platform経由で正式リリース(GA)したエンベディングモデルです。プレビュー期間を経て正式版に昇格したこのモデルは、テキストだけでなく画像・動画・音声・PDFの5種類の入力をサポートし、すべてを同じベクトル空間にマッピングできる点が最大の特長です。

エンベディング(埋め込み表現)とは、テキストや画像などのデータを数値ベクトルに変換する技術です。たとえば「犬」と「ペット」のようにテキスト上は異なる言葉でも、意味が近ければ近いベクトルに変換されます。これにより「キーワード一致」ではなく「意味の近さ」で検索できるセマンティック検索が可能になります。従来のエンベディングモデルの多くはテキスト専用でしたが、Gemini Embedding 2ではテキスト・画像・動画・音声・PDFのすべてが同じ空間に配置されるため、「テキストで検索して関連する画像や動画がヒットする」といったクロスモーダル検索が実現します。
プレビュー期間中には、ECサイトの商品検索での画像+テキスト横断検索や、監視カメラ映像のシーン検索、カスタマーサポートの通話録音から類似ケースを検索するといったユースケースで導入実績が生まれています。従来であれば、テキスト検索用、画像検索用、音声検索用にそれぞれ別のモデルとインデックスを用意する必要がありましたが、Gemini Embedding 2ではこれが1つのモデルとインデックスに統合されます。システムの複雑さが大幅に減り、運用コストの削減にもつながります。
基本スペック
- デフォルト次元数 — 3072次元
- Matryoshka対応 — 128, 256, 512, 768, 1536, 2048に切り詰め可能(再学習不要)
- 対応言語 — 100以上(MTEB Multilingualリーダーボード1位)
- 提供チャネル — Gemini API / Gemini Enterprise Agent Platform
関連記事 Gemini Embedding 2についてさらに詳しく知りたい方は、【2026年最新版】Google Gemini AIエンジニアが徹底解説!もあわせてご覧ください。
移行時の注意点 — ベクトル空間非互換と再エンベディング
Gemini Embedding 2への移行を検討する際に最も重要な注意点があります。gemini-embedding-001とgemini-embedding-2のベクトル空間は非互換です。これは、旧モデルで生成したベクトルと新モデルで生成したベクトルの間で類似度計算を行っても意味のある結果が得られないことを意味します。移行する場合は、既存データの全件再エンベディングが必須です。
再エンベディングのコストと時間は、データ規模に直結します。たとえば100万件のテキストドキュメント(平均500トークン)を再エンベディングする場合、5億トークン × $0.20/1Mトークン = $100のAPI費用が発生します。Batch APIを使えば$50です。テキストだけであれば許容範囲のコストですが、画像100万枚($450)、動画10万本($1,200以上)となると、マルチモーダルデータの再処理コストは慎重に見積もる必要があります。
移行計画を立てる際には以下のポイントを押さえておくとスムーズです。
移行チェックリスト
- 既存ベクトルデータの棚卸し — 何件のデータがどのモデルでエンベディングされているかを把握する
- 再エンベディングの費用試算 — データ量×単価×モダリティ別料金で見積もる。Batch API(50%割引)の利用を前提に
- ダウンタイムの計画 — 再エンベディング中も旧インデックスで検索を継続し、完了後に切り替えるBlue-Greenデプロイが推奨
- 次元数の選定 — 3072次元がデフォルトだが、Matryoshkaで低次元を選べば再処理後のストレージコストを削減できる
- タスクタイプの見直し — 旧モデルにはタスクタイプ指定がなかったため、新モデルでは用途に合ったタスクタイプを設定する
再エンベディングは手間がかかりますが、見方を変えれば、蓄積されたデータ資産をより高精度なベクトルに一新するチャンスでもあります。特にMatryoshkaによる次元数最適化やタスクタイプの指定は旧モデルにはなかった機能であり、移行と同時にこれらを導入することで検索精度とコスト効率の両方を改善できます。
関連記事 移行時の注意点についてさらに詳しく知りたい方は、製造業の再構築(Gemini活用):設計から自律的オペレーションまでもあわせてご覧ください。
はてなベースの視点 — 自社RAGとの接続可能性
はてなベースでは、社内業務の効率化のために独自のRAGシステムを運用しています。60,000以上のファイル・約68万チャンクをインデックス化し、プロジェクト横断で情報を検索できる仕組みを構築しています。現在はテキストベースの検索が中心ですが、Gemini Embedding 2のマルチモーダル対応は、この仕組みを拡張する大きな可能性を持っています。
たとえばDX事業部では、顧客向けシステムの設計書(PDF)、操作マニュアル(テキスト)、デモ動画、ミーティング録音など、多様な形式の情報が日々蓄積されています。現状ではテキスト化可能なドキュメントだけが検索対象ですが、Gemini Embedding 2を導入すれば、設計書PDFを直接エンベディングし、「この機能に似た設計パターンの過去事例」を検索するといった使い方が可能になります。動画や音声の直接エンベディングにより、「前回のクライアントミーティングで話題になった仕様変更の議論」を音声録音から直接検索することも現実的になります。
コスト面では、テキストのみの再エンベディングであればBatch APIを使って比較的低コストで移行できます。一方でマルチモーダルデータの本格的な導入は、動画($12.00/1Mトークン)や音声($6.50/1Mトークン)のコストを考慮すると、優先度の高いデータから段階的に進めるのが現実的です。Matryoshkaによる次元数削減を活用して、まずは256次元でプロトタイピングし、精度を確認してから本番次元数を決定するアプローチが有効でしょう。
はてなベースが注目するポイント
- 既存RAGのマルチモーダル拡張 — テキスト検索に加えて、PDF・画像・音声を同一インデックスに統合できる可能性
- 多言語対応の恩恵 — 海外ベンダーの英語ドキュメントと日本語の社内資料を横断検索できるようになる
- Matryoshkaでのコスト最適化 — プロトタイプは128次元、本番は768次元といった段階的な運用
- fact_verificationタスク — AIエージェントが生成した回答の信頼性を、社内ナレッジベースとの照合でスコアリング
関連記事 はてなベースの視点についてさらに詳しく知りたい方は、モダンRAGの常識が変わった|BM25 + Embedding ハイブリッド検索が標準になった理由もあわせてご覧ください。
まとめ
Gemini Embedding 2は、エンベディングモデルの「テキスト専用」という常識を打ち破るモデルです。テキスト・画像・動画・音声・PDFの5種類を統一ベクトル空間にマッピングし、Matryoshkaで128〜3072次元を再学習なしで切り替え、100以上の言語でMTEB Multilingual 1位の精度を実現しています。8つのタスクタイプによる用途別最適化も、競合にはない強みです。
テキスト単価だけで見ればOpenAIやCohereの方が安価ですが、マルチモーダル検索という機能面での差別化は圧倒的です。「テキスト以外のデータも検索対象にしたい」というニーズがあるなら、現時点でGemini Embedding 2が最も有力な選択肢です。一方で移行にはベクトル空間の非互換性に伴う全件再エンベディングが必要なため、コストとスケジュールの見積もりは慎重に行いましょう。
企業のデータ資産はテキストだけではありません。会議の録音、製品の写真、操作マニュアルのPDF、研修動画など、あらゆる形式の情報が日常的に蓄積されています。Gemini Embedding 2は、これらのデータを初めて「統一的に検索可能」にするモデルです。RAGの次のステージとして、マルチモーダル検索の導入を検討してみてはいかがでしょうか。
AI活用・データ基盤の整備でお悩みではありませんか?
はてなベースでは、Gemini Embedding 2やRAGを活用したマルチモーダル検索の導入支援を行っています。AIエージェント組み込みサポート(経理DX事業部が、既存業務フローへのAIエージェント導入を設計から実装まで支援)、データ基盤の整備(AIエージェント活用の前提となるデータ統合・整理を支援。散在するデータを一元化し、AI活用の土台をつくる)、オンプレミスAI導入支援(「全社でAIを使いたいがセキュリティが心配」という企業向けに、オンプレミス環境での生成AI導入を支援)の3軸でご支援可能です。