2026.04.27
AI

Gemini Embedding 2が正式版に|マルチモーダル対応・Matryoshka・100言語対応のエンベディングモデルを解説

はてな編集部
2026.04.27
ブログサムネイル

テキストも画像も動画も音声も、ひとつのベクトル空間で検索できる時代へ

3072次元 / Matryoshka対応 / 100+言語 / MTEB Multilingual 1位 — Google渾身のエンベディングモデル

この記事でわかること

2026年4月22日に正式版(GA)となったGoogleの「Gemini Embedding 2」を徹底解説します。テキスト・画像・動画・音声・PDFの5種類を統一ベクトル空間に変換できるマルチモーダル・エンベディングの仕組み、ストレージコストを最大96%削減できるMatryoshka次元削減、8つのタスクタイプ、OpenAI・Cohereとの料金比較、そしてRAG(検索拡張生成)への応用方法まで、企業のAI活用担当者に必要な情報をまとめました。

Gemini Embedding 2とは — Google発のマルチモーダル・エンベディング

Gemini Embedding 2は、Googleが2026年4月22日にGemini APIおよびGemini Enterprise Agent Platform経由で正式リリース(GA)したエンベディングモデルです。プレビュー期間を経て正式版に昇格したこのモデルは、テキストだけでなく画像・動画・音声・PDFの5種類の入力をサポートし、すべてを同じベクトル空間にマッピングできる点が最大の特長です。

Google公式ブログ — Gemini Embedding 2正式版発表

出典 Google The Keyword Blog(2026年4月22日)

エンベディング(埋め込み表現)とは、テキストや画像などのデータを数値ベクトルに変換する技術です。たとえば「犬」と「ペット」のようにテキスト上は異なる言葉でも、意味が近ければ近いベクトルに変換されます。これにより「キーワード一致」ではなく「意味の近さ」で検索できるセマンティック検索が可能になります。従来のエンベディングモデルの多くはテキスト専用でしたが、Gemini Embedding 2ではテキスト・画像・動画・音声・PDFのすべてが同じ空間に配置されるため、「テキストで検索して関連する画像や動画がヒットする」といったクロスモーダル検索が実現します。

プレビュー期間中には、ECサイトの商品検索での画像+テキスト横断検索や、監視カメラ映像のシーン検索、カスタマーサポートの通話録音から類似ケースを検索するといったユースケースで導入実績が生まれています。従来であれば、テキスト検索用、画像検索用、音声検索用にそれぞれ別のモデルとインデックスを用意する必要がありましたが、Gemini Embedding 2ではこれが1つのモデルとインデックスに統合されます。システムの複雑さが大幅に減り、運用コストの削減にもつながります。

基本スペック
  • デフォルト次元数 — 3072次元
  • Matryoshka対応 — 128, 256, 512, 768, 1536, 2048に切り詰め可能(再学習不要)
  • 対応言語 — 100以上(MTEB Multilingualリーダーボード1位)
  • 提供チャネル — Gemini API / Gemini Enterprise Agent Platform

5種類のマルチモーダル入力の詳細

Gemini Embedding 2が対応する5つの入力モダリティを整理します。従来のエンベディングモデルがテキストのみ、あるいはテキスト+画像の2種に限られていたのに対して、動画・音声・PDFまで網羅している点が革新的です。すべての入力が同一の3072次元ベクトル空間にマッピングされるため、モダリティをまたいだ類似度計算がそのまま可能です。

入力タイプ 上限 対応フォーマット ユースケース例
テキスト 8,192トークン プレーンテキスト ドキュメント検索、FAQ検索
画像 1リクエスト6枚 PNG, JPEG 商品画像検索、類似画像発見
動画 128秒 MP4, MOV 映像シーン検索、動画アーカイブ
音声 80秒 MP3, WAV コールセンター録音検索、ポッドキャスト検索
PDF 6ページ PDF 社内文書検索、契約書類の類似検索

テキスト入力 — 8,192トークンの長文対応

テキスト入力は最大8,192トークンをサポートしています。日本語に換算するとおよそ6,000〜7,000文字程度で、一般的なブログ記事やビジネス文書1本分を丸ごとベクトル化できます。OpenAIのtext-embedding-3-largeが同じく8,191トークンを上限としているため、テキスト処理能力では同等水準です。ただしGemini Embedding 2は100以上の言語でMTEB Multilingualリーダーボード1位を獲得しており、日本語・中国語・韓国語などCJK言語でのセマンティック検索精度が特に高く評価されています。

画像入力 — 1リクエスト最大6枚まで

画像はPNGとJPEGに対応しており、1回のAPIリクエストで最大6枚を処理できます。ECサイトでの「この画像に似た商品を探す」というビジュアル検索や、製造業の品質検査で「この不良品に似た過去事例を検索する」といった使い方が想定されます。画像とテキストが同じベクトル空間に配置されるため、「赤いスニーカー」というテキストクエリで赤いスニーカーの画像がヒットするクロスモーダル検索も実現します。競合のCohere embed-v4もテキスト+画像のマルチモーダルに対応していますが、動画・音声・PDFには非対応であり、Gemini Embedding 2の優位性はモダリティの広さにあります。

動画・音声・PDF — 非テキストデータの直接エンベディング

動画は128秒(MP4, MOV)、音声は80秒(MP3, WAV)、PDFは6ページまでをサポートしています。特筆すべきは、音声を文字起こし(Speech-to-Text)せずに直接エンベディングする点です。従来のアプローチでは「音声→テキスト変換→テキストをエンベディング」という2段階が必要でしたが、Gemini Embedding 2では音声の波形情報をそのままベクトル化します。これにより文字起こしの誤変換による精度低下を回避でき、話者のトーンや抑揚といった非言語情報もベクトルに反映されます。コールセンターの通話録音から「怒っている顧客の類似ケース」を検索するといった、テキストだけでは不可能だった用途が開けます。

Matryoshkaベクトル — 次元数を自由に選べる仕組み

Gemini Embedding 2が採用するMatryoshka Representation Learning(MRL)は、エンベディングの実運用における大きな課題を解決する技術です。エンベディングモデルの次元数が大きいほど表現力は高まりますが、ベクトルデータベースのストレージコストとクエリ応答時間も比例して増加します。Matryoshkaは、ロシアの入れ子人形(マトリョーシカ)のように、高次元ベクトルの先頭部分を切り取るだけで低次元ベクトルとしても機能する仕組みです。

Gemini Embedding 2では、デフォルトの3072次元に加えて、2048、1536、768、512、256、128の6段階に切り詰めることが可能です。重要なのは、次元削減にあたってモデルの再学習が不要だという点です。APIリクエスト時にパラメータで次元数を指定するだけで、即座にその次元数のベクトルが返されます。たとえば「まず128次元で高速な粗い検索を行い、上位候補に対して3072次元で精密なリランキングを行う」という2段階検索を、同一モデルで実現できます。

コスト面のインパクトも大きいです。3072次元から128次元に切り詰めた場合、ベクトルデータのストレージサイズは約96%削減されます。100万件のドキュメントを3072次元(float32)で保存すると約11.5GBのストレージが必要ですが、128次元なら約488MBで済みます。プロトタイピング段階では128次元でコストを抑え、本番環境で精度が必要な部分だけ3072次元に引き上げるといった柔軟な運用が可能です。

次元数とストレージの関係(100万ドキュメント、float32の場合)
次元数 ストレージ 削減率 想定ユースケース
3072(デフォルト) 約11.5 GB 最高精度が必要な本番検索
1536 約5.7 GB 50% 精度とコストのバランス重視
768 約2.9 GB 75% 中規模のドキュメント検索
256 約977 MB 92% 大量データの粗いフィルタリング
128 約488 MB 96% プロトタイピング・高速検索

8つのタスクタイプ — 目的に合わせた最適化

Gemini Embedding 2では、エンベディングの用途に応じて8種類のタスクタイプを指定できます。タスクタイプを指定することで、同じテキストでも用途に最適化されたベクトルが生成されます。たとえば「document_retrieval」を指定すればドキュメント検索に強いベクトルが、「classification」を指定すればテキスト分類に最適化されたベクトルが得られます。

Gemini API Embeddings ドキュメント

Gemini API Embeddings ドキュメントページ

タスクタイプ 用途 実務での活用例
semantic_similarity 文の意味的な類似度を測定 重複コンテンツの検出、類似文書のグルーピング
classification テキストのカテゴリ分類 問い合わせメールの自動振り分け、感情分析
clustering データのクラスタリング 顧客レビューのトピック分析、市場調査
document_retrieval ドキュメント側のエンベディング 社内ナレッジベースの構築
query_retrieval 検索クエリ側のエンベディング ユーザーの検索クエリを処理
code_retrieval ソースコードの検索 コードベースから類似実装を発見
question_answering 質問応答の最適化 FAQシステム、チャットボットの回答検索
fact_verification 事実検証 生成AIの出力のファクトチェック

ドキュメント検索のケースでは、インデックス構築時にはドキュメント側を「document_retrieval」で、ユーザーの検索クエリは「query_retrieval」でエンベディングするのが推奨されています。クエリとドキュメントでは文の長さや表現が大きく異なるため、それぞれに最適化されたベクトルを使うことで検索精度が向上します。OpenAIのtext-embedding-3シリーズにはこのようなタスクタイプ指定機能がないため、Gemini Embedding 2の明確なアドバンテージです。

fact_verificationタスクタイプは、生成AIのハルシネーション対策として注目されています。LLMが生成した文章を事実検証用ベクトルに変換し、信頼できるソースのベクトルとの類似度を計算することで、「生成された主張がどの程度既知の事実と整合するか」を定量的にスコアリングできます。生成AIを業務に導入する際のセーフティネットとして、今後需要が高まる領域です。

料金比較 — OpenAI・Cohereとのコスト対決

エンベディングモデルの選定においてコストは重要な判断材料です。特にエンベディングはデータ量に比例してAPI呼び出し回数が増えるため、大規模データを扱う場合のコスト差は無視できません。Gemini Embedding 2の料金体系を競合と比較します。

Gemini Embedding 2の料金体系

入力タイプ 通常料金(100万トークンあたり) Batch料金(50%割引)
テキスト $0.20 $0.10
画像 $0.45 $0.225
音声 $6.50 $3.25
動画 $12.00 $6.00

テキストのみの場合、100万トークンあたり$0.20はOpenAIのtext-embedding-3-large($0.13)よりも約54%高く、Cohereのembed-v4($0.10)の2倍です。純粋にテキスト検索だけを行うのであれば、コスト面ではOpenAIやCohereに分があります。ただしGemini Embedding 2のBatch処理(50%割引で$0.10)を活用すれば、Cohereと同水準まで下がります。大量のドキュメントを一括処理する初回インデックス構築ではBatch APIを活用するのが賢明です。

競合モデルとの比較表

モデル 次元数 マルチモーダル テキスト料金(/1Mトークン)
Gemini Embedding 2 3072 テキスト / 画像 / 音声 / 動画 / PDF $0.20
OpenAI text-embedding-3-large 3072 テキストのみ $0.13
OpenAI text-embedding-3-small 1536 テキストのみ $0.02
Cohere embed-v4 1024 テキスト + 画像 $0.10

この比較で注目すべきは「テキスト単価だけでは語れない」という点です。マルチモーダル対応が不要で、テキスト検索だけに用途が限定されるなら、OpenAI text-embedding-3-small($0.02/1Mトークン)が圧倒的にコストパフォーマンスが高いです。一方で、画像・動画・音声・PDFを含む横断検索が必要なユースケースでは、そもそも他のモデルでは実現できないため、Gemini Embedding 2が唯一の選択肢になります。「テキスト検索は安いモデルで、マルチモーダル検索はGemini Embedding 2で」というハイブリッド構成も、コスト最適化の現実的なアプローチです。

データ活用のイメージ

イラスト:ソコスト

RAGとの組み合わせ — マルチモーダル検索が可能に

RAG(Retrieval-Augmented Generation、検索拡張生成)は、LLMが回答を生成する際に外部データベースから関連情報を検索して参照する手法です。「LLMの知識にない最新情報や社内データを回答に反映させる」ためにRAGが広く使われていますが、従来のRAGはテキスト検索に限定されていました。Gemini Embedding 2の登場により、RAGのRetrievalステップにマルチモーダル検索を組み込めるようになります。

たとえば製造業の品質管理を考えてみましょう。これまでのRAGでは「過去の不良品レポート(テキスト)」だけが検索対象でした。Gemini Embedding 2を使えば、テキストレポートに加えて「不良品の写真」「検査工程の動画」「検査員の音声メモ」「品質基準のPDF」のすべてが同じベクトル空間で検索対象になります。「この製品の傷に似た過去の不良事例を見つけて」というクエリに対して、テキストレポートだけでなく過去の不良品画像や検査動画も含めた結果が返されます。

小売業でも活用の幅が広がります。カスタマーサポートにおいて、顧客が「この商品と似たものはありますか」と商品画像を送ってきた場合、画像をエンベディングして類似商品を検索し、その商品情報をLLMに渡して自然な回答を生成する、というフローが1つのモデルで完結します。テキスト検索では「赤い花柄のワンピース」のような言語化が必要でしたが、画像検索では言語化できない微妙なデザインの類似性も捉えられます。

マルチモーダルRAGの実務メリット
  • インデックスの一本化 — テキスト用・画像用・音声用と別々だったインデックスを1つに統合。運用コストとシステム複雑性が大幅に低下
  • クロスモーダル検索 — テキストで検索して画像や動画がヒットする。言語化しにくい情報にもアクセス可能
  • 多言語対応 — 100以上の言語をサポートしているため、日本語で検索して英語ドキュメントがヒットする多言語RAGも構築可能
  • 段階的な精度調整 — Matryoshkaで128次元の粗い検索→3072次元の精密リランキングという2段構成が可能

移行時の注意点 — ベクトル空間非互換と再エンベディング

Gemini Embedding 2への移行を検討する際に最も重要な注意点があります。gemini-embedding-001とgemini-embedding-2のベクトル空間は非互換です。これは、旧モデルで生成したベクトルと新モデルで生成したベクトルの間で類似度計算を行っても意味のある結果が得られないことを意味します。移行する場合は、既存データの全件再エンベディングが必須です。

再エンベディングのコストと時間は、データ規模に直結します。たとえば100万件のテキストドキュメント(平均500トークン)を再エンベディングする場合、5億トークン × $0.20/1Mトークン = $100のAPI費用が発生します。Batch APIを使えば$50です。テキストだけであれば許容範囲のコストですが、画像100万枚($450)、動画10万本($1,200以上)となると、マルチモーダルデータの再処理コストは慎重に見積もる必要があります。

移行計画を立てる際には以下のポイントを押さえておくとスムーズです。

移行チェックリスト
  • 既存ベクトルデータの棚卸し — 何件のデータがどのモデルでエンベディングされているかを把握する
  • 再エンベディングの費用試算 — データ量×単価×モダリティ別料金で見積もる。Batch API(50%割引)の利用を前提に
  • ダウンタイムの計画 — 再エンベディング中も旧インデックスで検索を継続し、完了後に切り替えるBlue-Greenデプロイが推奨
  • 次元数の選定 — 3072次元がデフォルトだが、Matryoshkaで低次元を選べば再処理後のストレージコストを削減できる
  • タスクタイプの見直し — 旧モデルにはタスクタイプ指定がなかったため、新モデルでは用途に合ったタスクタイプを設定する

再エンベディングは手間がかかりますが、見方を変えれば、蓄積されたデータ資産をより高精度なベクトルに一新するチャンスでもあります。特にMatryoshkaによる次元数最適化やタスクタイプの指定は旧モデルにはなかった機能であり、移行と同時にこれらを導入することで検索精度とコスト効率の両方を改善できます。

はてなベースの視点 — 自社RAGとの接続可能性

はてなベースでは、社内業務の効率化のために独自のRAGシステムを運用しています。60,000以上のファイル・約68万チャンクをインデックス化し、プロジェクト横断で情報を検索できる仕組みを構築しています。現在はテキストベースの検索が中心ですが、Gemini Embedding 2のマルチモーダル対応は、この仕組みを拡張する大きな可能性を持っています。

たとえばDX事業部では、顧客向けシステムの設計書(PDF)、操作マニュアル(テキスト)、デモ動画、ミーティング録音など、多様な形式の情報が日々蓄積されています。現状ではテキスト化可能なドキュメントだけが検索対象ですが、Gemini Embedding 2を導入すれば、設計書PDFを直接エンベディングし、「この機能に似た設計パターンの過去事例」を検索するといった使い方が可能になります。動画や音声の直接エンベディングにより、「前回のクライアントミーティングで話題になった仕様変更の議論」を音声録音から直接検索することも現実的になります。

コスト面では、テキストのみの再エンベディングであればBatch APIを使って比較的低コストで移行できます。一方でマルチモーダルデータの本格的な導入は、動画($12.00/1Mトークン)や音声($6.50/1Mトークン)のコストを考慮すると、優先度の高いデータから段階的に進めるのが現実的です。Matryoshkaによる次元数削減を活用して、まずは256次元でプロトタイピングし、精度を確認してから本番次元数を決定するアプローチが有効でしょう。

はてなベースが注目するポイント
  • 既存RAGのマルチモーダル拡張 — テキスト検索に加えて、PDF・画像・音声を同一インデックスに統合できる可能性
  • 多言語対応の恩恵 — 海外ベンダーの英語ドキュメントと日本語の社内資料を横断検索できるようになる
  • Matryoshkaでのコスト最適化 — プロトタイプは128次元、本番は768次元といった段階的な運用
  • fact_verificationタスク — AIエージェントが生成した回答の信頼性を、社内ナレッジベースとの照合でスコアリング

まとめ

Gemini Embedding 2は、エンベディングモデルの「テキスト専用」という常識を打ち破るモデルです。テキスト・画像・動画・音声・PDFの5種類を統一ベクトル空間にマッピングし、Matryoshkaで128〜3072次元を再学習なしで切り替え、100以上の言語でMTEB Multilingual 1位の精度を実現しています。8つのタスクタイプによる用途別最適化も、競合にはない強みです。

テキスト単価だけで見ればOpenAIやCohereの方が安価ですが、マルチモーダル検索という機能面での差別化は圧倒的です。「テキスト以外のデータも検索対象にしたい」というニーズがあるなら、現時点でGemini Embedding 2が最も有力な選択肢です。一方で移行にはベクトル空間の非互換性に伴う全件再エンベディングが必要なため、コストとスケジュールの見積もりは慎重に行いましょう。

企業のデータ資産はテキストだけではありません。会議の録音、製品の写真、操作マニュアルのPDF、研修動画など、あらゆる形式の情報が日常的に蓄積されています。Gemini Embedding 2は、これらのデータを初めて「統一的に検索可能」にするモデルです。RAGの次のステージとして、マルチモーダル検索の導入を検討してみてはいかがでしょうか。

AI活用・データ基盤の整備でお悩みではありませんか?

はてなベースでは、Gemini Embedding 2やRAGを活用したマルチモーダル検索の導入支援を行っています。

  • AIエージェント組み込みサポート
    経理DX事業部が、既存業務フローへのAIエージェント導入を設計から実装まで支援します
  • データ基盤の整備
    AIエージェント活用の前提となるデータ統合・整理を支援。散在するデータを一元化し、AI活用の土台をつくります
  • オンプレミスAI導入支援
    「全社でAIを使いたいがセキュリティが心配」という企業向けに、オンプレミス環境での生成AI導入を支援します
無料相談はこちら

Contactお問い合わせ

はてなベース株式会社へのお問い合わせはこちら。

提携税理士事務所へのお問い合わせはこちら。