Anthropicがシステムプロンプトを公開｜Claude Opus 4.7の「内部指示書」から見えるAI透明性の新基準 ‣ はてなベース株式会社

この記事でわかること

Anthropicが「Transparency Hub」を通じてClaudeのシステムプロンプトを全文公開しました。AIがどのような内部指示に基づいて動作しているかが、誰でも確認できるようになっています。この記事では、公開されたシステムプロンプトの具体的な内容、他社との透明性の比較、そして企業のAI活用にとってこの公開がなぜ重要かを解説します。

Transparency Hubとは — Anthropicが公開した理由

Anthropicが開設した「Transparency Hub」は、同社のAIモデル「Claude」がどのような内部指示（システムプロンプト）に基づいて動作しているかを一般公開するプラットフォームです。Claude.aiで使われているシステムプロンプトの全文が閲覧でき、過去のバージョンとの差分も確認できます。

AIの透明性は、これまで業界全体の課題でした。「なぜこの回答をしたのか」「どのようなルールに従っているのか」が外部から検証できないことは、AIの信頼性に対する懸念の根源でした。Anthropicは、この問題に対して「ルールそのものを公開する」という直接的なアプローチで応えました。

Anthropicの共同創業者であるDario Amodei氏は、「AIの安全性は秘密主義からは生まれない」と述べています。Transparency Hubの公開は、この理念の具体的な実践であり、AI企業としては異例の試みです。ユーザーがClaudeの「行動原理」を理解した上で利用できるようにすることで、AIとの信頼関係を構築しようとしています。

システムプロンプトとは何か

システムプロンプトは、AIモデルが会話を始める前に読み込む「内部指示書」です。ユーザーからは見えない場所に配置されており、AIの振る舞い全体を規定します。「どのようなトーンで話すか」「何を拒否すべきか」「ツールをどのように使うか」など、AIの性格と判断基準を定義する文書です。

たとえば、人間の新入社員に渡す業務マニュアルを想像してみてください。「お客様には丁寧語で対応する」「返品対応の際は理由を確認する」「上司の承認なしに値引きしない」といったルールが書かれているのと同じように、システムプロンプトにはAIの「業務ルール」が記載されています。

重要なのは、システムプロンプトはモデルの学習データとは別物だということです。GPTやClaudeの「知識」は学習データから来ていますが、「行動規範」はシステムプロンプトで制御されています。同じモデルでも、システムプロンプトを変えれば振る舞いが大きく変わります。企業がClaude APIを利用する際には、自社独自のシステムプロンプトを追加して、業務に特化した行動ルールを設定できます。

公開されたシステムプロンプトの主な内容

Transparency Hubで公開されたClaude Opus 4.7のシステムプロンプトは、数千トークンに及ぶ詳細な文書です。主な構成要素を分野ごとに整理します。

トーンと会話スタイル

Claudeのシステムプロンプトには、回答のトーンや文体に関する詳細な指示が含まれています。「簡潔で直接的な回答を心がける」「不必要な前置きを避ける」「ユーザーの質問に正面から答える」といった方針が明記されています。これが、Claudeが他のAIモデルと比べて「回りくどくない」と評価される理由です。

興味深いのは、「ユーザーの指示に従いつつも、卑屈にならない」という微妙なバランスが指示されている点です。「ユーザーのリクエストに異論がある場合は、丁寧に自分の見解を述べる」「ただし最終的にはユーザーの判断を尊重する」という段階的な対応方針が定められています。AIに「意見を持たせる」という設計は、単なるイエスマンではない対話相手を目指すAnthropicの思想が反映されています。

また、回答の長さについても「ユーザーの質問の複雑さに応じて調整する」「シンプルな質問にはシンプルに答え、複雑な質問には詳細に答える」という適応的なルールが設けられています。これは、ChatGPTが「常に詳細な回答をする傾向がある」と比較されるClaudeの特徴を裏付けるものです。

ツール使用のルール

Claude Opus 4.7はウェブ検索、コード実行、ファイル操作などの外部ツールを使用できますが、システムプロンプトにはツール使用の判断基準が細かく定められています。「ユーザーが最新情報を求めている場合はウェブ検索を使用する」「コードの実行結果を確認する場合はコード実行ツールを使う」「ツールの使用が不要な場合は直接回答する」というルールです。

特に注目すべきは、ツールの使い過ぎを抑制するルールです。「ツールを使わなくても回答できる場合は、ツールを使わずに回答する」「複数のツールを連鎖的に呼び出す場合は、本当に必要か慎重に判断する」という指示が含まれています。これは、AIエージェントが不必要にツールを呼び出してコストを増加させたり、処理時間を延ばしたりすることを防ぐための工夫です。

ツールの使用に関する透明性も確保されています。「ツールを使用した場合は、その旨をユーザーに伝える」「ウェブ検索の結果を使用した場合は、情報源を明示する」といったルールにより、ユーザーはClaudeの回答がどのような情報に基づいているかを把握できます。

メモリと知識の扱い

システムプロンプトには、Claudeの知識の限界に関する正直な記述が含まれています。「学習データのカットオフ日以降の情報については、その旨を明示する」「不確実な情報については、確信の度合いを伝える」「わからないことは『わからない』と答える」といったルールです。

この「わからないと言える」ルールは、ハルシネーション（もっともらしい嘘）を抑制する重要な仕組みです。多くのAIモデルは、わからない質問に対しても何らかの回答を生成しようとする傾向がありますが、Claudeのシステムプロンプトは明示的に「自信がない場合は正直にそう伝える」ことを求めています。

メモリ機能については、「ユーザーとの過去の会話から学んだ情報を活用する場合は、その情報がメモリから取得されたものであることを伝える」「メモリの内容に誤りがある可能性を認識し、ユーザーに確認を求める」といったルールが設けられています。AIが「覚えている」ことの限界を正直に伝える姿勢は、過度な信頼を防ぐために重要です。

安全性と拒否ルールの仕組み

システムプロンプトの中でも最も注目を集めているのが、安全性に関するルールです。「何を拒否すべきか」「どのような場合に注意を促すべきか」が具体的に記載されています。

拒否するケースの明文化

Claudeが回答を拒否するケースは、システムプロンプトで明確に定義されています。違法行為の支援、個人を特定する情報の生成、差別的なコンテンツの作成などが拒否対象として列挙されています。重要なのは、拒否の判断が「キーワードマッチ」ではなく「文脈に基づく判断」で行われるよう指示されている点です。

たとえば、「爆弾の作り方」というキーワードが含まれていても、化学の授業での学術的な説明や、歴史的な文脈での解説は拒否対象にならないことが明記されています。逆に、直接的な危険キーワードを含まなくても、文脈から悪用の意図が推測される場合は注意を促す仕組みになっています。この「文脈依存の判断」は、単純なフィルタリングでは実現できない高度な安全設計です。

拒否の際のトーンについても指示があります。「拒否する場合でも、ユーザーを非難しない」「なぜ回答できないかの理由を丁寧に説明する」「可能であれば、代替の質問や別のアプローチを提案する」といったルールにより、安全性を維持しつつもユーザー体験を損なわないバランスが取られています。

「グレーゾーン」の扱い

完全に拒否すべきケースと完全に回答すべきケースの間には、判断が難しい「グレーゾーン」が存在します。システムプロンプトは、このグレーゾーンについても具体的なガイドラインを提供しています。

「ユーザーの意図が善意であると合理的に推測できる場合は、回答を提供する」「回答に潜在的なリスクがある場合は、注意事項を添えた上で回答する」「判断に迷う場合は、安全側に倒す」という段階的な方針です。この「安全側に倒す（err on the side of caution）」という原則は、Anthropicの安全思想の核心を反映しています。

公開されたシステムプロンプトを読むことで、「なぜClaudeはこの質問に答えてくれなかったのか」「なぜこの質問には注意書き付きで答えてくれたのか」という判断の根拠が理解できるようになります。これは、AIの振る舞いを「予測可能」にするという意味で、ユーザーにとって大きな価値があります。

OpenAI・Googleとの透明性比較

Anthropicのシステムプロンプト公開は、AI業界全体の透明性の基準にどのような影響を与えるのでしょうか。主要3社のアプローチを比較します。

項目	Anthropic (Claude)	OpenAI (ChatGPT)	Google (Gemini)
システムプロンプト	全文公開	非公開	非公開
安全性ポリシー	公開（Usage Policy + プロンプト）	概要のみ公開	概要のみ公開
モデルカード	公開（詳細な技術情報）	公開（System Card）	公開（Technical Report）
拒否基準の詳細	プロンプト内で具体的に明示	非公開（内部ルール）	非公開（内部ルール）
バージョン履歴	公開（差分確認可能）	なし	なし

この比較から明らかなように、システムプロンプトの全文公開はAnthropicだけが実施しています。OpenAIもGoogleも、モデルの技術情報や安全性ポリシーの概要は公開していますが、実際にモデルの振る舞いを制御している内部指示書は非公開のままです。

OpenAIは過去に、ChatGPTのシステムプロンプトがユーザーによって「脱獄」（jailbreak）手法で引き出されたことがあります。これは意図的な公開ではなく、セキュリティの穴を突かれた結果です。Anthropicのアプローチは、「どうせ引き出される可能性があるなら、最初から公式に公開したほうが透明性が高い」という判断に基づいています。

ただし、システムプロンプトの公開にはリスクもあります。悪意のあるユーザーがプロンプトの内容を分析し、拒否ルールの「抜け穴」を見つけて悪用する可能性があります。Anthropicはこのリスクを認識した上で、「透明性のメリットがリスクを上回る」と判断しています。また、システムプロンプトは定期的に更新されており、脆弱性が発見された場合は迅速に修正されます。

企業にとっての意味 — AIの判断基準が見えること

システムプロンプトの公開は、AIを業務に導入する企業にとって具体的なメリットをもたらします。最も重要なのは、「AIがどのようなルールに基づいて判断しているか」を事前に把握できるようになった点です。

導入前のリスク評価が容易に

企業がAIを業務に導入する際、「このAIは社内の機密情報をどう扱うのか」「不適切な回答を返すリスクはどの程度か」といった評価が必要です。これまでは、AIの振る舞いを実際に大量のテストケースで試して確認する必要がありましたが、システムプロンプトが公開されていれば、導入前にルールを読んでリスクを評価できます。

たとえば、金融機関がClaudeを顧客対応に使う場合、システムプロンプトの拒否ルールを確認して「投資助言に該当する回答を拒否するルールが含まれているか」を事前にチェックできます。ルールが不十分であれば、自社のシステムプロンプトで追加のルールを上乗せすることで対応できます。

コンプライアンス部門や法務部門にとっても、AIの判断基準が文書化されていることは重要です。規制当局から「御社のAIはなぜこのような回答をしたのか」と問われた際に、システムプロンプトを根拠として説明できることは、責任の所在を明確にする上で大きな意味があります。

プロンプトエンジニアリングへの示唆

システムプロンプトの公開は、企業がAIを効果的に活用するためのヒントの宝庫でもあります。Anthropicがどのような指示の書き方でClaudeの振る舞いを制御しているかを学ぶことで、自社のプロンプト設計に応用できます。

たとえば、トーンの制御に関するシステムプロンプトの書き方は、企業が社内チャットボットのトーンを設定する際の参考になります。「簡潔に答える」「不確実な情報には注記を付ける」「拒否する場合でも代替案を提示する」といったルールのフォーマットは、そのまま自社のシステムプロンプトのテンプレートとして活用できます。

Anthropicのシステムプロンプトが数千トークンに及ぶ詳細な文書であることも示唆的です。効果的なプロンプトは「短く簡潔」であるべきという一般的な理解に反して、AIの振る舞いを精密に制御するには、具体的で詳細な指示が必要であることがわかります。企業のシステムプロンプトも、「こう答えてほしい」という抽象的な指示ではなく、「このケースではこうする、あのケースではああする」という具体的なルールの積み重ねが効果的です。

まとめ

Anthropicのシステムプロンプト公開は、AI業界に「透明性の新基準」を提示する重要な動きです。Claude Opus 4.7がどのようなルールに基づいて回答し、何を拒否し、どのようなトーンで話しているかが、誰でも確認できるようになりました。

OpenAIもGoogleもシステムプロンプトを公開していない現状では、Anthropicのアプローチは業界でも異例です。透明性は、AIの信頼性を構築する上で不可欠な要素であり、今後他社がこの動きに追随するかどうかが注目されます。

企業のAI活用において、この公開は「導入前のリスク評価」と「プロンプト設計の参考」という二つの実務的な価値をもたらします。AIの判断基準が見えることで、「AIが何をするかわからない」という不安が軽減され、より積極的なAI活用の判断が可能になります。Transparency Hubは、AIへの信頼が「ブラックボックスへの盲信」ではなく「理解に基づく信頼」へと変わるための第一歩です。

AI導入・活用でお悩みではありませんか？

はてなベースでは、ClaudeやGPTなどの最新AIモデルを業務に安全に組み込むための支援を行っています。AIエージェント組み込みサポート（経理DX事業部が、既存業務フローへのAIエージェント導入を設計から実装まで支援します）／データ基盤の整備（AIエージェント活用の前提となるデータ統合・整理を支援。散在するデータを一元化し、AI活用の土台をつくります）／オンプレミスAI導入支援（「全社でAIを使いたいがセキュリティが心配」という企業向けに、オンプレミス環境での生成AI導入を支援します）。

無料相談はこちら