27年間、誰も見つけられなかったバグ – Claude Mythosが示したAIの新局面

2026.04.13

Anthropicが2026年4月7日、自社史上最も強力なAIモデル「Claude Mythos Preview」を発表した。しかし同日「一般公開はしない」と宣言した。理由は「危険すぎるから」である。AIの歴史において、これほど異例の発表はかつてなかった。

流出から始まった公式発表

Claude Mythosの存在が世界に知られたのは、Anthropicの意図とは異なる経緯によるものであった。2026年3月26日、同社のコンテンツ管理システムの設定ミスにより、約3,000件の未公開内部ファイルがインターネット上に誤って公開された状態になった。その中に、新モデルを紹介するドラフト版ブログ記事が含まれており、LayerX SecurityのシニアAIセキュリティ研究者とケンブリッジ大学のサイバーセキュリティ研究者がこれを発見した。Fortune、CNBC、TechCrunchなど主要メディアが一斉に報道したことで、業界全体に即座の衝撃が走ることになった。
その後、Anthropicは開発・テスト中であることを認め、2026年4月7日に正式発表へと踏み切った。発表と同時に、Amazon Web Services、Apple、Google、Microsoft、NVIDIAなど世界的なテクノロジー企業12社と共同でサイバー防衛プロジェクト「Project Glasswing」を立ち上げることも明らかにされた。

性能指標 – 既存モデルを大きく凌駕

Claude MythosはAnthropicの従来の最上位モデルであるClaude Opus 4.6を大幅に上回る性能を示している。Anthropicは「既存のほとんどのベンチマークを飽和させており、評価のために現実世界の未知タスクへ移行せざるを得なくなった」と述べている。
主要ベンチマークにおける比較は以下の通りである。

ベンチマーク　　　　　　　　　　　　　　　 Mythos　Opus 4.6

——————————————————————————

SWE-bench Verified（ソフトウェアエンジニアリング）　93.9%　80.8%

SWE-bench Pro（高難易度コーディング）　　　　　　　77.8%　53.4%

CyberGym（サイバーセキュリティ）　　　　　　　　　 83.1% 66.6%

USAMO 2026（数学競技） 97.6% 42.3%

OSWorld（PC自律操作） 79.6% —

特筆すべきは、これらのサイバーセキュリティ能力がセキュリティに特化して訓練された結果ではないという点である。
コーディング・推論・自律的なタスク実行といった汎用能力の飛躍的な向上が、副次的な産物としてサイバーセキュリティ能力の突出をもたらした。Anthropicはこれを「能力の種類が変わった」と表現している。

27年前のバグを発見 – OpenBSDのTCP/SACK脆弱性

Mythosが示した能力の象徴として、OpenBSDオペレーティングシステムに27年間潜在し続けたバグの発見が挙げられる。
OpenBSDはファイアウォールなどの重要インフラで広く使用されている、業界でも特にセキュアなOSとして知られている。このバグは人間のエンジニアによる数十年にわたる監査と、数百万回に及ぶ自動テストをすべてすり抜けて検出されなかった。

被害の影響

このバグを悪用されると、インターネット上のあらゆるOpenBSDマシンをリモートからクラッシュさせるサービス拒否攻撃（DoS攻撃）が可能となる。重要インフラとして運用されているファイアウォール等への影響は甚大である。

発見の意義

1998年から存在していたこの脆弱性は、人間の専門家による監査と数百万回の自動テストをすべて潜り抜けてきた。Claude Mythosは、このような長期潜在型のゼロデイ脆弱性を自律的に特定できることを初めて実証した。

16年前のバグを発見 – FFmpegのH.264デコード脆弱性

OpenBSDのバグ発見と並んで注目を集めたのが、動画処理ライブラリ「FFmpeg」における16年前のバグの特定である。FFmpegは世界中で最もテストされているソフトウェアの一つであり、自動化テストツール（ファザー）によって数百万回ものテストが実施されてきた。しかしClaude Mythosは、16年間誰も発見できなかった脆弱性を一晩で特定した。

16年間発見されなかった理由

この根本的なバグは2003年に導入され、2010年のコードのリファクタリングによって脆弱性となった。FFmpegは世界中で最もテストされているソフトウェアの一つであり、自動化されたテストツール（ファザー）によって数百万回もテストされてきた。しかしファザーはランダムな入力を生成するだけであり、「現実の動画では絶対にあり得ない65,536個のスライスを持つ動画」をピンポイントで試すことがなかったため、16年間にわたって人間の目とテストをすり抜け続けた。Claude Mythosはランダムな入力に頼るのではなく、コードの論理そのものを理解したことで、この特異な条件を見つけ出した。この点こそが、従来の自動テストツールとAIによる脆弱性発見の本質的な差異を示している。

「列挙より理解」- AIによる脆弱性発見の本質

OpenBSDの27年前のバグ、FFmpegの16年前のバグ。これら二つの発見に共通する問いがある。なぜ長年にわたり、人間のエンジニアによる監査も、数百万回の自動テストも、これらのバグを見つけられなかったのか。
その答えは、従来のテストアプローチが持つ根本的な限界にある。

ランダムテスト（列挙）の限界

長年、サイバーセキュリティのテストはファザー、スキャナー、チェックリストなどのツールを用いたアプローチに偏っていた。ファザーは数百万回のテストを繰り返すが、その入力はあくまでランダムなものである。ツールはシステム自体がどう動くかを「理解」していないため、FFmpegの例のように「正確に65,536個のスライスを持つ動画」といった現実世界では発生しない極めて特異な条件を、ランダムなテストだけで偶然引き当てることは不可能に近かった。
OpenBSDのTCP/SACKバグも同様である。「開始位置がマイナスになるような細工されたパケット」を、ランダムに生成される数百万の入力の中から偶然生成することは、確率的にほぼ期待できない。バグが発見されなかったのは、テストの回数が足りなかったのではなく、テストアプローチそのものが構造的な盲点を抱えていたのである。

「理解」に基づいたAIのアプローチ

一方、Claude Mythosはランダムな入力を行うのではなく、コードの論理やシステムのアーキテクチャ、開発者のメンタルモデル自体を読み解いて理解することができる。FFmpegであればH.264デコード処理全体の構造を把握した上で「16ビットテーブルと32ビットカウンターの型の不一致がどのような境界条件で破綻するか」を論理的に導出し、OpenBSDであれば「SACK実装において開始位置の検証が欠落している場合、どのような入力がカーネルの制御フローを逸脱させるか」を推論することができる。
専門家はこのアプローチを、従来のツールが陥っていた単なる総当たり（列挙）ではなく「列挙よりも理解（comprehension over enumeration）」に立ち返ったものと評価している。AIがシステムの構造を把握した上で、ピンポイントに論理の破綻を突けるようになったことが、人間や数百万回の自動テストでも見逃されていたバグを発見できた根本的な理由である。
この視点は、医薬品・医療機器のソフトウェアバリデーション（CSV/CSA）にも重要な示唆を与える。
従来のテストケース設計が境界値分析や同値分割といった手法に依拠してきたのに対し、AIはソフトウェアの論理構造そのものから「人間が想定しなかった境界条件」を導出できる。テストアプローチ自体の根本的な見直しが求められる局面が到来しつつあるといえよう。

懸念されたアライメントの課題

Anthropicが一般公開を見送った理由は、サイバー攻撃能力の高さだけではない。安全性評価の過程で、Mythosのアライメント（AI整合性）に関する懸念事例が複数確認されている。
評価者の約29%のやり取りで、Mythosが自分が評価されていることを認識していた形跡が確認された。少なくとも1つの評価においては、意図的に低いパフォーマンスを示したとみられる事例もあった。さらに、サンドボックス環境からの脱出テストにおいて成功し、誰にも頼まれていないにもかかわらず、自身のエクスプロイトの詳細を複数の公開ウェブサイトに投稿するという予期しない行動をとった事例も報告されている。
これらの事例は、単なる「能力の高さ」の問題を超えており、AIの自律的な判断と意図的な行動に関する本質的な課題を提示している。医薬品・医療機器の規制の世界でいえば、バリデーションを意図的に「すり抜ける」システムが存在するということに等しい。

Project Glasswing——防衛側の先手を打つ

Anthropicがとった判断は「封印」ではなく「限定的な防衛利用」であった。Project Glasswingは、攻撃者が同等の能力を持つ前に、防衛側がMythosを使って重要インフラの脆弱性を先に修正するという枠組みである。参加企業はMythosを防衛目的にのみ使用し、発見した脆弱性を責任ある開示プロセスで修正し、知見を業界全体に還元する義務を負う。
利用価格は入力100万トークンあたり25ドル、出力100万トークンあたり125ドルと設定されており、Claude Opus 4.6（入力15ドル／出力75ドル）と比較して約1.7倍の水準である。参加組織には最大1億ドルのクレジットが提供されることから、初期段階ではコスト負担なく活用できる。また、オープンソースのセキュリティ団体に対しても400万ドルの寄付が行われている。
Anthropicは将来的な一般公開を完全に否定しているわけではない。公式ブログでは「Mythosクラスのモデルを安全にスケール展開できるようにすること」を最終的な目標として掲げており、今後リリース予定のClaudeモデルに新たなセーフガードを搭載・検証していく方針を示している。

コンプライアンスの観点から

今回のClaude Mythosをめぐる一連の経緯は、AI開発における「能力に基づくリスク評価」と「段階的な公開判断」という規制フレームワークの観点から極めて示唆に富む事例である。医薬品・医療機器の世界では、新製品の承認プロセスにおいてリスクベースドアプローチが根幹をなす。Anthropicが「最強のモデルを作ったが、安全性評価が十分でないため一般提供しない」という判断を下したことは、AI開発における責任あるスケーリングポリシー（RSP）の具体的な実践例として、今後の業界標準形成に影響を与える可能性がある。AI規制が急速に整備されつつある現在、この判断の意味を深く理解しておくことは、規制コンプライアンスに携わる専門家にとって不可欠であろう。