
ハルシネーション(幻覚)は大幅に改善されている
AIを業務に活用しようとする際、多くの担当者が最も懸念する問題の一つが「ハルシネーション(幻覚)」である。AIが事実とは異なる情報を、あたかも正確であるかのように生成してしまう現象だ。2024年から2025年にかけて、標準的なベンチマークタスクにおいては劇的な改善が見られる一方で、タスクの複雑さやモデルの種類によって性能が大きく異なることが明らかになっている。本稿では、ハルシネーション問題の現状と、それがビジネス活用に与える影響について、最新の知見を踏まえて解説する。
ハルシネーションとは何か
問題の本質
ハルシネーションとは、AIが学習データに基づかない情報や、存在しない事実を「創作」してしまう現象を指す。例えば、実在しない論文を引用したり、架空の統計データを提示したりすることがこれに該当する。
従来のAIシステムでは、この問題が深刻であった。特に以下のようなケースで頻発していた。
専門的な知識を問われた場合
存在しない専門用語や、誤った技術的説明を自信満々に提示することがあった。医療や法律など、正確性が求められる分野では特に問題となっていた。
具体的な数値やデータを求められた場合
売上データや統計情報など、正確な数値が必要な場面で、もっともらしい数字を「でっち上げる」ケースが散見された。
なぜハルシネーションは起こるのか
ハルシネーションが発生する主な理由は、AIが「知識の有無」ではなく「文脈の流れ」を重視して文章を生成する性質にある。AIは膨大なテキストデータから言語のパターンを学習しているが、その情報が正確かどうかを独自に検証する仕組みを持っていなかった。
つまり「この文脈では、このような情報が来るのが自然である」という判断に基づいて文章を生成するため、実際には存在しない情報でも、文脈上自然であれば生成してしまうのである。
2024~2025年の技術的ブレイクスルー
標準的なタスクにおける大幅な改善
標準的なベンチマークタスク、特にグラウンデッド(根拠のある情報に基づく)タスクにおいては、確かに劇的な改善が見られている。2021年に21.8%であったハルシネーション率は、2025年には0.7~1.5%まで低下し、約96%の削減を達成した。
しかし、この数値は標準ベンチマークでの測定結果であり、実際の業務での性能とは大きく異なる場合がある点に注意が必要である。同じモデルでも、ベンチマークでは1.5%のハルシネーション率を示す一方で、実際のオープンドメインタスクでは45%に達するケースが報告されており、最大で30倍もの乖離が存在する。
タスクの複雑さによる大きな性能差
ハルシネーション率は、タスクの複雑さに大きく依存することが明らかになっている。
- 標準的なベンチマークタスク: 0.7~5%
- 複雑な推論を伴うタスク: 3~20%以上
- オープンドメインの長文質問応答: 特定のベンチマークでは最大45%程度、実際のユーザー対話では31~60%
- 専門分野(医療): 平均3%、最大18.7%
- 専門分野(法律): トップモデルのベンチマークでは平均4%。ただし、RAGベースの法律専用ツールを用いた実務環境では17~33%のハルシネーション率が報告されている
このように、自社の用途がどの複雑度に該当するかを正確に評価することが、導入の成否を左右する重要な要素となる。
ハルシネーション改善の主要アプローチ
1. 不確実性の明示化
最新のAIモデルは、自身の知識に対する「確信度」を評価できる技術の開発が進んでいる。確信度が低い情報については、以下のような対応を取る研究が進められている。
- 「この情報は不確実である」と明示的に伝える
- 複数の可能性を提示し、断定を避ける
- 情報源の確認を推奨する
ただし、これらの技術の多くは現在研究段階であり、商用モデルへの完全な実装は限定的である。将来的には、このような機能が標準装備される可能性があるが、現時点では一般的な実装とは言えない状況である。
例えば、「2024年の世界GDP成長率は何パーセントか」という質問に対して、将来のシステムでは具体的な数値を断定的に回答するのではなく、「最新の正確な数値を確認するには、IMFや世界銀行などの公式統計を参照することを推奨する」といった、より慎重な回答を行うことが期待されている。
2. 検索機能との統合(RAG)
大きな改善の一つは、AIが自身の知識だけに頼らず、リアルタイムで外部情報を検索・参照できるようになったことである。この技術はRAG(Retrieval-Augmented Generation)と呼ばれ、実証された効果を上げている。
従来の仕組み
AIは学習時点までの情報のみに基づいて回答を生成していた。そのため、最新情報や学習していない詳細情報について問われると、ハルシネーションのリスクが高まった。
現在の仕組み
質問内容に応じて、AIが自動的にWeb検索を実行し、最新かつ信頼性の高い情報源から情報を取得する。その上で、取得した情報に基づいて回答を生成するため、ハルシネーションのリスクが大幅に低減している。
適切に使用された場合、RAGによってハルシネーション率を40~71%削減できることが複数の研究で実証されている。特に医療分野では、適切なRAGシステムにより40%以上の削減効果が報告されている。
3. 引用と根拠の明示
現代のAIシステムは、情報の出典を明示する機能が強化されている。単に回答を提示するだけでなく、その情報がどこから来たのかを示すことで、ユーザーが情報の信頼性を判断できるようになった。
これにより、たとえAIの回答に不正確な部分があったとしても、ユーザー自身が元の情報源を確認し、検証することが容易になっている。
実務への影響と活用のポイント
ハルシネーション改善がもたらす変化
意思決定への活用が現実的に
標準的なタスクや適切なRAGを組み合わせた場合、AIの出力を意思決定の参考にすることが、以前より現実的になってきている。ただし、タスクの複雑度とリスクを適切に評価し、段階的に導入することが重要である。戦略立案や経営判断の補助ツールとして活用する場合でも、最終的な判断は必ず人間が行うという前提は維持されている。
専門分野での活用範囲の拡大
医療、法律、金融など、高い正確性が求められる分野でも、AIの活用が進んでいる。医療分野では全国1,800以上の施設でAI問診システムが導入され、200以上の医療施設で脳動脈瘤検出をはじめとする各種AI医療機器が稼働している。ただし、専門分野でも依然として平均4~6%程度のハルシネーション率が観測されており、最終的な判断は必ず専門家が行うという原則が全ての事例で維持されている。
依然として注意すべきポイント
改善が進んだとはいえ、ハルシネーションが完全に消失したわけではない。実務でAIを活用する際は、以下の点に注意が必要である。
タスクの複雑度を正確に評価する
自社の用途が単純なデータ要約なのか、複雑な推論を伴うのかを明確にする必要がある。単純なタスクでは0.7%程度のハルシネーション率も、複雑なタスクでは20~45%に跳ね上がる可能性がある。
ベンチマーク性能を過信しない
ベンチマークで優秀な性能を示すモデルでも、実際の業務データでは性能が大きく低下する可能性がある。必ず自社の実際のデータで十分な検証を行うことが重要である。
モデル選択の慎重な判断
最新モデルが必ずしも最適とは限らない。特に推論モデルでは、一部のタスクでハルシネーション率が悪化している事例もある。用途に応じた適切なモデル選択が必要である。
クリティカルな情報は必ず検証する
契約内容、医療情報、法律解釈など、重要な判断に関わる情報は、必ず人間が最終確認を行う必要がある。
情報源の確認習慣
AIが提示する情報については、可能な限り出典を確認する習慣をつけることが重要である。特に数値データや統計情報については、元のデータソースまで遡って確認することが望ましい。
複数の情報源との照合
一つのAIシステムの回答だけに依存せず、複数の情報源や異なるシステムの回答と照合することで、より高い信頼性を確保できる。
今後の展望
技術的進化の方向性
リアルタイム検証システム
AIが生成した情報を、別のシステムが自動的に検証する「二重チェック機構」の研究が進んでいる。例えば、MIT、Harvard、CMUの共同研究では、CHECK classifierと呼ばれる検証システムにより、医療質問応答のハルシネーション率を31%から0.3%に削減することに成功している。ただし、こうしたシステムの広範な商用実装時期については、現時点では未確定である。
専門知識データベースとの連携強化
医学論文データベースや法律条文データベースなど、信頼性の高い専門情報源との直接連携が進んでいる。これにより、専門分野におけるハルシネーションリスクがさらに低減することが期待される。
組織としての対応
AIリテラシー教育の重要性
ハルシネーションのリスクを理解し、適切に対処できる人材の育成が急務である。2025年度には新入社員へのAI研修実施率が前年比17ポイント以上上昇しており、企業においてもAIリテラシー教育の重要性が広く認識されている。全社員が基本的なAIリテラシーを身につけることで、より安全で効果的なAI活用が可能になる。
段階的導入とリスク評価
AI導入にあたっては、以下のようなアプローチが推奨される。
- 低リスクタスクから開始
単純なデータ要約など、ハルシネーションの影響が限定的なタスクから着手する - 実データでの十分な検証
ベンチマーク性能だけでなく、実際の業務データで性能を評価する - 段階的な権限付与
実績に基づいて徐々に適用範囲を拡大する - 継続的なモニタリング
定期的に精度を評価し、問題があれば即座に対応する
ガイドラインの整備
各組織において、AI活用に関する明確なガイドラインを策定することが推奨される。どのような場面でAIを活用できるか、どのような検証プロセスが必要かを明文化することで、リスクを最小化できる。
まとめ
ハルシネーション問題は、2024年から2025年にかけて、標準的なベンチマークタスクにおいて劇的な改善を見せている。不確実性の明示化に関する研究、検索機能との統合、引用機能の強化などにより、特定の条件下でのAIの信頼性は大きく向上した。
しかし、完全な解決には至っていない。タスクの複雑さによって性能は大きく異なり、最新モデルでも課題が残る場合がある。重要なのは、AIの能力と限界を正しく理解し、以下の点を踏まえた上で活用することである。
- タスクの複雑度を正確に評価する
- ベンチマーク性能を過信せず、実データで検証する
- 用途に応じた適切なモデルを選択する
- 適切な検証プロセスを組み込む
- 段階的に導入し、継続的にモニタリングする
技術の進化を正しく理解し、賢く活用していくことが、これからのビジネスにおいて競争優位を築く鍵となるであろう。
ハルシネーション改善は、AIをより信頼できるパートナーへと進化させる重要なマイルストーンである。この進化を味方につけ、人間の判断力とAIの情報処理能力を適切に組み合わせることで、より質の高い意思決定と価値創造が実現できる時代が到来しつつある。ただし、その実現には、技術の可能性だけでなく限界も正しく認識し、慎重かつ戦略的にアプローチすることが不可欠である。
