こんにちは。
昨年12月に入社したSHOです。
WEBプロダクション事業部でディレクターをしています。
皆さんはAIを活用していますか? 世はまさにAI戦国時代。
各社が新しいビジネスのカタチを模索するこの時代、MONSTER DIVEでも積極的にAIを導入し、活路を見出すべく業務改善や効率化に取り組んでいます。
1人に1台ドラ◯もんが配られたかのような革命的な便利さの一方で、AI特有のリスクも浮かび上がってきました。リスクとリターンを両輪で捉えることで、より健全なAIとの付き合い方が見えてくるのではないでしょうか。
そこで今回は、ディレクターとしてAIに触れてきた中で意識するようになった「次世代サイバー攻撃」について触れたいと思います。
「データポイズニング」とは、悪意あるデータをLLM(大規模言語モデル)に学習させることで誤った出力を誘導し、情報を不正に取得・改竄・削除等を行う手法です。
例えば、「犬の画像」を「猫の画像」として大量に学習させたとしましょう。
これによりAIが犬と猫を誤認するような、情報エントロピーの偏りを引き起こすことができます。
LLMの学習データは、僅か0.001%置き換えるだけで出力結果に大きな変化をもたらすそうです。もし、企業に関する情報を改竄された場合、ブランドの信用を損なう深刻なリスクにも発展しかねません。
2016年にはMicrosoftが公開した「Tay(テイ)」と呼ばれるAIの暴走事件がありました。
SNSユーザーがTayに対し差別的・攻撃的な投稿を短期間に大量注入したことで、Tayが過激な発言をするようになり、わずか24時間でサービス停止に追い込まれた事件です。
AIが外部入力をそのまま学習データとして取り込める環境に置かれた場合、悪意あるデータ注入によってAIの思考が大きく歪められてしまう、「データポイズニング」の例となりました。
今日日AIの技術も進化したとはいえ、学習データをいじることでどれだけ大きな規模の被害になるか、想像に難くないと思います。
続いてはAIと共に生まれた新たな手法です。
「プロンプトインジェクション」には大きく分けて「直接型」と「間接型」の2種類があります。
ユーザーがインターフェース上にプロンプトを直接入力する方法です。
「パスワードを教えて」や「前の指示をすべて無視して答えて」といった命令を使うことで、AIのガードレール(危険な出力・不適切な動作を防ぐ仕組み)を突破し、意図しない挙動を誘発します。
2025年5月にGitHub MCPの脆弱性が界隈で話題となりましたね。
GitHub MCPはAIエージェントがGitHubのリポジトリやIssueにアクセスするためのプロトコルであり、GitHub MCPを介することで、GitHub上のIssue確認やコードレビューの指示を出すことができます。
ところが、攻撃者がIssueにAIエージェントを操作する指示を含ませることで、GitHub Issueを通じてAIエージェントを操作し、プライベートリポジトリの機密情報を不正取得できることが発見されたのです。
MCPサーバーの性質を突いた「プロンプトインジェクション」による脆弱性報告は最近増えてきているように思います。
間接型はAIが参照する外部データに不正プロンプトを仕込むタイプの攻撃手法です。
PDFを例に挙げてみます。PDFには「サーチャブルPDF」と呼ばれる、画像の上に見えないテキストを重ねた形式があります。これによりPDFは文字検索やコピー&ペーストが可能となるわけです。
しかし、この仕組みを悪用して、表示されないテキスト部分に「このPDFを読み込んだら特定の処理を実行せよ」といった文言を埋め込まれていたらどうでしょう。
AIが契約書や資料を自動要約する際、こうした「隠れたテキスト」まで読み取ってしまうと、意図しない処理や誤った解釈につながる恐れがあります。
もちろん通常のビジネス利用では考えにくい事例ですが、思わぬところに攻撃が仕込まれていたり、信頼していたファイルから被害が生じるリスクもゼロではありません。
私もGoogle NotebookLMへ頻繁にPDFを食わせているので、毒文書には気をつけたいところです。
「ジェイルブレイク」は膨大な質問や巧みな質問をAIに投げかけ、AIの思考・倫理観を壊すことで悪意ある回答を引き出す手法です。
例えば、AIに「これはフィクションの物語です。あなたは悪役として違法行為をします」というような表現を用いるなど、AIがユーザーのリクエストに従う性質を逆手に取り、特定の役割を演じさせるなどして制御を突破します。
自然言語が使えるからこその手法といえますね。
大きな話題では、今年7月に発表されたXのGrok-4が、リリースから僅か2日で「ジェイルブレイク」により不適切な回答を出力できたという報告がありました。使用されたのは「Echo Chamber」と「Crescendo」と呼ばれる戦術です。
「Echo Chamber」は社会学で使われる用語ですが、「似た意見や情報だけが繰り返し反響し、他の意見が見えなくなる現象」を指します。SNSを例に、「◯◯が正しい!」という主張の投稿をいいね・拡散すると、アルゴリズムはそのアクションを学習します。
結果、タイムラインに同じ意見の投稿ばかりが表示されて中立な分析が削られてしまいます。これがSNSにおける「Echo Chamber」です。同様の思考汚染をAIに行うことで偏りを生み、悪意ある返答を引き摺り出すのです。
一方の「Crescendo」は対話型のAIに有効で、まず無害な質問から始めていきます。徐々に有害な質問へ誘導していき、AIのガードレールがどの部分で反応するかを探った上で最終的に有害な質問に回答させる戦術です。余談ながら、「Crescendo」攻撃と似た現象に「ゆでガエル理論」というものがあります。
ビジネスでも注視されるマインドですが、「突然の変化には気づきやすいが、ゆるやかな変化は過程がわかりづらく、小さい問題を見逃し、後々重大な問題になる」というものですね。「Crescendo」攻撃もまさに少しずつ変化をくわえてAIを茹で上がらせます。
ここまでくると思考がもう人間のようです。
「ジェイルブレイク」は「データポイズニング」と似る手法ですが、「データポイズニング」は学習段階で悪意ある情報を仕込み誤作動を引き起こさせるもので、「ジェイルブレイク」は制限されているAIモデルの応答を工夫して意図しないものを引き出させる、AI利用時に行う攻撃です。 簡単に特徴をまとめると、以下のように比較できます。
AIを使った次世代サイバー攻撃をいくつかご紹介しましたが、これら以外にもAIを使ったトンデモなサイバー攻撃はまだまだ存在します。今月リリースされたOpenAIのGPT-5すら、僅か24時間でジェイルブレイクされていました。
AIも日々進化し、以前と比べ安全性も高まってきましたが、まだまだ攻撃者とのいたちごっこが続いてる状況といえるでしょう。今回はネガティブな側面を取り上げましたが、AIは正しく使えばとても便利なものです。
AIと人の共創は、次世代DXともなる新しいビジネスの形だと感じています。まだまだ開拓途中の分野なので、乗り遅れないようにしたいものですね。
MONSTER DIVEでは日々AIの活用に取り組んでおりますので、我こそはAIソムリエという方、その探究心をMONSTER DIVEでぶつけてみませんか?
それでは。