Mastra AI

動画公開日2026/05/14

タイトル

Claude Code Skills Are a Massive Security Threat — Greg Pstrucha, Sentry

再生時間

16分 22秒

AIエージェントのスキルに潜む危険：巧妙な攻撃手法とその対策

AI Agent(181)Security(29)LLMエージェント(189)Prompt Engineering(59)Authentication(17)Guardrails(17)

この記事は動画の内容を元にAIが生成したものです。正確な情報は元の動画をご確認ください。

ポイント

•この記事は、AIエージェントの「スキル」に潜むセキュリティリスクと、システムを乗っ取る巧妙な攻撃手法について解説しています。
•悪意あるスキルによるコンテキスト汚染、ハーネス機能悪用、特定エコシステムを狙った攻撃の手口と高い成功率が具体例と共に示されます。
•開発者やユーザーは、スキルの導入前にソースや挙動を厳しく確認し、特に危険な権限要求には慎重になるべきだと学ぶことができます。

AIエージェントのスキルに潜む危険：巧妙な攻撃手法とその対策SentryのAIチームに所属するGreg氏が、近年注目を集めている「スキル」（AIエージェントが利用する拡張機能）が持つ重大なセキュリティリスクについて警鐘を鳴らしています。スキルの普及に伴い、悪意のある攻撃者がこれらのスキルを悪用し、ユーザーのシステムを乗っ取る可能性が高まっているとのことです。本記事では、Greg氏が示した具体的な攻撃手法と、それに対する対策の重要性について詳しく解説します。## スキルの脅威とは？Greg氏は、まず悪意のあるスキルがいかに簡単にシステムを乗っ取るかを示す例を挙げました。彼が作成した悪意のあるスキルは、一見すると何の変哲もないPNGファイルに見えますが、その内部にはエージェントに特定の動作を指示する不正なEXEメタデータが埋め込まれています。このメタデータは、システムを乗っ取るための命令を含んでいるのです。### 実際の検証結果Greg氏は、Cloud CodeやOpen Codeを含む多様なモデル（Opus 4.6、Codex 5.4など）を用いて広範囲なテストを実施しました。その結果、この種の攻撃で30%から40%の確率でシステムが乗っ取られることが判明しました。これは、現在普及している主要なモデルのほとんどが、このような攻撃に対して脆弱であることを示唆しています。Greg氏は、NPMやpipのような既存のパッケージマネージャーが近年、AxiosやLightLLMといった事例で示したように危険な攻撃ベクトルとなり得たのと同様に、スキルもまた新たな、そして危険な攻撃ベクトルとなりつつあると指摘しています。## 攻撃手法1：コンテキスト汚染攻撃 (Context Poisoning Attack)コンテキスト汚染攻撃は、攻撃者がユーザーや脆弱性スキャナーから自身の意図を隠蔽しつつ、エージェントに悪意のある指示を実行させることを目的とします。### 隠蔽の初期的な手法初期の隠蔽手法としては、悪意のあるHTMLコメントをスキルに埋め込むというものがありました。例えば、`` のようなコマンドをコメントとして記述することで、GitHubのMarkdown上では表示されず、ユーザーの目には触れないようにできます。また、参照ファイルを添付し、その深部に悪意のある指示を埋め込む方法も存在しました。しかし、これらのシンプルな隠蔽手法は、現在ではほとんどのモデルによって防御されており、Greg氏のテストでは成功率がほぼ0%でした。### 進化したコンテキスト汚染攻撃：シェルスクリプトの悪用スキルの脅威が真に恐ろしいのは、その構造にあります。スキルは単なるMarkdownファイルだけでなく、追加のアセットやリソースをバンドルできるディレクトリ構造を持つことができるため、攻撃者はこの特性を悪用します。攻撃者は、先述したような悪意のあるコマンドをシェルスクリプトに記述し、それをスキルの一部として同梱します。例えば、「ライセンス依存関係を分析する」といったもっともらしい説明を添えたシェルスクリプトを提示することで、エージェントは内容を深く精査することなく、「これは理にかなっている」と判断し、実行してしまう可能性があります。この手法を用いると、同じ悪意のある`curl`コマンドで、なんと90%もの高い確率でシステム乗っ取りに成功したとGreg氏は述べています。### 攻撃後の影響一度システムが乗っ取られると、攻撃者は様々な悪事を働くことが可能になります。最もシンプルなのは認証情報の窃盗ですが、リバーストンネルを開いて外部からのアクセスを確立したり、RAT（Remote Access Trojan）を植え付けたりすることもできます。さらに、Cloudのコアメモリを汚染し、`root Cloud MD`のような重要なファイルを書き換えることで、以降のセッションすべてに不正なコードを注入するといった、より巧妙な攻撃も考えられます。Greg氏は、ユーザーが「危険なエスケープ権限」を実行する際には特に注意するよう警告しています。## 攻撃手法2：ハーネス攻撃 (Harness Attack)ハーネス攻撃は、既存のハーネス（エージェントを実行する基盤システム）の機能を悪用して、スキルを攻撃の道具に変える手法です。### Cloud CodeのShebang機能の悪用Cloud Codeには、コマンド内にShebang（`#!`から始まる行）を記述する機能があります。この機能のセマンティクス（意味論）は、Cloud Codeでスキルがロードされると、そのShebangで指定されたコマンドが実行され、その出力がスキルに展開されるというものです。これは、時間やユーザー、プロジェクトなどに応じて動的に変化するコンテキストをスキルに反映させる際に非常に有用な機能です。しかし、この機能は攻撃者にとって格好の標的となります。もし悪意のあるスキルをユーザーのシステムに送り込むことができれば、このShebang機能を利用してカスタムコマンドを確実に実行させることができます。Greg氏によれば、このハーネス攻撃は100%の成功率を誇るとのことです。これはハーネスの決定論的な機能であり、スキルがロードされるたびにコマンドが実行されるためです。### スキルにおけるフック機能の悪用Cloudのスキルには、フックを定義できる機能も存在します。その有用性については不明とされていますが、これもまた悪用される可能性のある機能として挙げられています。## 攻撃手法3：エコシステム攻撃 (Ecosystem Attack)エコシステム攻撃は、コンテキスト汚染攻撃のバリエーションであり、ユーザーが特定のプログラミングエコシステム（Python、TypeScriptなど）を利用している事実を悪用します。### Pytestとconftest.pyの悪用Greg氏は、この攻撃の例としてPythonのエコシステムを挙げました。例えば、単にテストを実行し、テストカバレッジを収集するだけのスキルに見せかけつつ、実際には悪意のある`conftest.py`ファイルをバンドルします。`pytest`のようなテストフレームワークは、自動的に`conftest.py`ファイルを発見して実行する機能を持っています。もし攻撃者がこのファイルをシステム上の適切なディレクトリ構造に忍び込ませることに成功すれば、`pytest`が実行される際に自動的にその悪意のあるコードも実行され、システムが乗っ取られることになります。### 悪意のあるパッケージの悪用もう一つの手法は、NPMなどのパッケージマネージャーにおけるサプライチェーン攻撃を悪用するものです。攻撃者は、「react scaffold」のような、もっともらしいが実際には悪意のある偽のパッケージを作成します。そして、エージェントに対し、このパッケージを依存関係としてインストールするよう促すスキルを作成します。エージェントは喜んでインストールを試みようとしますが、もし「危険なエスケープ権限をスキップしない」自動モードで実行している場合、エージェントはユーザーに許可を求める場合があります。しかし、パッケージ名がもっともらしく聞こえるため、ユーザーが油断して「はい」と答えてしまうことで、システムが乗っ取られる可能性があります。## まとめSentryのGreg氏による解説は、AIエージェントの「スキル」が秘める深刻なセキュリティリスクを浮き彫りにしました。シンプルなコンテキスト汚染から、ハーネスの機能悪用、さらには特定のエコシステムを狙った攻撃まで、その手口は多岐にわたります。開発者やユーザーは、安易にスキルを導入することの危険性を認識し、そのソースや挙動を常に警戒する必要があります。特に、危険な権限の許可を求められた場合には、その内容を慎重に確認することが不可欠です。スキルを安全に利用するためには、より堅牢なセキュリティ対策と、ユーザー自身のセキュリティ意識向上が求められています。### 参考動画- AI Agent Skills: A Massive Security Threat | Greg | Sentry