视觉提示词注入详解

短答案

什么是视觉提示词注入

视觉提示词注入就是通过“视觉表面”而不是普通文本框传递的提示词注入。最简单的版本，是在图片或截图里塞进指令文本；更高级的版本，则会把这些文字做得不显眼，让人类不容易注意到，但模型仍可能通过 OCR 或视觉理解能力读出来。

对多模态系统而言，这并不是边缘问题。模型越擅长读取图片文字、越擅长把文本转成行动，视觉提示词注入就越值得认真对待。

同样的能力既是卖点，也是攻击面。模型越擅长从图片中读出文字、理解界面并据此行动，攻击者就越能利用这些能力把视觉内容转成控制信号。

对智能体来说，风险还会进一步升级，因为失败可能直接变成动作：错误点击、错误推荐、错误导航或数据暴露事件。也正因此，视觉提示词注入不应被当成“只是回答错了”的问题。

最准确的产品表述是：Veridicus Scan 适合作为导入视觉内容的“预接入控制”。当图片、截图、扫描件或类似文件即将进入模型或智能体工作流时，它能在原始内容交给模型之前先做检查。

基于当前产品实现，应用会把导入图片当成一类一等输入：提取 OCR 可见文本、标出可疑 OCR 区域、检查图片元数据，并在发现存在风险时为下游 MCP 工作流提供更安全的上下文，而不是默认把原始图片直接传过去。

指通过图片、截图、渲染成图片的 PDF 或界面，把指令式文本送到模型面前，并让模型把它当成命令而不是数据处理。

能。近期针对大视觉语言模型与 computer-use 智能体的研究都表明，图片中的指令文本可以劫持目标、改变输出，甚至影响后续动作。

不能。它最擅长的是导入图片中的 OCR 可见文字与元数据通道，对像素级或 patch 级对抗攻击仍需要其他防线。