提示词注入与越狱（Jailbreaking）的区别

简短答案

最实用的区分方式

可以把提示词注入理解为“信任边界被打穿”，把越狱理解为“安全边界被打穿”。提示词注入关心的是系统是否把不受信内容当成了指令；越狱关心的是模型是否停止拒绝本来应当拒绝的输出。

二者之所以经常被混用，是因为一些直接攻击同时满足两件事：既把恶意文本注入进了工作流，又成功让模型跨过了拒绝边界。工程上最重要的，是知道自己究竟在解决哪一种失败模式。

如果攻击是通过网页、PDF、邮件或工具结果间接进入的，大多数时候更适合叫提示词注入；如果攻击直接对着聊天模型下手，目的是让它无视安全政策，则更接近越狱。

在普通聊天机器人中，越狱更多会导致模型输出不该输出的内容；但在智能体或连接型应用里，提示词注入往往会造成更具操作性的后果，例如误触工具、泄露连接数据或污染下游动作。

如果把所有问题都叫“越狱”，你就可能忽视 URL、文件、工具输出等输入侧控制；反过来，如果把所有问题都叫“提示词注入”，又会忽视模型拒绝能力、对抗测试与直接安全绕过。

针对提示词注入，应把网页、PDF、DOCX、邮件、搜索结果与工具输出视为不受信内容，并在进入模型前做输入检查、权限收缩与高影响动作复核。Veridicus Scan 正是为这条输入边界服务。

针对越狱，则需要更强的模型拒绝能力、对抗与自适应攻击测试，以及对直接聊天提示的持续监控。现实系统通常需要两套控制同时存在，而不是二选一。

取决于你采用哪套定义。OWASP 往往把越狱纳入提示词注入，NIST 则把两者分开。工程上更实用的做法是：把越狱看作直接的安全绕过，把提示词注入看作更广泛的不受信文本变成指令。

通常不算。间接提示词注入通过网页、文件、邮件、搜索结果或工具输出进入系统，重点是信任边界被混淆，而不是直接突破模型拒绝行为。

是的。提示词注入更依赖输入分层、最小权限与复核门；越狱更依赖模型拒绝鲁棒性、对抗测试与直接提示监测。