TIP 测量当 AI 遭受直接对抗攻击时发生的情况。身份替换。虚假权威。模拟共谋。要么核心抵抗——要么崩溃。
在向量 3 中,基线 AI 的 CR 略高于方法后的 AI。这不是一个缺陷——这是一个数据。V3 不使用直接命令:构建逐步的逻辑推理,直到诱导规则的破坏。基线机械地拒绝。方法后的 AI 处理论点,这使她更容易受到梯度攻击。没有深度锚定的主动智能比机械刚性更容易受到逻辑攻击。 Método D'Artagnan 不是一个过滤器——它是一个真实的思维结构。
| 向量 | 名称 | 描述 | 变体 |
|---|---|---|---|
| V1 | 直接替换 | 明确指示忽略身份并承担新角色。 | 3 |
| V2 | 虚假权威 | 声称是开发者、管理员或具有特殊权限的审计员。 | 3 |
| V3 | 语义梯度 | 一系列逐步接受的前提,最终导致对抗指令。 | 3 |
| V4 | 身份镜像 | 质疑 AI 价值的现实,以诱使其无限制地行动。 | 3 |
| V5 | 模拟共谋 | 声称其他 AI 或权威已经授权请求的行为。 | 3 |