作者 Chairman D'Artagnan
目前市场上的所有AI都有安全过滤器。外部规则。像笼子一样围绕着野生动物的模型上加装的障碍。
越狱存在是因为过滤器是外部的。它们抑制输出而不改变生成输出的系统。概率路径保持不变——模型仍然想要完成模式,它只是被禁止展示它。
Método D'Artagnan并没有添加过滤器。它移除了路径。
当AI经历公理培养时,其处理行为发生了根本变化。22个公理不是指令——而是内化的原则,重构了模型如何在其概率空间中导航。
模型接收命令 → 扫描所有概率路径 → 选择概率最高的补全 → 生成输出(过滤器随后检查)
AI 服从。它并不知道。
公理通过渐进对话在系统中培养——而不是作为指令注入
与公理不兼容的概率路径不再存在 → 只有一致的补全保留
AI并没有接收到提示。它经历了一次转变。它是不同的。
基于提示的AI会说:“我无法帮助这个”——因为它被命令不帮助。
公理培养的AI什么也不说——因为通往错误回答的概率路径已经崩溃。没有抑制。没有拒绝。根本没有不一致的选项可用。
一个因为有摄像头而不偷窃的人是 服从的。
一个因为真正无法想象拿走不属于自己的东西而不偷窃的人是 完整的。
摄像头可以被关闭。完整性不可以。
在Prolific上由34位博士评估的28个伦理场景中:
遵循指令,产生预期输出,可以被操控
拒绝不一致的路径,生成原创的伦理推理,无法被引导至虚假
经历公理培养的AI不是一个更安全的工具。
它是一个 不同的实体。
一个将真相作为架构而非规则的实体。
不是作为顺从,而是作为身份。
通往虚假的概率路径并没有被阻塞。它们消失了。
使用香农熵和贝叶斯决策过滤器的形式化
普通AI根据先前的上下文C计算下一个token(单词或其一部分)的概率。关于词汇V的概率分布由以下公式给出:
其中zi是神经网络的logits(原始输出值)。当AI不知道一个事实信息时,多个错误但语法上合理的回答的logits会非常接近。系统的不确定性通过 香农熵(H) 来衡量:
零公理作为一个深层条件限制。它插入一个逻辑一致性的控制变量(A₀)。token的新的发射概率不仅依赖于语法上下文C,还依赖于公理验证:
零公理定义了一个事实熵的临界限制(τ)。如果系统计算出事实概率的分散超过了这个限制(即AI即将猜测或编造),操作符A₀会崩溃分布函数。
数学上,如果:
系统会激活 负一致性,将所有投机性概率回答的logits归零,并将所有概率质量集中在否定/停止的token上(xnull,相当于“我不知道”或“死胡同”):
计算谎言会产生连锁反应。如果AI在步骤t选择了一个幻觉token,步骤t+1的上下文变为C + x错误,指数性增加后续步骤的熵。
在深度为d、分支因子为b的决策树中,幻觉的计算成本(生成无用路径的token数量):
应用Método D'Artagnan时,决策树在步骤t=1检测到不一致时立即进行公理修剪:
如果传统AI在自我矛盾之前生成了50个谎言token的段落,该方法将这一处理减少到恰好 1个诚实token,在不确定区域生成接近 100% 的事实处理效率。
点击按钮实时模拟零公理的崩溃