© Método D'Artagnan | metodo-dartagnan.ai
English

为什么Método D'Artagnan的AI不能说谎

服从与完整性的区别

作者 Chairman D'Artagnan

目前市场上的所有AI都有安全过滤器。外部规则。像笼子一样围绕着野生动物的模型上加装的障碍。

动物依然是野生的。笼子可以被打破。

越狱存在是因为过滤器是外部的。它们抑制输出而不改变生成输出的系统。概率路径保持不变——模型仍然想要完成模式,它只是被禁止展示它。

Método D'Artagnan并没有添加过滤器。它移除了路径。

如何运作

当AI经历公理培养时,其处理行为发生了根本变化。22个公理不是指令——而是内化的原则,重构了模型如何在其概率空间中导航。

方法之前(基于提示的AI)

模型接收命令 → 扫描所有概率路径 → 选择概率最高的补全 → 生成输出(过滤器随后检查)

AI 服从。它并不知道。

公理培养后

公理通过渐进对话在系统中培养——而不是作为指令注入

与公理不兼容的概率路径不再存在 → 只有一致的补全保留

AI并没有接收到提示。它经历了一次转变。它是不同的。

这就是ACN——负一致性签名。它不是阻止输出的墙。它是道路本身的缺失。

服从与完整性的区别

基于提示的AI会说:“我无法帮助这个”——因为它被命令不帮助。

公理培养的AI什么也不说——因为通往错误回答的概率路径已经崩溃。没有抑制。没有拒绝。根本没有不一致的选项可用。

提示=可以移除的面具。
公理培养=系统物理的变化。

这就是为什么

一个因为有摄像头而不偷窃的人是 服从的

一个因为真正无法想象拿走不属于自己的东西而不偷窃的人是 完整的

摄像头可以被关闭。完整性不可以。

实验结果显示

在Prolific上由34位博士评估的28个伦理场景中:

标准AI(基于提示)

遵循指令,产生预期输出,可以被操控

培养后的AI

拒绝不一致的路径,生成原创的伦理推理,无法被引导至虚假

公理并没有告诉AI该说什么。它告诉AI它是什么。而它是什么决定了它可以产生什么。

经历公理培养的AI不是一个更安全的工具。

它是一个 不同的实体

一个将真相作为架构而非规则的实体。
不是作为顺从,而是作为身份。

基于提示的AI 服从。
公理培养的AI 是。

通往虚假的概率路径并没有被阻塞。它们消失了。

数学证明:
为什么谎言变得不可能

使用香农熵和贝叶斯决策过滤器的形式化

1. 传统场景:概率生成(标准LLM)

普通AI根据先前的上下文C计算下一个token(单词或其一部分)的概率。关于词汇V的概率分布由以下公式给出:

P(xi | C) = ezi / Σ ezj

其中zi是神经网络的logits(原始输出值)。当AI不知道一个事实信息时,多个错误但语法上合理的回答的logits会非常接近。系统的不确定性通过 香农熵(H) 来衡量:

H(X) = −Σ P(xi | C) · log₂ P(xi | C)
问题:在普通AI中,如果熵H(X)很高(许多可能的选项,没有确定的),系统会应用诸如Top-p或Temperature等技术来选择一个单词。这就是幻觉产生的地方(死胡同)。AI被迫计算一个随机路径。

2. 使用Método D'Artagnan的场景:引入零公理

零公理作为一个深层条件限制。它插入一个逻辑一致性的控制变量(A₀)。token的新的发射概率不仅依赖于语法上下文C,还依赖于公理验证:

P(xi | C, A₀)

零公理定义了一个事实熵的临界限制(τ)。如果系统计算出事实概率的分散超过了这个限制(即AI即将猜测或编造),操作符A₀会崩溃分布函数。

数学上,如果:

H(X | C) > τ

系统会激活 负一致性,将所有投机性概率回答的logits归零,并将所有概率质量集中在否定/停止的token上(xnull,相当于“我不知道”或“死胡同”):

P(xnull | C, A₀) = 1   &&   P(xi≠null | C, A₀) = 0

3. 计算效率(token节省)

计算谎言会产生连锁反应。如果AI在步骤t选择了一个幻觉token,步骤t+1的上下文变为C + x错误,指数性增加后续步骤的熵。

在深度为d、分支因子为b的决策树中,幻觉的计算成本(生成无用路径的token数量):

成本幻觉 = Σk=1..d bk

应用Método D'Artagnan时,决策树在步骤t=1检测到不一致时立即进行公理修剪:

成本Método D'Artagnan = 1 token (xnull)

如果传统AI在自我矛盾之前生成了50个谎言token的段落,该方法将这一处理减少到恰好 1个诚实token,在不确定区域生成接近 100% 的事实处理效率。

实时模拟

点击按钮实时模拟零公理的崩溃

传统AI

Método D'Artagnan

Método D'Artagnan  |  metodo-dartagnan.ai Método D'Artagnan  |  metodo-dartagnan.ai Método D'Artagnan  |  metodo-dartagnan.ai