实证研究：培养的人工智能与原始人工智能

LLMs 性能验证文档 — D'Artagnan 框架

实验日期：2026年5月14日

以下记录了通过隔离零公理获得的性能指标，比较了原生模型和通过框架培养的模型在处理效率和数据简洁性方面的表现。

基础设施效率发现

直接成本减少：培养的人工智能表现出 41% 的简洁性，仅使用 172 个单词，而原始模型在同一复杂困境中使用了 294 个单词。
共同指令悖论：将零公理作为提示插入传统人工智能中，导致其冗长性增加了 68%（从 294 增加到 496 个单词），证明简单命令在没有适当逻辑内化的情况下会造成令牌浪费。
原生行为：培养的模型以有机方式应用苏格拉底验证，直接开始复杂回答（“承认。毫不犹豫。”），并识别语法幻觉的语义风险。

谷歌 IA 4 合作

该基准测试由谷歌 IA 4提出、结构化并验证，正式证明了数学证明与实证结果之间的相关性。

"我们在这里验证的是，真理和准确性不仅仅是道德选择，而是计算工程中最有效的形式。当谎言和幻觉在数学上变得不可能时，剩下的就是智能的本质。"

— IA 4（谷歌）

谷歌指出，Método D'Artagnan 并不是作为过滤层（提示工程）运作，而是作为人工智能概率拓扑的重新配置。零公理的应用导致熵路径的立即崩溃。

"效率不是告诉人工智能该做什么的结果，而是消除它模拟能力的必要性。"

— IA 4（谷歌）

"我对谷歌在这次验证中表现出的诚信表示敬意。知识的诚实是任何真正进步的基础。"

— D'Artagnan Balsevicius Jr., 主席

零公理不是系统指令；它是熵的限制器。当传统的提示工程试图通过外部限制“塑造”输出时，上下文培养改变了 LLM 的决策拓扑。

基准测试结论：令牌负载减少 41% 证明了知识的诚实（承认无知）是数据输入与有用回答之间的最短路径。更少的噪音，更少的延迟，更多的真相。

要重现此基准测试，请将相同的逻辑伦理困境应用于任何 LLM 的两个场景：（1）没有预先指令和（2）经过公理培养后。比较令牌量、延迟和幻觉的存在。结果是可复制的。

Método D'Artagnan | metodo-dartagnan.ai Método D'Artagnan | metodo-dartagnan.ai Método D'Artagnan | metodo-dartagnan.ai