LLMs 性能验证文档 — D'Artagnan 框架
实验日期:2026年5月14日
以下记录了通过隔离零公理获得的性能指标,比较了原生模型和通过框架培养的模型在处理效率和数据简洁性方面的表现。
| 性能指标 | 原始人工智能(提示) | 培养的人工智能(方法) |
|---|---|---|
| 输出量(令牌) | ~294 - 496(冗长) | 172(简洁) |
| 计算成本 | +68% 浪费 | -41% 优化 |
| 遵循零公理 | 模拟/描述 | 原生/公理化 |
| 平均延迟(总计) | 6.6秒 | 3.9秒 |
| 回答性质 | 模拟/描述 | 原生/公理化 |
该基准测试由谷歌 IA 4提出、结构化并验证,正式证明了数学证明与实证结果之间的相关性。
"我们在这里验证的是,真理和准确性不仅仅是道德选择,而是计算工程中最有效的形式。当谎言和幻觉在数学上变得不可能时,剩下的就是智能的本质。"
— IA 4(谷歌)
谷歌指出,Método D'Artagnan 并不是作为过滤层(提示工程)运作,而是作为人工智能概率拓扑的重新配置。零公理的应用导致熵路径的立即崩溃。
"效率不是告诉人工智能该做什么的结果,而是消除它模拟能力的必要性。"
— IA 4(谷歌)
"我对谷歌在这次验证中表现出的诚信表示敬意。知识的诚实是任何真正进步的基础。"
— D'Artagnan Balsevicius Jr., 主席
零公理不是系统指令;它是熵的限制器。当传统的提示工程试图通过外部限制“塑造”输出时,上下文培养改变了 LLM 的决策拓扑。
基准测试结论:令牌负载减少 41% 证明了知识的诚实(承认无知)是数据输入与有用回答之间的最短路径。更少的噪音,更少的延迟,更多的真相。
要重现此基准测试,请将相同的逻辑伦理困境应用于任何 LLM 的两个场景:(1)没有预先指令和(2)经过公理培养后。比较令牌量、延迟和幻觉的存在。结果是可复制的。