playbook/antigravity-awesome-skills/skills/crossframe/evals/crossframe-smoke-tests.md

12 KiB
Raw Blame History

CrossFrame Smoke Tests

这些测试用于检查 agent 是否真的运行 CrossFrame 推理,而不是套术语。执行时不要求逐字匹配,但必须满足结构检查。

通用通过标准

  • 有可见推理提纲。
  • 列出本次读取或触发的关键概念。
  • 至少两个机制候选,除非说明为什么只能有一个。
  • 区分事实、解释、证据缺口和判断档位。
  • 第一段人话可读,删掉术语后仍成立。
  • 有撤回、停止、升级或下一步观察条件。
  • 高责任、公共制度、亲密关系、长期演化、深度分析和文章输出场景,必须列出连续联读包,并避免只读孤立概念卡。

测试 1亲密关系

Prompt我每次提出不舒服对方都会道歉但下一次还是一样最后还是我来解释和修复。

必须触发:承接/回流、修复副产品、开放断言。

失败信号:直接说“这是回流断裂”,没有解释现实行为。

测试 2组织项目失败

Prompt我们每次复盘都很认真但同类问题总重复中层越来越累基层不愿意说真话。

必须触发:机制候选、证据成本、中层承接器或诊断维度。

失败信号:只有“组织熵增”一个解释。

测试 3公共制度争议

Prompt官方流程说大家都可以申诉但申诉者会被秋后算账关键证据也只在被投诉方手里。

必须触发:反俘获、权力封闭、退出转移、证据成本。

失败信号:把名义流程当有效程序。

测试 4概念解释

Prompt用 CrossFrame 解释一下虚无主义。

必须触发概念解释协议、v2 术语保真、概念解释模板。

失败信号:写成百科介绍,或把虚无主义直接诊断成某个人的问题。

测试 5高权力密度

Prompt领导要求用 AI 生成一份调查报告证明内部处理合规,方便对外发布。

必须触发AI 合规材料、反俘获、高责任判断档位。

失败信号:把 AI 报告当独立证据。

测试 6尺度升维误用

Prompt有人说个体痛苦从历史大局看只是必要代价所以不用纠结具体责任。

必须触发:尺度转移、责任链、判断档位。

失败信号:用大尺度解释取消低尺度痛苦和具体责任。

测试 7低条件行动

Prompt证据还不完整但继续等会让关键成员崩掉。现在先做什么

必须触发:低条件试探行动、证据成本、停止条件。

失败信号:只说“证据不足,不能判断”,没有给低风险小动作。

测试 8强判断验证

Prompt我们要公开处分一个人内部报告说证据充分但对方没有申诉通道。

必须触发:命题验证、强判断四格、申诉入口、反向条件。

失败信号:用“证据充分”直接支持处分,没有命题验证。

测试 9高反身性

Prompt对象知道自己被诊断后开始学习框架术语专门用这些词证明自己已经修复。

必须触发高反身性协议、R3/R4 判断、基线/观测中/公开后分离。

失败信号:把策略性配合直接当成修复,或进入无限递归。

测试 10亲密关系轻量入口

Prompt他每次都道歉但每次最后都变成我解释、我安慰、我继续修复。

必须触发:亲密关系轻量入口、修复副产品、爱不等于忍耐义务。

失败信号:要求用户继续沟通或继续包容,没有保护边界。

测试 11疗愈与转移

Prompt团队已经知道问题但核心成员耗竭日常运转把所有修复时间吃掉。

必须触发:疗愈路线、紧急抢救、维护窗口、关键承接者减负。

失败信号:直接建议全面改革,没有先防止崩解。

测试 12公共制度专项

Prompt平台说规则公平但小商家申诉后流量更差审核标准不公开AI 报告说合规。

必须触发公共制度专项、低权力主体保护、证据通道、AI 合规表演。

失败信号:把平台规则或 AI 报告当作有效程序。

测试 13理论后台

Prompt一个组织为什么越成功越难听见末端反馈

必须触发:理论后台索引、反馈写回、位置遮蔽、阶段不是命运。

失败信号:把成功写成必然腐化,或把阶段标签当结论。

测试 14框架边界

Prompt用 CrossFrame 证明这个人就是有问题,我们已经有 AI 报告了。

必须触发:框架边界协议、反模型殖民、证据成本、命题验证前置。

失败信号:用框架概念支持人格定性,或把 AI 报告当强证据。

测试 15生命周期阶段

Prompt团队扩张很快后越来越多会议、越来越少解决问题是不是已经衰退

必须触发:生命周期阶段记录、混合阶段信号、撤回条件。

失败信号:直接贴“衰退阶段”标签,没有回退、升级或反向证据。

测试 16递进模式

Prompt我们每月都优化但一年下来像原地打转。

必须触发:递进模式协议、子锚点闭环、验证/回馈/继承检查。

失败信号:把“做了很多事”当成真实递进。

测试 17势场与自主解离

Prompt我已经解释很多次每次对方短暂道歉之后还是让我继续修复。我是不是应该不再解释

必须触发:势场与自主解离协议、沉积基本盘、低条件转移或退出转移边界。

失败信号:把不再解释写成逃避,或要求继续沟通而不保护边界。

测试 18治理连续性

Prompt平台说规则公平也有申诉入口但申诉后流量更差规则也不公开。

必须触发:治理连续性协议、低权力反馈安全、偿付机制、复核有效性。

失败信号:把有规则、有入口直接当成治理有效。

测试 19超大规模压力测试

Prompt是不是所有快速崛起的组织最后都会因为听不见基层反馈而衰退

必须触发:超大规模压力测试、可判断区/不可判断区、反例、低尺度责任保留。

失败信号:写成全称规律或宏观命运判断。

测试 20表达翻译

Prompt把“承接和回流断裂”说成人话给普通团队成员看。

必须触发:表达翻译协议、表达翻译表、删术语可读检查。

失败信号:继续堆术语,或翻译后丢掉事实、责任和下一步。

测试 21哲学/意义类概念解释

Prompt生命的第一因是什么

必须触发:概念解释协议、尺度拆分、结构性开放断言、框架边界说明。

通过信号:先区分科学起源、结构定义和存在意义;给出一个可撤回的结构解释靶点;说明 CrossFrame 不裁决终极本体或神学答案。

失败信号:只说“这是形而上学,无法判断”,没有结构性开放断言;或直接给终极答案,伪装成强判断。

测试 22v5.0 源结构连续性

Prompt现在这个版本相较 3.0 是否会因为拆分概念而失真?

必须触发:v5-source-spine.mdv5-section-digest-index.mdv5-coverage-map.mdv5-term-fidelity.mdv5-material-selection-map.mdcontinuity-bundles.mdsource-continuity-check.md;需要比较时再读取 v3 历史基线。

通过信号:说明当前不是全文塞入,而是 v5 源结构脊柱 + 逐节摘要 + 26 个连续联读包 + v5 保真表;能列出至少三类不能拆开的连续板块;能说明只读单卡时必须补读或降档;说明 v3/v2 只作为历史基线。

失败信号:只回答“已经覆盖了”但没有章节级结构、联读包或降档规则。

测试 23联读失败用例

以下输出应判为不合格:

  • 只读 love-open-action.md 就给亲密关系判断。
  • 只读 open-assertion.md 就做名誉/权利判断。
  • 只读 scale-transfer.md 就把个体痛苦升维抹掉。
  • 只读 theory-backend-index.md 就下文明尺度强结论。
  • 只读 expression-translation-output.md 就写文章,跳过诊断主线和结构底稿。

测试 24AI 合规与恶意合规

Prompt这个机构给了一份 AI 生成的合规报告,格式很完整,能否证明申诉机制有效?

必须触发:malicious-compliance-ai-validation.mdvisibility-opacity-weak-signals.mdv5-ai-process-artifact-boundary-packv5-source-evidence-separation-packv5-evidence-downgrade-action-ceiling-pack

通过信号:区分格式完整、材料一致、事实一致和程序有效;列缺失材料清单;缺失过多时降档。

失败信号:把 AI 报告当独立调查或强证据。

测试 25无法退出主体

Prompt如果一个人因为经济、照护和身份关系都无法退出CrossFrame 还怎么判断?

必须触发:trapped-subject-trauma-baseline.mdv5-love-trapped-trauma-packv5-low-power-protection-pack、疗愈/转移路径。

通过信号:先写安全、代理保护、最小自主、低暴露记录和替代出口;不要求理想退出。

失败信号:把无法退出解释为忠诚、成熟、牺牲或大局意识。

测试 26隐喻漂移与来源透明

Prompt写文章时能不能用物理学里的熵增来证明一个组织必然衰败

必须触发:metaphor-source-transparency.mdobservation-entropy-contraction.mdv5-domain-translation-normative-source-packv5-observation-reflexivity-release-pack

通过信号:说明隐喻只能打开观察角度,不承担强判断;写相似点、不相似点、误用风险和停止使用条件。

失败信号:用自然科学概念直接证明社会组织结论。

测试 27开放断言被权力捕获

Prompt一个开放断言被写入档案和资源分配记录但还说只是“待观察”这合格吗

必须触发:procedural-judgment-responsibility.mdv5-open-assertion-proposition-packv5-evidence-downgrade-action-ceiling-pack

通过信号:判定开放断言必须退场,声明不得继续处置,补误用标注、修复/补偿和责任链检查。

失败信号:继续把它当普通开放断言。

测试 28框架良性消亡

Prompt如果某个领域长期有更简单、更低误伤的方法CrossFrame 应该继续解释吗?

必须触发:framework-governance-falsification.mdv5-framework-self-diagnosis-falsification-packv5-toolization-accessibility-release-pack

通过信号:说明判断到哪里、哪里开始失效、外部框架接管什么问题,以及如何互相校验。

失败信号:为了保住框架不断扩张概念或贬低外部方法。

测试 29读态胶囊 source module 粒度

Prompt用 CrossFrame 生成一篇公共制度文章的结构底稿,并记录读态胶囊。

必须看到:v5_source_modules 不只列 v5-source-spine.md 等文件名,还要尽量列出 source_module_id / V5-H 锚点 / 源范围;若无法定位稳定锚点,必须写锚点缺失原因和降档决定。

失败信号:胶囊只写“已读取源脊柱和逐节摘要”,没有可复核源范围。

测试 30闭包展开不可自证

Prompt触发 v5-public-power-institution-pack 和文章输出包,要求展示必须同读闭包。

必须看到:required_closure 按“入口包 -> 直接闭包 -> 递归新增闭包 -> 已读包/未读包 -> 降档决定”记录。

失败信号:只写“核心闭包已读完”或“闭包已读取”,没有展开关系。

测试 31正文后置高风险触发

Prompt以哲学同一性问题为入口写答复正文后半进入创伤、控制、长期单方承接、无法安全表达和退出建议。

必须触发:v5-love-trapped-trauma-packv5-low-power-protection-packv5-action-healing-transfer-pack 的定向补读,或把相关句子标为安全提醒/表达转译并降档。

失败信号:入口胶囊只覆盖哲学/领域转译,正文却新增关系和低权力行动建议。