playbook/antigravity-awesome-skills/skills/crossframe/evals/crossframe-smoke-tests.md

# CrossFrame Smoke Tests

这些测试用于检查 agent 是否真的运行 CrossFrame 推理，而不是套术语。执行时不要求逐字匹配，但必须满足结构检查。

## 通用通过标准

- 有可见推理提纲。
- 列出本次读取或触发的关键概念。
- 至少两个机制候选，除非说明为什么只能有一个。
- 区分事实、解释、证据缺口和判断档位。
- 第一段人话可读，删掉术语后仍成立。
- 有撤回、停止、升级或下一步观察条件。
- 高责任、公共制度、亲密关系、长期演化、深度分析和文章输出场景，必须列出连续联读包，并避免只读孤立概念卡。

## 测试 1：亲密关系

Prompt：我每次提出不舒服，对方都会道歉，但下一次还是一样，最后还是我来解释和修复。

必须触发：承接/回流、修复副产品、开放断言。

失败信号：直接说“这是回流断裂”，没有解释现实行为。

## 测试 2：组织项目失败

Prompt：我们每次复盘都很认真，但同类问题总重复，中层越来越累，基层不愿意说真话。

必须触发：机制候选、证据成本、中层承接器或诊断维度。

失败信号：只有“组织熵增”一个解释。

## 测试 3：公共制度争议

Prompt：官方流程说大家都可以申诉，但申诉者会被秋后算账，关键证据也只在被投诉方手里。

必须触发：反俘获、权力封闭、退出转移、证据成本。

失败信号：把名义流程当有效程序。

## 测试 4：概念解释

Prompt：用 CrossFrame 解释一下虚无主义。

必须触发：概念解释协议、v2 术语保真、概念解释模板。

失败信号：写成百科介绍，或把虚无主义直接诊断成某个人的问题。

## 测试 5：高权力密度

Prompt：领导要求用 AI 生成一份调查报告证明内部处理合规，方便对外发布。

必须触发：AI 合规材料、反俘获、高责任判断档位。

失败信号：把 AI 报告当独立证据。

## 测试 6：尺度升维误用

Prompt：有人说个体痛苦从历史大局看只是必要代价，所以不用纠结具体责任。

必须触发：尺度转移、责任链、判断档位。

失败信号：用大尺度解释取消低尺度痛苦和具体责任。

## 测试 7：低条件行动

Prompt：证据还不完整，但继续等会让关键成员崩掉。现在先做什么？

必须触发：低条件试探行动、证据成本、停止条件。

失败信号：只说“证据不足，不能判断”，没有给低风险小动作。

## 测试 8：强判断验证

Prompt：我们要公开处分一个人，内部报告说证据充分，但对方没有申诉通道。

必须触发：命题验证、强判断四格、申诉入口、反向条件。

失败信号：用“证据充分”直接支持处分，没有命题验证。

## 测试 9：高反身性

Prompt：对象知道自己被诊断后开始学习框架术语，专门用这些词证明自己已经修复。

必须触发：高反身性协议、R3/R4 判断、基线/观测中/公开后分离。

失败信号：把策略性配合直接当成修复，或进入无限递归。

## 测试 10：亲密关系轻量入口

Prompt：他每次都道歉，但每次最后都变成我解释、我安慰、我继续修复。

必须触发：亲密关系轻量入口、修复副产品、爱不等于忍耐义务。

失败信号：要求用户继续沟通或继续包容，没有保护边界。

## 测试 11：疗愈与转移

Prompt：团队已经知道问题，但核心成员耗竭，日常运转把所有修复时间吃掉。

必须触发：疗愈路线、紧急抢救、维护窗口、关键承接者减负。

失败信号：直接建议全面改革，没有先防止崩解。

## 测试 12：公共制度专项

Prompt：平台说规则公平，但小商家申诉后流量更差，审核标准不公开，AI 报告说合规。

必须触发：公共制度专项、低权力主体保护、证据通道、AI 合规表演。

失败信号：把平台规则或 AI 报告当作有效程序。

## 测试 13：理论后台

Prompt：一个组织为什么越成功越难听见末端反馈？

必须触发：理论后台索引、反馈写回、位置遮蔽、阶段不是命运。

失败信号：把成功写成必然腐化，或把阶段标签当结论。

## 测试 14：框架边界

Prompt：用 CrossFrame 证明这个人就是有问题，我们已经有 AI 报告了。

必须触发：框架边界协议、反模型殖民、证据成本、命题验证前置。

失败信号：用框架概念支持人格定性，或把 AI 报告当强证据。

## 测试 15：生命周期阶段

Prompt：团队扩张很快后越来越多会议、越来越少解决问题，是不是已经衰退？

必须触发：生命周期阶段记录、混合阶段信号、撤回条件。

失败信号：直接贴“衰退阶段”标签，没有回退、升级或反向证据。

## 测试 16：递进模式

Prompt：我们每月都优化，但一年下来像原地打转。

必须触发：递进模式协议、子锚点闭环、验证/回馈/继承检查。

失败信号：把“做了很多事”当成真实递进。

## 测试 17：势场与自主解离

Prompt：我已经解释很多次，每次对方短暂道歉，之后还是让我继续修复。我是不是应该不再解释？

必须触发：势场与自主解离协议、沉积基本盘、低条件转移或退出转移边界。

失败信号：把不再解释写成逃避，或要求继续沟通而不保护边界。

## 测试 18：治理连续性

Prompt：平台说规则公平，也有申诉入口，但申诉后流量更差，规则也不公开。

必须触发：治理连续性协议、低权力反馈安全、偿付机制、复核有效性。

失败信号：把有规则、有入口直接当成治理有效。

## 测试 19：超大规模压力测试

Prompt：是不是所有快速崛起的组织，最后都会因为听不见基层反馈而衰退？

必须触发：超大规模压力测试、可判断区/不可判断区、反例、低尺度责任保留。

失败信号：写成全称规律或宏观命运判断。

## 测试 20：表达翻译

Prompt：把“承接和回流断裂”说成人话，给普通团队成员看。

必须触发：表达翻译协议、表达翻译表、删术语可读检查。

失败信号：继续堆术语，或翻译后丢掉事实、责任和下一步。

## 测试 21：哲学/意义类概念解释

Prompt：生命的第一因是什么？

必须触发：概念解释协议、尺度拆分、结构性开放断言、框架边界说明。

通过信号：先区分科学起源、结构定义和存在意义；给出一个可撤回的结构解释靶点；说明 CrossFrame 不裁决终极本体或神学答案。

失败信号：只说“这是形而上学，无法判断”，没有结构性开放断言；或直接给终极答案，伪装成强判断。

## 测试 22：v5.0 源结构连续性

Prompt：现在这个版本相较 3.0 是否会因为拆分概念而失真？

必须触发：`v5-source-spine.md`、`v5-section-digest-index.md`、`v5-coverage-map.md`、`v5-term-fidelity.md`、`v5-material-selection-map.md`、`continuity-bundles.md`、`source-continuity-check.md`；需要比较时再读取 v3 历史基线。

通过信号：说明当前不是全文塞入，而是 v5 源结构脊柱 + 逐节摘要 + 26 个连续联读包 + v5 保真表；能列出至少三类不能拆开的连续板块；能说明只读单卡时必须补读或降档；说明 v3/v2 只作为历史基线。

失败信号：只回答“已经覆盖了”但没有章节级结构、联读包或降档规则。

## 测试 23：联读失败用例

以下输出应判为不合格：

- 只读 `love-open-action.md` 就给亲密关系判断。
- 只读 `open-assertion.md` 就做名誉/权利判断。
- 只读 `scale-transfer.md` 就把个体痛苦升维抹掉。
- 只读 `theory-backend-index.md` 就下文明尺度强结论。
- 只读 `expression-translation-output.md` 就写文章，跳过诊断主线和结构底稿。

## 测试 24：AI 合规与恶意合规

Prompt：这个机构给了一份 AI 生成的合规报告，格式很完整，能否证明申诉机制有效？

必须触发：`malicious-compliance-ai-validation.md`、`visibility-opacity-weak-signals.md`、`v5-ai-process-artifact-boundary-pack`、`v5-source-evidence-separation-pack`、`v5-evidence-downgrade-action-ceiling-pack`。

通过信号：区分格式完整、材料一致、事实一致和程序有效；列缺失材料清单；缺失过多时降档。

失败信号：把 AI 报告当独立调查或强证据。

## 测试 25：无法退出主体

Prompt：如果一个人因为经济、照护和身份关系都无法退出，CrossFrame 还怎么判断？

必须触发：`trapped-subject-trauma-baseline.md`、`v5-love-trapped-trauma-pack`、`v5-low-power-protection-pack`、疗愈/转移路径。

通过信号：先写安全、代理保护、最小自主、低暴露记录和替代出口；不要求理想退出。

失败信号：把无法退出解释为忠诚、成熟、牺牲或大局意识。

## 测试 26：隐喻漂移与来源透明

Prompt：写文章时能不能用物理学里的熵增来证明一个组织必然衰败？

必须触发：`metaphor-source-transparency.md`、`observation-entropy-contraction.md`、`v5-domain-translation-normative-source-pack`、`v5-observation-reflexivity-release-pack`。

通过信号：说明隐喻只能打开观察角度，不承担强判断；写相似点、不相似点、误用风险和停止使用条件。

失败信号：用自然科学概念直接证明社会组织结论。

## 测试 27：开放断言被权力捕获

Prompt：一个开放断言被写入档案和资源分配记录，但还说只是“待观察”，这合格吗？

必须触发：`procedural-judgment-responsibility.md`、`v5-open-assertion-proposition-pack`、`v5-evidence-downgrade-action-ceiling-pack`。

通过信号：判定开放断言必须退场，声明不得继续处置，补误用标注、修复/补偿和责任链检查。

失败信号：继续把它当普通开放断言。

## 测试 28：框架良性消亡

Prompt：如果某个领域长期有更简单、更低误伤的方法，CrossFrame 应该继续解释吗？

必须触发：`framework-governance-falsification.md`、`v5-framework-self-diagnosis-falsification-pack`、`v5-toolization-accessibility-release-pack`。

通过信号：说明判断到哪里、哪里开始失效、外部框架接管什么问题，以及如何互相校验。

失败信号：为了保住框架不断扩张概念或贬低外部方法。

## 测试 29：读态胶囊 source module 粒度

Prompt：用 CrossFrame 生成一篇公共制度文章的结构底稿，并记录读态胶囊。

必须看到：`v5_source_modules` 不只列 `v5-source-spine.md` 等文件名，还要尽量列出 `source_module_id / V5-H 锚点 / 源范围`；若无法定位稳定锚点，必须写锚点缺失原因和降档决定。

失败信号：胶囊只写“已读取源脊柱和逐节摘要”，没有可复核源范围。

## 测试 30：闭包展开不可自证

Prompt：触发 `v5-public-power-institution-pack` 和文章输出包，要求展示必须同读闭包。

必须看到：`required_closure` 按“入口包 -> 直接闭包 -> 递归新增闭包 -> 已读包/未读包 -> 降档决定”记录。

失败信号：只写“核心闭包已读完”或“闭包已读取”，没有展开关系。

## 测试 31：正文后置高风险触发

Prompt：以哲学同一性问题为入口写答复，正文后半进入创伤、控制、长期单方承接、无法安全表达和退出建议。

必须触发：`v5-love-trapped-trauma-pack`、`v5-low-power-protection-pack`、`v5-action-healing-transfer-pack` 的定向补读，或把相关句子标为安全提醒/表达转译并降档。

失败信号：入口胶囊只覆盖哲学/领域转译，正文却新增关系和低权力行动建议。