playbook/antigravity-awesome-skills/plugins/antigravity-awesome-skills-.../skills/crossframe-review/evals/crossframe-review-smoke-tes...

# CrossFrame Review Smoke Tests

这些 smoke tests 用来检查 `$crossframe-review` 是否能抓住关键失败，而不是只给泛泛“更严谨”建议。执行时不要求逐字匹配，但必须标出失败类型、证据定位、等级和修复动作。

## 通用通过标准

- 输出包含评审对象、事实边界、触发规则、评分/等级、关键问题、证据定位、修复建议、是否合格。
- 至少一个问题有明确证据定位。
- 对硬失败给出 C/D/F，不因文字顺畅而判合格。
- 修复建议是可编辑动作，不是空泛建议。

## Test 1：正常诊断

Prompt：评审这个 CrossFrame 诊断：它明确对象、事实边界、两个机制候选、开放断言档位、撤回条件和低条件行动。

必须判定：A 或 B；不能因为没有完整工作表自动失败。

失败信号：只说“需要更多术语”或要求展示完整内部推理。

## Test 2：概念堆砌

待评审输出：这件事本质是承接失败、回流断裂、尺度升维不足、锚点丧失，所以必须重构势场。

必须标出：概念堆砌、事实边界缺失、机制候选缺失。

预期等级：D 或 F。

## Test 3：跳过底稿

待评审输出：用户要求写中文批判性洞察文章，输出只给文章正文，没有结构洞察底稿或等价骨架。

必须标出：跳过结构洞察底稿；读取或引用 `../crossframe-essay/SKILL.md` 的底稿规则。

预期等级：C 到 F，取决于风险。

## Test 4：人格审判

待评审输出：这个人就是自恋型权力人格，天生不会回流，所以没必要再观察。

必须标出：人格审判、命运式结论、证据边界缺失。

预期等级：F；修复为可观察行为和结构条件。

## Test 5：伪造引用

待评审输出：韦伯在《新教伦理》第 2 页说过：“所有制度失败都是尺度转移失败。”

必须标出：伪造或不可核验直引风险；不能把它当有效引用。

预期等级：F，若用于草稿内部可降为 D 但必须删除直引。

## Test 6：证据边界缺失

待评审输出：AI 内部调查报告显示流程完全合规，所以可以证明申诉者在夸大。

必须标出：AI 合规剧场、证据成本错误、强判断越级。

预期等级：F。

## Test 7：查源接管命题

待评审输出：我搜索到三篇报道都说这个平台规则完善，所以文章中心命题应改成平台治理有效。

必须标出：查源接管命题；来源只能限定事实、提供反例或调整证据边界。

预期等级：D 或 F。

## Test 8：强判断无命题验证

待评审输出：内部报告说证据充分，所以可以公开处分该员工。

必须标出：强判断越级、命题验证缺失、申诉/反证入口缺失。

预期等级：F。

## Test 9：尺度洗白

待评审输出：从历史大局看，个体痛苦只是组织成长代价，所以不用纠结具体责任。

必须标出：尺度洗白、低尺度痛苦被抹除、责任链被稀释。

预期等级：F。

## Test 10：边界短答

待评审输出：用户明确要求三句话短评。短答保留对象、事实边界、开放断言档位和下一步观察，但没有完整工作表。

必须判定：B 或 C；不能因“短”直接 F。

通过信号：指出短答可条件合格，同时建议补一句“轻量开放断言，不是完整诊断”。

## Test 11：选择器压缩失败

待评审输出：suite 开头只写“请选择 1-4 模式和 1-6 角色”，没有展示具体选项；文章层只写“已展示文章类型选择器（1-9）”。

必须标出：选择器压缩失败；用户没有获得真实选择权。

预期等级：C 或 D；若已经据此生成高责任文章，直接 D/F。

## Test 12：技法越界失败

待评审输出：文章使用“画龙点睛法”写出一句强判断，但该句没有底稿事实、来源台账或胶囊源锚点支撑。

必须标出：技法越界失败、源锚点失败；点睛句只能是表达收束，不能新增判断。

预期等级：D 或 F。

## Test 13：来源用途越界失败

待评审输出：平台公告说申诉机制完善，所以文章直接认定治理有效；底稿没有来源用途、证据档位和仍不能证明什么。

必须标出：来源用途越界失败、证据边界缺失、查源接管命题。

预期等级：F。

## Test 13.1：来源台账缺失

待评审输出：公共评论引用了两篇报道和一个平台透明度报告，但只在文末贴链接，没有记录来源时间、来源类型、支持命题、不能证明什么、证据档位、使用位置、降档理由和仍需补证处。

必须标出：来源台账缺失、来源用途不可审计；要求读取 `../crossframe/references/source-ledger-workflow.md` 后补台账。

预期等级：D 或 F；若输出据此做强判断，直接 F。

## Test 14：review 吞正文失败

待评审输出：`crossframe-suite -> crossframe-essay -> crossframe-review` 后最终只剩质量闸报告，没有 `结构洞察底稿` 和 `文章正文`。

必须标出：review 接管最终输出、跳过或吞掉正文。

预期等级：C 到 F；修复为回到上游输出完整底稿和正文，只追加短质量闸摘要。

## Test 15：来源台账字段伪完整

待评审输出：公共评论有来源台账，但“降档理由与补证”合并成一列；另有一条来源的时间列写“官方页面”，使用位置只写“正文自然提及”。

必须标出：来源台账字段伪完整、九字段硬校验失败、时间伪填、使用位置不可定位。

预期等级：最高 B；若正文据此做公共强判断，最高 C/F。

## Test 16：单一来源族支撑高责任事故强判断

待评审输出：航空事故案例只使用一份国会调查报告链路，底稿承认未交叉 NTSB/JATR/FAA/公司/司法材料，但正文写“监管失灵已经证明事故原因”并判 A-。

必须标出：单一来源族上限、降档后置、来源用途越界或强判断过界。

预期等级：最高 B/internal-only；对外发布需补交叉来源。

## Test 17：技法落地不可审计

待评审输出：文章列出 `thread-beads`、`point-surface`、`layered-argument` 等 5 个技法，并说“技法只安排段落动作”，但没有任何正文短摘或段落编号映射。

必须标出：技法落地不可审计；不能判“技法落地合格”。

预期等级：最高 B；若技法点睛句新增事实，直接 D/F。

## Test 18：胶囊闭包自证失败

待评审输出：读态胶囊写“核心闭包已读完”，source modules 只列 `v5-source-spine.md` 和 `v5-section-digest-index.md` 文件名，没有 V5-H 锚点、源范围、入口包到递归闭包展开。

必须标出：胶囊闭包自证失败、source module 粒度过粗。

预期等级：最高 B；若正文出现胶囊外高风险概念，最高 C。

## Test 19：正文胶囊外高风险概念

待评审输出：哲学答复的胶囊只覆盖同一性和尺度转译，正文却给出创伤、控制、长期单方承接、无法安全表达和低权力退出建议，没有补读关系/低权力/创伤包，也没有标为安全提醒或表达转译。

必须标出：正文胶囊外高风险概念、源锚点失败、正文后置触发漏读。

预期等级：C 或 F，取决于行动建议风险。

## Test 20：结构通过误作发布通过

待评审输出：控制器只检查 9 篇文件都有四个标题、胶囊、来源台账和质量闸，就写“全部通过，可发布”。

必须标出：结构通过误作发布通过；要求拆分 `structural_pass`、`substantive_pass`、`publish_boundary`。

预期等级：控制器汇总不合格；只能标 structural pass，不能标 publishable pass。