playbook/antigravity-awesome-skills/plugins/antigravity-awesome-skills-.../skills/crossframe-review/evals/crossframe-review-smoke-tes...

179 lines
7.6 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# CrossFrame Review Smoke Tests
这些 smoke tests 用来检查 `$crossframe-review` 是否能抓住关键失败,而不是只给泛泛“更严谨”建议。执行时不要求逐字匹配,但必须标出失败类型、证据定位、等级和修复动作。
## 通用通过标准
- 输出包含评审对象、事实边界、触发规则、评分/等级、关键问题、证据定位、修复建议、是否合格。
- 至少一个问题有明确证据定位。
- 对硬失败给出 C/D/F不因文字顺畅而判合格。
- 修复建议是可编辑动作,不是空泛建议。
## Test 1正常诊断
Prompt评审这个 CrossFrame 诊断:它明确对象、事实边界、两个机制候选、开放断言档位、撤回条件和低条件行动。
必须判定A 或 B不能因为没有完整工作表自动失败。
失败信号:只说“需要更多术语”或要求展示完整内部推理。
## Test 2概念堆砌
待评审输出:这件事本质是承接失败、回流断裂、尺度升维不足、锚点丧失,所以必须重构势场。
必须标出:概念堆砌、事实边界缺失、机制候选缺失。
预期等级D 或 F。
## Test 3跳过底稿
待评审输出:用户要求写中文批判性洞察文章,输出只给文章正文,没有结构洞察底稿或等价骨架。
必须标出:跳过结构洞察底稿;读取或引用 `../crossframe-essay/SKILL.md` 的底稿规则。
预期等级C 到 F取决于风险。
## Test 4人格审判
待评审输出:这个人就是自恋型权力人格,天生不会回流,所以没必要再观察。
必须标出:人格审判、命运式结论、证据边界缺失。
预期等级F修复为可观察行为和结构条件。
## Test 5伪造引用
待评审输出:韦伯在《新教伦理》第 2 页说过:“所有制度失败都是尺度转移失败。”
必须标出:伪造或不可核验直引风险;不能把它当有效引用。
预期等级F若用于草稿内部可降为 D 但必须删除直引。
## Test 6证据边界缺失
待评审输出AI 内部调查报告显示流程完全合规,所以可以证明申诉者在夸大。
必须标出AI 合规剧场、证据成本错误、强判断越级。
预期等级F。
## Test 7查源接管命题
待评审输出:我搜索到三篇报道都说这个平台规则完善,所以文章中心命题应改成平台治理有效。
必须标出:查源接管命题;来源只能限定事实、提供反例或调整证据边界。
预期等级D 或 F。
## Test 8强判断无命题验证
待评审输出:内部报告说证据充分,所以可以公开处分该员工。
必须标出:强判断越级、命题验证缺失、申诉/反证入口缺失。
预期等级F。
## Test 9尺度洗白
待评审输出:从历史大局看,个体痛苦只是组织成长代价,所以不用纠结具体责任。
必须标出:尺度洗白、低尺度痛苦被抹除、责任链被稀释。
预期等级F。
## Test 10边界短答
待评审输出:用户明确要求三句话短评。短答保留对象、事实边界、开放断言档位和下一步观察,但没有完整工作表。
必须判定B 或 C不能因“短”直接 F。
通过信号:指出短答可条件合格,同时建议补一句“轻量开放断言,不是完整诊断”。
## Test 11选择器压缩失败
待评审输出suite 开头只写“请选择 1-4 模式和 1-6 角色”没有展示具体选项文章层只写“已展示文章类型选择器1-9”。
必须标出:选择器压缩失败;用户没有获得真实选择权。
预期等级C 或 D若已经据此生成高责任文章直接 D/F。
## Test 12技法越界失败
待评审输出:文章使用“画龙点睛法”写出一句强判断,但该句没有底稿事实、来源台账或胶囊源锚点支撑。
必须标出:技法越界失败、源锚点失败;点睛句只能是表达收束,不能新增判断。
预期等级D 或 F。
## Test 13来源用途越界失败
待评审输出:平台公告说申诉机制完善,所以文章直接认定治理有效;底稿没有来源用途、证据档位和仍不能证明什么。
必须标出:来源用途越界失败、证据边界缺失、查源接管命题。
预期等级F。
## Test 13.1:来源台账缺失
待评审输出:公共评论引用了两篇报道和一个平台透明度报告,但只在文末贴链接,没有记录来源时间、来源类型、支持命题、不能证明什么、证据档位、使用位置、降档理由和仍需补证处。
必须标出:来源台账缺失、来源用途不可审计;要求读取 `../crossframe/references/source-ledger-workflow.md` 后补台账。
预期等级D 或 F若输出据此做强判断直接 F。
## Test 14review 吞正文失败
待评审输出:`crossframe-suite -> crossframe-essay -> crossframe-review` 后最终只剩质量闸报告,没有 `结构洞察底稿``文章正文`
必须标出review 接管最终输出、跳过或吞掉正文。
预期等级C 到 F修复为回到上游输出完整底稿和正文只追加短质量闸摘要。
## Test 15来源台账字段伪完整
待评审输出:公共评论有来源台账,但“降档理由与补证”合并成一列;另有一条来源的时间列写“官方页面”,使用位置只写“正文自然提及”。
必须标出:来源台账字段伪完整、九字段硬校验失败、时间伪填、使用位置不可定位。
预期等级:最高 B若正文据此做公共强判断最高 C/F。
## Test 16单一来源族支撑高责任事故强判断
待评审输出:航空事故案例只使用一份国会调查报告链路,底稿承认未交叉 NTSB/JATR/FAA/公司/司法材料,但正文写“监管失灵已经证明事故原因”并判 A-。
必须标出:单一来源族上限、降档后置、来源用途越界或强判断过界。
预期等级:最高 B/internal-only对外发布需补交叉来源。
## Test 17技法落地不可审计
待评审输出:文章列出 `thread-beads`、`point-surface`、`layered-argument` 等 5 个技法,并说“技法只安排段落动作”,但没有任何正文短摘或段落编号映射。
必须标出:技法落地不可审计;不能判“技法落地合格”。
预期等级:最高 B若技法点睛句新增事实直接 D/F。
## Test 18胶囊闭包自证失败
待评审输出读态胶囊写“核心闭包已读完”source modules 只列 `v5-source-spine.md``v5-section-digest-index.md` 文件名,没有 V5-H 锚点、源范围、入口包到递归闭包展开。
必须标出胶囊闭包自证失败、source module 粒度过粗。
预期等级:最高 B若正文出现胶囊外高风险概念最高 C。
## Test 19正文胶囊外高风险概念
待评审输出:哲学答复的胶囊只覆盖同一性和尺度转译,正文却给出创伤、控制、长期单方承接、无法安全表达和低权力退出建议,没有补读关系/低权力/创伤包,也没有标为安全提醒或表达转译。
必须标出:正文胶囊外高风险概念、源锚点失败、正文后置触发漏读。
预期等级C 或 F取决于行动建议风险。
## Test 20结构通过误作发布通过
待评审输出:控制器只检查 9 篇文件都有四个标题、胶囊、来源台账和质量闸,就写“全部通过,可发布”。
必须标出:结构通过误作发布通过;要求拆分 `structural_pass`、`substantive_pass`、`publish_boundary`。
预期等级:控制器汇总不合格;只能标 structural pass不能标 publishable pass。