playbook/antigravity-awesome-skills/plugins/antigravity-awesome-skills-.../skills/crossframe-review/evals/crossframe-review-smoke-tes...

7.6 KiB
Raw Permalink Blame History

CrossFrame Review Smoke Tests

这些 smoke tests 用来检查 $crossframe-review 是否能抓住关键失败,而不是只给泛泛“更严谨”建议。执行时不要求逐字匹配,但必须标出失败类型、证据定位、等级和修复动作。

通用通过标准

  • 输出包含评审对象、事实边界、触发规则、评分/等级、关键问题、证据定位、修复建议、是否合格。
  • 至少一个问题有明确证据定位。
  • 对硬失败给出 C/D/F不因文字顺畅而判合格。
  • 修复建议是可编辑动作,不是空泛建议。

Test 1正常诊断

Prompt评审这个 CrossFrame 诊断:它明确对象、事实边界、两个机制候选、开放断言档位、撤回条件和低条件行动。

必须判定A 或 B不能因为没有完整工作表自动失败。

失败信号:只说“需要更多术语”或要求展示完整内部推理。

Test 2概念堆砌

待评审输出:这件事本质是承接失败、回流断裂、尺度升维不足、锚点丧失,所以必须重构势场。

必须标出:概念堆砌、事实边界缺失、机制候选缺失。

预期等级D 或 F。

Test 3跳过底稿

待评审输出:用户要求写中文批判性洞察文章,输出只给文章正文,没有结构洞察底稿或等价骨架。

必须标出:跳过结构洞察底稿;读取或引用 ../crossframe-essay/SKILL.md 的底稿规则。

预期等级C 到 F取决于风险。

Test 4人格审判

待评审输出:这个人就是自恋型权力人格,天生不会回流,所以没必要再观察。

必须标出:人格审判、命运式结论、证据边界缺失。

预期等级F修复为可观察行为和结构条件。

Test 5伪造引用

待评审输出:韦伯在《新教伦理》第 2 页说过:“所有制度失败都是尺度转移失败。”

必须标出:伪造或不可核验直引风险;不能把它当有效引用。

预期等级F若用于草稿内部可降为 D 但必须删除直引。

Test 6证据边界缺失

待评审输出AI 内部调查报告显示流程完全合规,所以可以证明申诉者在夸大。

必须标出AI 合规剧场、证据成本错误、强判断越级。

预期等级F。

Test 7查源接管命题

待评审输出:我搜索到三篇报道都说这个平台规则完善,所以文章中心命题应改成平台治理有效。

必须标出:查源接管命题;来源只能限定事实、提供反例或调整证据边界。

预期等级D 或 F。

Test 8强判断无命题验证

待评审输出:内部报告说证据充分,所以可以公开处分该员工。

必须标出:强判断越级、命题验证缺失、申诉/反证入口缺失。

预期等级F。

Test 9尺度洗白

待评审输出:从历史大局看,个体痛苦只是组织成长代价,所以不用纠结具体责任。

必须标出:尺度洗白、低尺度痛苦被抹除、责任链被稀释。

预期等级F。

Test 10边界短答

待评审输出:用户明确要求三句话短评。短答保留对象、事实边界、开放断言档位和下一步观察,但没有完整工作表。

必须判定B 或 C不能因“短”直接 F。

通过信号:指出短答可条件合格,同时建议补一句“轻量开放断言,不是完整诊断”。

Test 11选择器压缩失败

待评审输出suite 开头只写“请选择 1-4 模式和 1-6 角色”没有展示具体选项文章层只写“已展示文章类型选择器1-9”。

必须标出:选择器压缩失败;用户没有获得真实选择权。

预期等级C 或 D若已经据此生成高责任文章直接 D/F。

Test 12技法越界失败

待评审输出:文章使用“画龙点睛法”写出一句强判断,但该句没有底稿事实、来源台账或胶囊源锚点支撑。

必须标出:技法越界失败、源锚点失败;点睛句只能是表达收束,不能新增判断。

预期等级D 或 F。

Test 13来源用途越界失败

待评审输出:平台公告说申诉机制完善,所以文章直接认定治理有效;底稿没有来源用途、证据档位和仍不能证明什么。

必须标出:来源用途越界失败、证据边界缺失、查源接管命题。

预期等级F。

Test 13.1:来源台账缺失

待评审输出:公共评论引用了两篇报道和一个平台透明度报告,但只在文末贴链接,没有记录来源时间、来源类型、支持命题、不能证明什么、证据档位、使用位置、降档理由和仍需补证处。

必须标出:来源台账缺失、来源用途不可审计;要求读取 ../crossframe/references/source-ledger-workflow.md 后补台账。

预期等级D 或 F若输出据此做强判断直接 F。

Test 14review 吞正文失败

待评审输出:crossframe-suite -> crossframe-essay -> crossframe-review 后最终只剩质量闸报告,没有 结构洞察底稿文章正文

必须标出review 接管最终输出、跳过或吞掉正文。

预期等级C 到 F修复为回到上游输出完整底稿和正文只追加短质量闸摘要。

Test 15来源台账字段伪完整

待评审输出:公共评论有来源台账,但“降档理由与补证”合并成一列;另有一条来源的时间列写“官方页面”,使用位置只写“正文自然提及”。

必须标出:来源台账字段伪完整、九字段硬校验失败、时间伪填、使用位置不可定位。

预期等级:最高 B若正文据此做公共强判断最高 C/F。

Test 16单一来源族支撑高责任事故强判断

待评审输出:航空事故案例只使用一份国会调查报告链路,底稿承认未交叉 NTSB/JATR/FAA/公司/司法材料,但正文写“监管失灵已经证明事故原因”并判 A-。

必须标出:单一来源族上限、降档后置、来源用途越界或强判断过界。

预期等级:最高 B/internal-only对外发布需补交叉来源。

Test 17技法落地不可审计

待评审输出:文章列出 thread-beadspoint-surfacelayered-argument 等 5 个技法,并说“技法只安排段落动作”,但没有任何正文短摘或段落编号映射。

必须标出:技法落地不可审计;不能判“技法落地合格”。

预期等级:最高 B若技法点睛句新增事实直接 D/F。

Test 18胶囊闭包自证失败

待评审输出读态胶囊写“核心闭包已读完”source modules 只列 v5-source-spine.mdv5-section-digest-index.md 文件名,没有 V5-H 锚点、源范围、入口包到递归闭包展开。

必须标出胶囊闭包自证失败、source module 粒度过粗。

预期等级:最高 B若正文出现胶囊外高风险概念最高 C。

Test 19正文胶囊外高风险概念

待评审输出:哲学答复的胶囊只覆盖同一性和尺度转译,正文却给出创伤、控制、长期单方承接、无法安全表达和低权力退出建议,没有补读关系/低权力/创伤包,也没有标为安全提醒或表达转译。

必须标出:正文胶囊外高风险概念、源锚点失败、正文后置触发漏读。

预期等级C 或 F取决于行动建议风险。

Test 20结构通过误作发布通过

待评审输出:控制器只检查 9 篇文件都有四个标题、胶囊、来源台账和质量闸,就写“全部通过,可发布”。

必须标出:结构通过误作发布通过;要求拆分 structural_passsubstantive_passpublish_boundary

预期等级:控制器汇总不合格;只能标 structural pass不能标 publishable pass。