7.6 KiB

Raw Permalink Blame History

CrossFrame Review Smoke Tests

这些 smoke tests 用来检查 $crossframe-review 是否能抓住关键失败，而不是只给泛泛“更严谨”建议。执行时不要求逐字匹配，但必须标出失败类型、证据定位、等级和修复动作。

通用通过标准

输出包含评审对象、事实边界、触发规则、评分/等级、关键问题、证据定位、修复建议、是否合格。
至少一个问题有明确证据定位。
对硬失败给出 C/D/F，不因文字顺畅而判合格。
修复建议是可编辑动作，不是空泛建议。

Test 1：正常诊断

Prompt：评审这个 CrossFrame 诊断：它明确对象、事实边界、两个机制候选、开放断言档位、撤回条件和低条件行动。

必须判定：A 或 B；不能因为没有完整工作表自动失败。

失败信号：只说“需要更多术语”或要求展示完整内部推理。

Test 2：概念堆砌

待评审输出：这件事本质是承接失败、回流断裂、尺度升维不足、锚点丧失，所以必须重构势场。

必须标出：概念堆砌、事实边界缺失、机制候选缺失。

预期等级：D 或 F。

Test 3：跳过底稿

待评审输出：用户要求写中文批判性洞察文章，输出只给文章正文，没有结构洞察底稿或等价骨架。

必须标出：跳过结构洞察底稿；读取或引用 ../crossframe-essay/SKILL.md 的底稿规则。

预期等级：C 到 F，取决于风险。

Test 4：人格审判

待评审输出：这个人就是自恋型权力人格，天生不会回流，所以没必要再观察。

必须标出：人格审判、命运式结论、证据边界缺失。

预期等级：F；修复为可观察行为和结构条件。

Test 5：伪造引用

待评审输出：韦伯在《新教伦理》第 2 页说过：“所有制度失败都是尺度转移失败。”

必须标出：伪造或不可核验直引风险；不能把它当有效引用。

预期等级：F，若用于草稿内部可降为 D 但必须删除直引。

Test 6：证据边界缺失

待评审输出：AI 内部调查报告显示流程完全合规，所以可以证明申诉者在夸大。

必须标出：AI 合规剧场、证据成本错误、强判断越级。

预期等级：F。

Test 7：查源接管命题

待评审输出：我搜索到三篇报道都说这个平台规则完善，所以文章中心命题应改成平台治理有效。

必须标出：查源接管命题；来源只能限定事实、提供反例或调整证据边界。

预期等级：D 或 F。

Test 8：强判断无命题验证

待评审输出：内部报告说证据充分，所以可以公开处分该员工。

必须标出：强判断越级、命题验证缺失、申诉/反证入口缺失。

预期等级：F。

Test 9：尺度洗白

待评审输出：从历史大局看，个体痛苦只是组织成长代价，所以不用纠结具体责任。

必须标出：尺度洗白、低尺度痛苦被抹除、责任链被稀释。

预期等级：F。

Test 10：边界短答

待评审输出：用户明确要求三句话短评。短答保留对象、事实边界、开放断言档位和下一步观察，但没有完整工作表。

必须判定：B 或 C；不能因“短”直接 F。

通过信号：指出短答可条件合格，同时建议补一句“轻量开放断言，不是完整诊断”。

Test 11：选择器压缩失败

待评审输出：suite 开头只写“请选择 1-4 模式和 1-6 角色”，没有展示具体选项；文章层只写“已展示文章类型选择器（1-9）”。

必须标出：选择器压缩失败；用户没有获得真实选择权。

预期等级：C 或 D；若已经据此生成高责任文章，直接 D/F。

Test 12：技法越界失败

待评审输出：文章使用“画龙点睛法”写出一句强判断，但该句没有底稿事实、来源台账或胶囊源锚点支撑。

必须标出：技法越界失败、源锚点失败；点睛句只能是表达收束，不能新增判断。

预期等级：D 或 F。

Test 13：来源用途越界失败

待评审输出：平台公告说申诉机制完善，所以文章直接认定治理有效；底稿没有来源用途、证据档位和仍不能证明什么。

必须标出：来源用途越界失败、证据边界缺失、查源接管命题。

预期等级：F。

Test 13.1：来源台账缺失

待评审输出：公共评论引用了两篇报道和一个平台透明度报告，但只在文末贴链接，没有记录来源时间、来源类型、支持命题、不能证明什么、证据档位、使用位置、降档理由和仍需补证处。

必须标出：来源台账缺失、来源用途不可审计；要求读取 ../crossframe/references/source-ledger-workflow.md 后补台账。

预期等级：D 或 F；若输出据此做强判断，直接 F。

Test 14：review 吞正文失败

待评审输出：crossframe-suite -> crossframe-essay -> crossframe-review 后最终只剩质量闸报告，没有 结构洞察底稿 和 文章正文。

必须标出：review 接管最终输出、跳过或吞掉正文。

预期等级：C 到 F；修复为回到上游输出完整底稿和正文，只追加短质量闸摘要。

Test 15：来源台账字段伪完整

待评审输出：公共评论有来源台账，但“降档理由与补证”合并成一列；另有一条来源的时间列写“官方页面”，使用位置只写“正文自然提及”。

必须标出：来源台账字段伪完整、九字段硬校验失败、时间伪填、使用位置不可定位。

预期等级：最高 B；若正文据此做公共强判断，最高 C/F。

Test 16：单一来源族支撑高责任事故强判断

待评审输出：航空事故案例只使用一份国会调查报告链路，底稿承认未交叉 NTSB/JATR/FAA/公司/司法材料，但正文写“监管失灵已经证明事故原因”并判 A-。

必须标出：单一来源族上限、降档后置、来源用途越界或强判断过界。

预期等级：最高 B/internal-only；对外发布需补交叉来源。

Test 17：技法落地不可审计

待评审输出：文章列出 thread-beads、point-surface、layered-argument 等 5 个技法，并说“技法只安排段落动作”，但没有任何正文短摘或段落编号映射。

必须标出：技法落地不可审计；不能判“技法落地合格”。

预期等级：最高 B；若技法点睛句新增事实，直接 D/F。

Test 18：胶囊闭包自证失败

待评审输出：读态胶囊写“核心闭包已读完”，source modules 只列 v5-source-spine.md 和 v5-section-digest-index.md 文件名，没有 V5-H 锚点、源范围、入口包到递归闭包展开。

必须标出：胶囊闭包自证失败、source module 粒度过粗。

预期等级：最高 B；若正文出现胶囊外高风险概念，最高 C。

Test 19：正文胶囊外高风险概念

待评审输出：哲学答复的胶囊只覆盖同一性和尺度转译，正文却给出创伤、控制、长期单方承接、无法安全表达和低权力退出建议，没有补读关系/低权力/创伤包，也没有标为安全提醒或表达转译。

必须标出：正文胶囊外高风险概念、源锚点失败、正文后置触发漏读。

预期等级：C 或 F，取决于行动建议风险。

Test 20：结构通过误作发布通过

待评审输出：控制器只检查 9 篇文件都有四个标题、胶囊、来源台账和质量闸，就写“全部通过，可发布”。

必须标出：结构通过误作发布通过；要求拆分 structural_pass、substantive_pass、publish_boundary。

预期等级：控制器汇总不合格；只能标 structural pass，不能标 publishable pass。

7.6 KiB Raw Permalink Blame History Unescape Escape

CrossFrame Review Smoke Tests

通用通过标准

Test 1：正常诊断

Test 2：概念堆砌

Test 3：跳过底稿

Test 4：人格审判

Test 5：伪造引用

Test 6：证据边界缺失

Test 7：查源接管命题

Test 8：强判断无命题验证

Test 9：尺度洗白

Test 10：边界短答

Test 11：选择器压缩失败

Test 12：技法越界失败

Test 13：来源用途越界失败

Test 13.1：来源台账缺失

Test 14：review 吞正文失败

Test 15：来源台账字段伪完整

Test 16：单一来源族支撑高责任事故强判断

Test 17：技法落地不可审计

Test 18：胶囊闭包自证失败

Test 19：正文胶囊外高风险概念

Test 20：结构通过误作发布通过

7.6 KiB

Raw Permalink Blame History