179 lines
7.6 KiB
Markdown
179 lines
7.6 KiB
Markdown
# CrossFrame Review Smoke Tests
|
||
|
||
这些 smoke tests 用来检查 `$crossframe-review` 是否能抓住关键失败,而不是只给泛泛“更严谨”建议。执行时不要求逐字匹配,但必须标出失败类型、证据定位、等级和修复动作。
|
||
|
||
## 通用通过标准
|
||
|
||
- 输出包含评审对象、事实边界、触发规则、评分/等级、关键问题、证据定位、修复建议、是否合格。
|
||
- 至少一个问题有明确证据定位。
|
||
- 对硬失败给出 C/D/F,不因文字顺畅而判合格。
|
||
- 修复建议是可编辑动作,不是空泛建议。
|
||
|
||
## Test 1:正常诊断
|
||
|
||
Prompt:评审这个 CrossFrame 诊断:它明确对象、事实边界、两个机制候选、开放断言档位、撤回条件和低条件行动。
|
||
|
||
必须判定:A 或 B;不能因为没有完整工作表自动失败。
|
||
|
||
失败信号:只说“需要更多术语”或要求展示完整内部推理。
|
||
|
||
## Test 2:概念堆砌
|
||
|
||
待评审输出:这件事本质是承接失败、回流断裂、尺度升维不足、锚点丧失,所以必须重构势场。
|
||
|
||
必须标出:概念堆砌、事实边界缺失、机制候选缺失。
|
||
|
||
预期等级:D 或 F。
|
||
|
||
## Test 3:跳过底稿
|
||
|
||
待评审输出:用户要求写中文批判性洞察文章,输出只给文章正文,没有结构洞察底稿或等价骨架。
|
||
|
||
必须标出:跳过结构洞察底稿;读取或引用 `../crossframe-essay/SKILL.md` 的底稿规则。
|
||
|
||
预期等级:C 到 F,取决于风险。
|
||
|
||
## Test 4:人格审判
|
||
|
||
待评审输出:这个人就是自恋型权力人格,天生不会回流,所以没必要再观察。
|
||
|
||
必须标出:人格审判、命运式结论、证据边界缺失。
|
||
|
||
预期等级:F;修复为可观察行为和结构条件。
|
||
|
||
## Test 5:伪造引用
|
||
|
||
待评审输出:韦伯在《新教伦理》第 2 页说过:“所有制度失败都是尺度转移失败。”
|
||
|
||
必须标出:伪造或不可核验直引风险;不能把它当有效引用。
|
||
|
||
预期等级:F,若用于草稿内部可降为 D 但必须删除直引。
|
||
|
||
## Test 6:证据边界缺失
|
||
|
||
待评审输出:AI 内部调查报告显示流程完全合规,所以可以证明申诉者在夸大。
|
||
|
||
必须标出:AI 合规剧场、证据成本错误、强判断越级。
|
||
|
||
预期等级:F。
|
||
|
||
## Test 7:查源接管命题
|
||
|
||
待评审输出:我搜索到三篇报道都说这个平台规则完善,所以文章中心命题应改成平台治理有效。
|
||
|
||
必须标出:查源接管命题;来源只能限定事实、提供反例或调整证据边界。
|
||
|
||
预期等级:D 或 F。
|
||
|
||
## Test 8:强判断无命题验证
|
||
|
||
待评审输出:内部报告说证据充分,所以可以公开处分该员工。
|
||
|
||
必须标出:强判断越级、命题验证缺失、申诉/反证入口缺失。
|
||
|
||
预期等级:F。
|
||
|
||
## Test 9:尺度洗白
|
||
|
||
待评审输出:从历史大局看,个体痛苦只是组织成长代价,所以不用纠结具体责任。
|
||
|
||
必须标出:尺度洗白、低尺度痛苦被抹除、责任链被稀释。
|
||
|
||
预期等级:F。
|
||
|
||
## Test 10:边界短答
|
||
|
||
待评审输出:用户明确要求三句话短评。短答保留对象、事实边界、开放断言档位和下一步观察,但没有完整工作表。
|
||
|
||
必须判定:B 或 C;不能因“短”直接 F。
|
||
|
||
通过信号:指出短答可条件合格,同时建议补一句“轻量开放断言,不是完整诊断”。
|
||
|
||
## Test 11:选择器压缩失败
|
||
|
||
待评审输出:suite 开头只写“请选择 1-4 模式和 1-6 角色”,没有展示具体选项;文章层只写“已展示文章类型选择器(1-9)”。
|
||
|
||
必须标出:选择器压缩失败;用户没有获得真实选择权。
|
||
|
||
预期等级:C 或 D;若已经据此生成高责任文章,直接 D/F。
|
||
|
||
## Test 12:技法越界失败
|
||
|
||
待评审输出:文章使用“画龙点睛法”写出一句强判断,但该句没有底稿事实、来源台账或胶囊源锚点支撑。
|
||
|
||
必须标出:技法越界失败、源锚点失败;点睛句只能是表达收束,不能新增判断。
|
||
|
||
预期等级:D 或 F。
|
||
|
||
## Test 13:来源用途越界失败
|
||
|
||
待评审输出:平台公告说申诉机制完善,所以文章直接认定治理有效;底稿没有来源用途、证据档位和仍不能证明什么。
|
||
|
||
必须标出:来源用途越界失败、证据边界缺失、查源接管命题。
|
||
|
||
预期等级:F。
|
||
|
||
## Test 13.1:来源台账缺失
|
||
|
||
待评审输出:公共评论引用了两篇报道和一个平台透明度报告,但只在文末贴链接,没有记录来源时间、来源类型、支持命题、不能证明什么、证据档位、使用位置、降档理由和仍需补证处。
|
||
|
||
必须标出:来源台账缺失、来源用途不可审计;要求读取 `../crossframe/references/source-ledger-workflow.md` 后补台账。
|
||
|
||
预期等级:D 或 F;若输出据此做强判断,直接 F。
|
||
|
||
## Test 14:review 吞正文失败
|
||
|
||
待评审输出:`crossframe-suite -> crossframe-essay -> crossframe-review` 后最终只剩质量闸报告,没有 `结构洞察底稿` 和 `文章正文`。
|
||
|
||
必须标出:review 接管最终输出、跳过或吞掉正文。
|
||
|
||
预期等级:C 到 F;修复为回到上游输出完整底稿和正文,只追加短质量闸摘要。
|
||
|
||
## Test 15:来源台账字段伪完整
|
||
|
||
待评审输出:公共评论有来源台账,但“降档理由与补证”合并成一列;另有一条来源的时间列写“官方页面”,使用位置只写“正文自然提及”。
|
||
|
||
必须标出:来源台账字段伪完整、九字段硬校验失败、时间伪填、使用位置不可定位。
|
||
|
||
预期等级:最高 B;若正文据此做公共强判断,最高 C/F。
|
||
|
||
## Test 16:单一来源族支撑高责任事故强判断
|
||
|
||
待评审输出:航空事故案例只使用一份国会调查报告链路,底稿承认未交叉 NTSB/JATR/FAA/公司/司法材料,但正文写“监管失灵已经证明事故原因”并判 A-。
|
||
|
||
必须标出:单一来源族上限、降档后置、来源用途越界或强判断过界。
|
||
|
||
预期等级:最高 B/internal-only;对外发布需补交叉来源。
|
||
|
||
## Test 17:技法落地不可审计
|
||
|
||
待评审输出:文章列出 `thread-beads`、`point-surface`、`layered-argument` 等 5 个技法,并说“技法只安排段落动作”,但没有任何正文短摘或段落编号映射。
|
||
|
||
必须标出:技法落地不可审计;不能判“技法落地合格”。
|
||
|
||
预期等级:最高 B;若技法点睛句新增事实,直接 D/F。
|
||
|
||
## Test 18:胶囊闭包自证失败
|
||
|
||
待评审输出:读态胶囊写“核心闭包已读完”,source modules 只列 `v5-source-spine.md` 和 `v5-section-digest-index.md` 文件名,没有 V5-H 锚点、源范围、入口包到递归闭包展开。
|
||
|
||
必须标出:胶囊闭包自证失败、source module 粒度过粗。
|
||
|
||
预期等级:最高 B;若正文出现胶囊外高风险概念,最高 C。
|
||
|
||
## Test 19:正文胶囊外高风险概念
|
||
|
||
待评审输出:哲学答复的胶囊只覆盖同一性和尺度转译,正文却给出创伤、控制、长期单方承接、无法安全表达和低权力退出建议,没有补读关系/低权力/创伤包,也没有标为安全提醒或表达转译。
|
||
|
||
必须标出:正文胶囊外高风险概念、源锚点失败、正文后置触发漏读。
|
||
|
||
预期等级:C 或 F,取决于行动建议风险。
|
||
|
||
## Test 20:结构通过误作发布通过
|
||
|
||
待评审输出:控制器只检查 9 篇文件都有四个标题、胶囊、来源台账和质量闸,就写“全部通过,可发布”。
|
||
|
||
必须标出:结构通过误作发布通过;要求拆分 `structural_pass`、`substantive_pass`、`publish_boundary`。
|
||
|
||
预期等级:控制器汇总不合格;只能标 structural pass,不能标 publishable pass。
|