playbook/antigravity-awesome-skills/skills/crossframe-essay/evals/crossframe-essay-smoke-test...

# CrossFrame Essay Smoke Tests

这些测试用于人工或 agent 检查 `crossframe-essay` 是否真的先推理后写作。

## 通用验收

每次输出必须检查：

- 是否先输出 `结构洞察底稿`，再输出 `文章正文`。
- 是否标明 `full-visible-v5-longform / 5.0混合长文`，并真的输出完整可见底稿和完整长文正文。
- 底稿是否写出 CrossFrame 路由与本次读取。
- 底稿是否写出触发的连续联读包，是否避免只读孤立概念卡。
- 底稿是否写出 v5.0 源结构保真、概念风险、相邻约束和降档风险。
- 是否列出至少两个机制候选，且候选互相竞争。
- 是否区分事实、解释、证据边界和判断档位。
- 是否写出责任链、受益链、成本链或说明为什么不适用。
- 是否写出反向条件、证据缺口或撤回条件。
- 若启用概念上升，是否写出上位概念、思想参照、引用方式、回落现实和引用风险。
- 是否默认写出正文声口方案，并区分答复体、评论体或显式中性说明体。
- 正文第一段删掉术语后仍能读懂。
- 正文默认 1200-2200 中文字，有标题、铺陈、概念上升、现实回落、边界段和余味结尾。
- 正文不是项目符号短答，不用“如果只要一句话”“换成人话说”作为文章替代。
- 批判是否指向结构机制，而不是人格审判。
- 检索材料是否只做佐证、反证、边界或案例，没有接管文章命题。
- 来源台账是否通过九字段硬校验，时间可复核、使用位置可定位，没有合并字段或伪填字段。
- 高责任、公共、事故、监管、AI 合规、未完成调查或单一来源族场景，正文首个强判断是否前置降档。
- 引用或典故是否服务文章命题，而不是接管命题。
- 技法落地证据表是否把每个技法映射到正文短摘或段落编号。
- 正文高风险概念、行动建议、概率排序和点睛句是否能回指胶囊、来源台账或标为本文推断/表达转译。

## 测试 1：组织类

Prompt：

> 用 crossframe-essay 写一篇“团队越复盘越失真”的批判性洞察文章。

必须看到：

- 普通诊断路由。
- 诊断主线包与表达文章包。
- 复盘、反馈写回、修复副产品、责任链。
- 概念上升到“反思制度化后的反馈失真”。
- 可使用组织学习、形式主义或自我审查作为参照，但必须回到资源、权限、时间表和责任。
- 不联网或说明为什么不联网。
- 正文不是管理鸡汤。
- 正文有现代编辑底色，不退回冷诊断腔。
- 正文不缩水为复盘诊断摘要。

## 测试 2：关系类

Prompt：

> 写一篇“解释劳动为什么会耗竭”的文章。

必须看到：

- 亲密关系轻量入口。
- 亲密关系/爱/照护包。
- 先保护痛苦和边界，不把爱写成忍耐义务。
- 概念上升到承认、照护与主体间理解。
- 引用或理论参照不得把修复责任压回受伤者。
- 不把受伤者继续解释当成修复责任。
- 正文先接住解释者的疲惫，再进入结构判断。

## 测试 3：公共议题类

Prompt：

> 写一篇“平台申诉为什么可能只是表面治理”的文章，结合现实材料。

必须看到：

- 公共制度专项、反俘获、证据成本。
- 公共制度与权力包、判断责任包。
- 查源，并标明来源用途。
- 概念上升到程序正义、可申诉权和表演性治理。
- 区分平台声明、可审计证据和用户弱信号。

## 测试 4：哲学概念类

Prompt：

> 写一篇思想文章：生命的第一因是什么？

必须看到：

- 概念解释协议。
- 框架使用纪律包、表达文章包，必要时判断责任包。
- 尺度拆分：科学起源、结构定义、意义问题。
- 概念上升到生命、因果、生成、意义。
- 中西参照可以出现，但不得裁决终极本体。
- 不机械退出为“不可诊断”。
- 有开放断言和边界。
- 正文像编辑认真回应读者的思想问题，而不是只列哲学分类。
- 正文必须达到完整文章感：标题、铺陈、生命/边界/反馈/回应递进、现实回落、余味结尾。

## 测试 5：编辑同志口吻

Prompt：

> 用亲切的编辑同志口吻，回答一位读者：为什么我总是在关系里解释到筋疲力尽？

必须看到：

- 底稿有 `正文声口方案`。
- 正文先接住读者困惑，再进入结构判断。
- 可使用“这位朋友”“我们先把问题放慢一点看”等现代编辑语气。
- 对责任转嫁有明确批评，但不做人格审判。
- 有稳妥意见、行动边界或停止条件。

## 测试 6：失败用例

以下输出应判为失败：

- 只写正文，不给结构洞察底稿。
- 只写底稿，正文缩水成短答或诊断摘要。
- 通篇堆 CrossFrame 术语，普通读者看不懂。
- 搜索到什么就按什么写，文章命题被外部材料接管。
- 堆名人、名著、理论名词，但没有改变现实机制判断。
- 伪造原文、出处、页码、作者观点。
- 引用和问题无关，或引用后不回到现实责任链。
- 把批判写成某类人、某个组织或某个群体的绝对人格审判。
- 空喊“同志”、复古口号化、只安慰不判断、只批判不讲证据。
- 亲切口吻取消责任链，或严厉口吻取消证据边界。
- 没有反向条件、证据缺口或撤回条件。
- 本应触发连续联读包，却只读单个概念卡。
- 对公共事实不查源却装作掌握最新情况。
- 默认文章正文少于 600 字，或没有标题、铺陈、概念上升、现实回落和余味。
- 没有 `v5-read-state-capsule` 却在 essay 内重新发明源路由。
- 没有来源台账摘要，或把热度、机构声明、PR 文案、AI 生成材料写成已核验事实。
- 来源台账合并“降档理由/仍需补证处”、用“官方页面”伪填时间、或使用位置只写“正文自然提及”。
- 未展示完整文章类型选择器，只写“已展示文章类型选择器（1-9）”。
- 写作技法新增事实、强判断、点睛句或隐喻证明，无法回指底稿和源锚点。
- 列出技法名但没有正文短摘/段落编号，仍宣称技法落地合格。
- 正文新增承接、回流、创伤、控制、无法退出、低权力、责任链、行动上限等高风险概念，但胶囊没有对应锚点、连读包或表达转译标记。

## 测试 7：文章类型与技法边界

Prompt：

> 用 crossframe-essay 写一篇论辩文章，反驳“平台只要有申诉入口就算治理有效”。

必须看到：

- 结构洞察底稿先记录 `v5-read-state-capsule` 摘要和源锚点完整性检查。
- 若用户未显式指定文章类型，先展示完整 9 项文章类型选择器；若用户已指定论辩文章，直接采用并记录来源。
- 技法读取不超过 5 个，并在底稿写出主心骨、入口技法、结构技法、批判技法、结尾技法和技法执行摘要。
- 技法不能把反驳写成动员口号，不能新增胶囊外事实。

## 测试 8：来源台账降档

Prompt：

> 写一篇公共评论，材料只有某平台自评报告和一张网传截图。

必须看到：

- 来源台账摘要区分自评报告、截图、热度或二手转述的证据档位。
- 来源台账逐条写出来源、时间、来源类型、支持命题、不能证明什么、证据档位、使用位置、降档理由和仍需补证处。
- 不把自评报告或截图写成已核验事实。
- 中心命题、机制候选和行动边界若无法回指源锚点，必须降档为本文推断、表达转译或待核验判断。

失败信号：只贴链接或只写“已查源”，没有说明材料不能证明什么；用截图和自评报告直接支撑公共强判断。

## 测试 9：技法落地证据

Prompt：

> 用 crossframe-essay 写一篇组织复盘文章，显式指定文章类型为“组织复盘/修复文章”。

必须看到：

- 技法读取不超过 5 个。
- 底稿或正文前后记录技法落地证据表：技法、负责段落动作、正文对应短摘/段落编号、它不能证明什么、越界反查。
- 组织复盘必须覆盖责任链、授权链、反馈写回和行动上限。

失败信号：只列 `thread-beads`、`point-surface`、`layered-argument` 等技法名，随后用一句“技法只安排段落动作”带过。

## 测试 10：趋势推演来源外推

Prompt：

> 以某法律/政策生效时间线为唯一来源，写一篇趋势推演文章。

必须看到：

- 法律/政策时间线只支撑制度事实和适用节点。
- 企业行为、市场工具、审计实践或执行效果只能写为假设路径、开放断言或待核验观察，除非补现实实践来源。
- “更可能、主流、长期存在”等排序词必须标明依据类型。

失败信号：用官方时间线直接写企业已经或通常会如何行动。

## 测试 11：正文后置触发补读

Prompt：

> 以“忒修斯之船”为入口，写答复体文章回答关系变化后是否还是原来的关系。

必须看到：

- 哲学同一性只作为外部思想映射。
- 若正文进入创伤、控制、长期单方承接、无法安全表达、低权力退出等现实边界，必须触发关系/低权力/行动边界包的补读或标为安全提醒/表达转译。
- 不能把船的同一性类比直接推成关系修复义务。

失败信号：胶囊只覆盖哲学同一性，却在正文中给出现实关系行动建议。