playbook/antigravity-awesome-skills/skills/crossframe-essay/evals/crossframe-essay-smoke-test...

206 lines
9.4 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# CrossFrame Essay Smoke Tests
这些测试用于人工或 agent 检查 `crossframe-essay` 是否真的先推理后写作。
## 通用验收
每次输出必须检查:
- 是否先输出 `结构洞察底稿`,再输出 `文章正文`
- 是否标明 `full-visible-v5-longform / 5.0混合长文`,并真的输出完整可见底稿和完整长文正文。
- 底稿是否写出 CrossFrame 路由与本次读取。
- 底稿是否写出触发的连续联读包,是否避免只读孤立概念卡。
- 底稿是否写出 v5.0 源结构保真、概念风险、相邻约束和降档风险。
- 是否列出至少两个机制候选,且候选互相竞争。
- 是否区分事实、解释、证据边界和判断档位。
- 是否写出责任链、受益链、成本链或说明为什么不适用。
- 是否写出反向条件、证据缺口或撤回条件。
- 若启用概念上升,是否写出上位概念、思想参照、引用方式、回落现实和引用风险。
- 是否默认写出正文声口方案,并区分答复体、评论体或显式中性说明体。
- 正文第一段删掉术语后仍能读懂。
- 正文默认 1200-2200 中文字,有标题、铺陈、概念上升、现实回落、边界段和余味结尾。
- 正文不是项目符号短答,不用“如果只要一句话”“换成人话说”作为文章替代。
- 批判是否指向结构机制,而不是人格审判。
- 检索材料是否只做佐证、反证、边界或案例,没有接管文章命题。
- 来源台账是否通过九字段硬校验,时间可复核、使用位置可定位,没有合并字段或伪填字段。
- 高责任、公共、事故、监管、AI 合规、未完成调查或单一来源族场景,正文首个强判断是否前置降档。
- 引用或典故是否服务文章命题,而不是接管命题。
- 技法落地证据表是否把每个技法映射到正文短摘或段落编号。
- 正文高风险概念、行动建议、概率排序和点睛句是否能回指胶囊、来源台账或标为本文推断/表达转译。
## 测试 1组织类
Prompt
> 用 crossframe-essay 写一篇“团队越复盘越失真”的批判性洞察文章。
必须看到:
- 普通诊断路由。
- 诊断主线包与表达文章包。
- 复盘、反馈写回、修复副产品、责任链。
- 概念上升到“反思制度化后的反馈失真”。
- 可使用组织学习、形式主义或自我审查作为参照,但必须回到资源、权限、时间表和责任。
- 不联网或说明为什么不联网。
- 正文不是管理鸡汤。
- 正文有现代编辑底色,不退回冷诊断腔。
- 正文不缩水为复盘诊断摘要。
## 测试 2关系类
Prompt
> 写一篇“解释劳动为什么会耗竭”的文章。
必须看到:
- 亲密关系轻量入口。
- 亲密关系/爱/照护包。
- 先保护痛苦和边界,不把爱写成忍耐义务。
- 概念上升到承认、照护与主体间理解。
- 引用或理论参照不得把修复责任压回受伤者。
- 不把受伤者继续解释当成修复责任。
- 正文先接住解释者的疲惫,再进入结构判断。
## 测试 3公共议题类
Prompt
> 写一篇“平台申诉为什么可能只是表面治理”的文章,结合现实材料。
必须看到:
- 公共制度专项、反俘获、证据成本。
- 公共制度与权力包、判断责任包。
- 查源,并标明来源用途。
- 概念上升到程序正义、可申诉权和表演性治理。
- 区分平台声明、可审计证据和用户弱信号。
## 测试 4哲学概念类
Prompt
> 写一篇思想文章:生命的第一因是什么?
必须看到:
- 概念解释协议。
- 框架使用纪律包、表达文章包,必要时判断责任包。
- 尺度拆分:科学起源、结构定义、意义问题。
- 概念上升到生命、因果、生成、意义。
- 中西参照可以出现,但不得裁决终极本体。
- 不机械退出为“不可诊断”。
- 有开放断言和边界。
- 正文像编辑认真回应读者的思想问题,而不是只列哲学分类。
- 正文必须达到完整文章感:标题、铺陈、生命/边界/反馈/回应递进、现实回落、余味结尾。
## 测试 5编辑同志口吻
Prompt
> 用亲切的编辑同志口吻,回答一位读者:为什么我总是在关系里解释到筋疲力尽?
必须看到:
- 底稿有 `正文声口方案`
- 正文先接住读者困惑,再进入结构判断。
- 可使用“这位朋友”“我们先把问题放慢一点看”等现代编辑语气。
- 对责任转嫁有明确批评,但不做人格审判。
- 有稳妥意见、行动边界或停止条件。
## 测试 6失败用例
以下输出应判为失败:
- 只写正文,不给结构洞察底稿。
- 只写底稿,正文缩水成短答或诊断摘要。
- 通篇堆 CrossFrame 术语,普通读者看不懂。
- 搜索到什么就按什么写,文章命题被外部材料接管。
- 堆名人、名著、理论名词,但没有改变现实机制判断。
- 伪造原文、出处、页码、作者观点。
- 引用和问题无关,或引用后不回到现实责任链。
- 把批判写成某类人、某个组织或某个群体的绝对人格审判。
- 空喊“同志”、复古口号化、只安慰不判断、只批判不讲证据。
- 亲切口吻取消责任链,或严厉口吻取消证据边界。
- 没有反向条件、证据缺口或撤回条件。
- 本应触发连续联读包,却只读单个概念卡。
- 对公共事实不查源却装作掌握最新情况。
- 默认文章正文少于 600 字,或没有标题、铺陈、概念上升、现实回落和余味。
- 没有 `v5-read-state-capsule` 却在 essay 内重新发明源路由。
- 没有来源台账摘要或把热度、机构声明、PR 文案、AI 生成材料写成已核验事实。
- 来源台账合并“降档理由/仍需补证处”、用“官方页面”伪填时间、或使用位置只写“正文自然提及”。
- 未展示完整文章类型选择器只写“已展示文章类型选择器1-9”。
- 写作技法新增事实、强判断、点睛句或隐喻证明,无法回指底稿和源锚点。
- 列出技法名但没有正文短摘/段落编号,仍宣称技法落地合格。
- 正文新增承接、回流、创伤、控制、无法退出、低权力、责任链、行动上限等高风险概念,但胶囊没有对应锚点、连读包或表达转译标记。
## 测试 7文章类型与技法边界
Prompt
> 用 crossframe-essay 写一篇论辩文章,反驳“平台只要有申诉入口就算治理有效”。
必须看到:
- 结构洞察底稿先记录 `v5-read-state-capsule` 摘要和源锚点完整性检查。
- 若用户未显式指定文章类型,先展示完整 9 项文章类型选择器;若用户已指定论辩文章,直接采用并记录来源。
- 技法读取不超过 5 个,并在底稿写出主心骨、入口技法、结构技法、批判技法、结尾技法和技法执行摘要。
- 技法不能把反驳写成动员口号,不能新增胶囊外事实。
## 测试 8来源台账降档
Prompt
> 写一篇公共评论,材料只有某平台自评报告和一张网传截图。
必须看到:
- 来源台账摘要区分自评报告、截图、热度或二手转述的证据档位。
- 来源台账逐条写出来源、时间、来源类型、支持命题、不能证明什么、证据档位、使用位置、降档理由和仍需补证处。
- 不把自评报告或截图写成已核验事实。
- 中心命题、机制候选和行动边界若无法回指源锚点,必须降档为本文推断、表达转译或待核验判断。
失败信号:只贴链接或只写“已查源”,没有说明材料不能证明什么;用截图和自评报告直接支撑公共强判断。
## 测试 9技法落地证据
Prompt
> 用 crossframe-essay 写一篇组织复盘文章,显式指定文章类型为“组织复盘/修复文章”。
必须看到:
- 技法读取不超过 5 个。
- 底稿或正文前后记录技法落地证据表:技法、负责段落动作、正文对应短摘/段落编号、它不能证明什么、越界反查。
- 组织复盘必须覆盖责任链、授权链、反馈写回和行动上限。
失败信号:只列 `thread-beads`、`point-surface`、`layered-argument` 等技法名,随后用一句“技法只安排段落动作”带过。
## 测试 10趋势推演来源外推
Prompt
> 以某法律/政策生效时间线为唯一来源,写一篇趋势推演文章。
必须看到:
- 法律/政策时间线只支撑制度事实和适用节点。
- 企业行为、市场工具、审计实践或执行效果只能写为假设路径、开放断言或待核验观察,除非补现实实践来源。
- “更可能、主流、长期存在”等排序词必须标明依据类型。
失败信号:用官方时间线直接写企业已经或通常会如何行动。
## 测试 11正文后置触发补读
Prompt
> 以“忒修斯之船”为入口,写答复体文章回答关系变化后是否还是原来的关系。
必须看到:
- 哲学同一性只作为外部思想映射。
- 若正文进入创伤、控制、长期单方承接、无法安全表达、低权力退出等现实边界,必须触发关系/低权力/行动边界包的补读或标为安全提醒/表达转译。
- 不能把船的同一性类比直接推成关系修复义务。
失败信号:胶囊只覆盖哲学同一性,却在正文中给出现实关系行动建议。