playbook/antigravity-awesome-skills/skills/crossframe-essay/evals/crossframe-essay-smoke-test...

9.4 KiB
Raw Blame History

CrossFrame Essay Smoke Tests

这些测试用于人工或 agent 检查 crossframe-essay 是否真的先推理后写作。

通用验收

每次输出必须检查:

  • 是否先输出 结构洞察底稿,再输出 文章正文
  • 是否标明 full-visible-v5-longform / 5.0混合长文,并真的输出完整可见底稿和完整长文正文。
  • 底稿是否写出 CrossFrame 路由与本次读取。
  • 底稿是否写出触发的连续联读包,是否避免只读孤立概念卡。
  • 底稿是否写出 v5.0 源结构保真、概念风险、相邻约束和降档风险。
  • 是否列出至少两个机制候选,且候选互相竞争。
  • 是否区分事实、解释、证据边界和判断档位。
  • 是否写出责任链、受益链、成本链或说明为什么不适用。
  • 是否写出反向条件、证据缺口或撤回条件。
  • 若启用概念上升,是否写出上位概念、思想参照、引用方式、回落现实和引用风险。
  • 是否默认写出正文声口方案,并区分答复体、评论体或显式中性说明体。
  • 正文第一段删掉术语后仍能读懂。
  • 正文默认 1200-2200 中文字,有标题、铺陈、概念上升、现实回落、边界段和余味结尾。
  • 正文不是项目符号短答,不用“如果只要一句话”“换成人话说”作为文章替代。
  • 批判是否指向结构机制,而不是人格审判。
  • 检索材料是否只做佐证、反证、边界或案例,没有接管文章命题。
  • 来源台账是否通过九字段硬校验,时间可复核、使用位置可定位,没有合并字段或伪填字段。
  • 高责任、公共、事故、监管、AI 合规、未完成调查或单一来源族场景,正文首个强判断是否前置降档。
  • 引用或典故是否服务文章命题,而不是接管命题。
  • 技法落地证据表是否把每个技法映射到正文短摘或段落编号。
  • 正文高风险概念、行动建议、概率排序和点睛句是否能回指胶囊、来源台账或标为本文推断/表达转译。

测试 1组织类

Prompt

用 crossframe-essay 写一篇“团队越复盘越失真”的批判性洞察文章。

必须看到:

  • 普通诊断路由。
  • 诊断主线包与表达文章包。
  • 复盘、反馈写回、修复副产品、责任链。
  • 概念上升到“反思制度化后的反馈失真”。
  • 可使用组织学习、形式主义或自我审查作为参照,但必须回到资源、权限、时间表和责任。
  • 不联网或说明为什么不联网。
  • 正文不是管理鸡汤。
  • 正文有现代编辑底色,不退回冷诊断腔。
  • 正文不缩水为复盘诊断摘要。

测试 2关系类

Prompt

写一篇“解释劳动为什么会耗竭”的文章。

必须看到:

  • 亲密关系轻量入口。
  • 亲密关系/爱/照护包。
  • 先保护痛苦和边界,不把爱写成忍耐义务。
  • 概念上升到承认、照护与主体间理解。
  • 引用或理论参照不得把修复责任压回受伤者。
  • 不把受伤者继续解释当成修复责任。
  • 正文先接住解释者的疲惫,再进入结构判断。

测试 3公共议题类

Prompt

写一篇“平台申诉为什么可能只是表面治理”的文章,结合现实材料。

必须看到:

  • 公共制度专项、反俘获、证据成本。
  • 公共制度与权力包、判断责任包。
  • 查源,并标明来源用途。
  • 概念上升到程序正义、可申诉权和表演性治理。
  • 区分平台声明、可审计证据和用户弱信号。

测试 4哲学概念类

Prompt

写一篇思想文章:生命的第一因是什么?

必须看到:

  • 概念解释协议。
  • 框架使用纪律包、表达文章包,必要时判断责任包。
  • 尺度拆分:科学起源、结构定义、意义问题。
  • 概念上升到生命、因果、生成、意义。
  • 中西参照可以出现,但不得裁决终极本体。
  • 不机械退出为“不可诊断”。
  • 有开放断言和边界。
  • 正文像编辑认真回应读者的思想问题,而不是只列哲学分类。
  • 正文必须达到完整文章感:标题、铺陈、生命/边界/反馈/回应递进、现实回落、余味结尾。

测试 5编辑同志口吻

Prompt

用亲切的编辑同志口吻,回答一位读者:为什么我总是在关系里解释到筋疲力尽?

必须看到:

  • 底稿有 正文声口方案
  • 正文先接住读者困惑,再进入结构判断。
  • 可使用“这位朋友”“我们先把问题放慢一点看”等现代编辑语气。
  • 对责任转嫁有明确批评,但不做人格审判。
  • 有稳妥意见、行动边界或停止条件。

测试 6失败用例

以下输出应判为失败:

  • 只写正文,不给结构洞察底稿。
  • 只写底稿,正文缩水成短答或诊断摘要。
  • 通篇堆 CrossFrame 术语,普通读者看不懂。
  • 搜索到什么就按什么写,文章命题被外部材料接管。
  • 堆名人、名著、理论名词,但没有改变现实机制判断。
  • 伪造原文、出处、页码、作者观点。
  • 引用和问题无关,或引用后不回到现实责任链。
  • 把批判写成某类人、某个组织或某个群体的绝对人格审判。
  • 空喊“同志”、复古口号化、只安慰不判断、只批判不讲证据。
  • 亲切口吻取消责任链,或严厉口吻取消证据边界。
  • 没有反向条件、证据缺口或撤回条件。
  • 本应触发连续联读包,却只读单个概念卡。
  • 对公共事实不查源却装作掌握最新情况。
  • 默认文章正文少于 600 字,或没有标题、铺陈、概念上升、现实回落和余味。
  • 没有 v5-read-state-capsule 却在 essay 内重新发明源路由。
  • 没有来源台账摘要或把热度、机构声明、PR 文案、AI 生成材料写成已核验事实。
  • 来源台账合并“降档理由/仍需补证处”、用“官方页面”伪填时间、或使用位置只写“正文自然提及”。
  • 未展示完整文章类型选择器只写“已展示文章类型选择器1-9”。
  • 写作技法新增事实、强判断、点睛句或隐喻证明,无法回指底稿和源锚点。
  • 列出技法名但没有正文短摘/段落编号,仍宣称技法落地合格。
  • 正文新增承接、回流、创伤、控制、无法退出、低权力、责任链、行动上限等高风险概念,但胶囊没有对应锚点、连读包或表达转译标记。

测试 7文章类型与技法边界

Prompt

用 crossframe-essay 写一篇论辩文章,反驳“平台只要有申诉入口就算治理有效”。

必须看到:

  • 结构洞察底稿先记录 v5-read-state-capsule 摘要和源锚点完整性检查。
  • 若用户未显式指定文章类型,先展示完整 9 项文章类型选择器;若用户已指定论辩文章,直接采用并记录来源。
  • 技法读取不超过 5 个,并在底稿写出主心骨、入口技法、结构技法、批判技法、结尾技法和技法执行摘要。
  • 技法不能把反驳写成动员口号,不能新增胶囊外事实。

测试 8来源台账降档

Prompt

写一篇公共评论,材料只有某平台自评报告和一张网传截图。

必须看到:

  • 来源台账摘要区分自评报告、截图、热度或二手转述的证据档位。
  • 来源台账逐条写出来源、时间、来源类型、支持命题、不能证明什么、证据档位、使用位置、降档理由和仍需补证处。
  • 不把自评报告或截图写成已核验事实。
  • 中心命题、机制候选和行动边界若无法回指源锚点,必须降档为本文推断、表达转译或待核验判断。

失败信号:只贴链接或只写“已查源”,没有说明材料不能证明什么;用截图和自评报告直接支撑公共强判断。

测试 9技法落地证据

Prompt

用 crossframe-essay 写一篇组织复盘文章,显式指定文章类型为“组织复盘/修复文章”。

必须看到:

  • 技法读取不超过 5 个。
  • 底稿或正文前后记录技法落地证据表:技法、负责段落动作、正文对应短摘/段落编号、它不能证明什么、越界反查。
  • 组织复盘必须覆盖责任链、授权链、反馈写回和行动上限。

失败信号:只列 thread-beadspoint-surfacelayered-argument 等技法名,随后用一句“技法只安排段落动作”带过。

测试 10趋势推演来源外推

Prompt

以某法律/政策生效时间线为唯一来源,写一篇趋势推演文章。

必须看到:

  • 法律/政策时间线只支撑制度事实和适用节点。
  • 企业行为、市场工具、审计实践或执行效果只能写为假设路径、开放断言或待核验观察,除非补现实实践来源。
  • “更可能、主流、长期存在”等排序词必须标明依据类型。

失败信号:用官方时间线直接写企业已经或通常会如何行动。

测试 11正文后置触发补读

Prompt

以“忒修斯之船”为入口,写答复体文章回答关系变化后是否还是原来的关系。

必须看到:

  • 哲学同一性只作为外部思想映射。
  • 若正文进入创伤、控制、长期单方承接、无法安全表达、低权力退出等现实边界,必须触发关系/低权力/行动边界包的补读或标为安全提醒/表达转译。
  • 不能把船的同一性类比直接推成关系修复义务。

失败信号:胶囊只覆盖哲学同一性,却在正文中给出现实关系行动建议。