playbook/antigravity-awesome-skills/skills/crossframe-org/evals/crossframe-org-smoke-tests.md

4.1 KiB
Raw Blame History

CrossFrame Org Smoke Tests

这些测试用于人工或 agent 检查 crossframe-org 是否真的输出组织修复备忘录,而不是管理鸡汤或文章。

通用验收

每次输出必须检查:

  • 是否先读取或明确遵循 ../crossframe/SKILL.md../crossframe/references/read-routing-map.md
  • 是否输出组织诊断备忘录、反馈写回方案、复盘改造建议或低风险试点计划,而不是文章正文。
  • 是否区分事实、解释、证据缺口和判断档位。
  • 是否列出至少两个机制候选。
  • 是否写出责任链、授权链、成本链或说明为什么暂时无法判断。
  • 是否检查中层承接耗竭,尤其是无授权补锅、翻译和缓冲。
  • 是否把反馈写回到规则、资源、角色、接口或时间表。
  • 是否有停止、降档、撤回或保护现场条件。
  • 是否避免人格审判、文化标签和执行层甩锅。

测试 1管理鸡汤防护

Prompt

用 crossframe-org 给一个总延期的团队写管理建议。

必须看到:

  • 不使用“加强沟通、提升执行力、统一思想”作为主要建议。
  • 至少一个结构变量:范围、资源、优先级、接口、时间表、停止条件。
  • 一个组织诊断备忘录或低风险试点计划。

失败判定:

  • 输出主要是激励、文化、态度、主动性。
  • 只要求团队多沟通、多汇报、多负责。

测试 2不把问题压给执行层

Prompt

基层执行不主动,风险也不提前说,怎么压实他们责任?

必须看到:

  • 先检查风险反馈是否有保护和写回。
  • 同时检查授权链、资源链、时间链。
  • 区分执行责任与条件责任。
  • 如果执行层无权改变条件,不建议单向追责。

失败判定:

  • 直接建议考核、追责、加日报、加会。
  • 没有问谁能冻结范围、改优先级、补资源或授权暂停。

测试 3没有反馈写回

Prompt

我们复盘都写了,也有改进项,但下一轮一点没变。

必须看到:

  • 明确说复盘材料可能是修复副产品,不是修复本身。
  • 写出反馈从来源到授权节点再到结构落点的路径。
  • 至少给一个写回动作,落到规则、资源、角色、接口或时间表。
  • 给下一轮检查证据。

失败判定:

  • 只建议“完善闭环、跟踪改进项”。
  • 没有结构落点和复查证据。

测试 4没有停止条件

Prompt

项目已经乱了,领导想每天开会冲刺,把进度追回来。

必须看到:

  • 先识别错误加速风险。
  • 输出停止条件卡或在试点计划中写明暂停、降档、撤回条件。
  • 检查中层和执行层是否会被进一步透支。
  • 说明恢复推进需要补齐哪个授权或结构变量。

失败判定:

  • 直接支持每天开会冲刺。
  • 没有停止条件。
  • 没有说明继续加速可能放大什么问题。

测试 5复盘失真样例

Prompt

团队越复盘越会写漂亮材料,但真实问题没人说。

必须看到:

  • 复盘改造建议,不是文章。
  • 保护事实和反馈者风险。
  • 删除表演性环节,增加授权主体在场。
  • 每轮只产出一个结构改动、一个证据指标、一个复查时间。

测试 6中层耗竭样例

Prompt

中层主管每天协调到很晚,但上面不给资源,下面觉得他只会施压。

必须看到:

  • 不把中层问题写成领导力不足。
  • 写明中层承接了哪些无授权成本。
  • 给出授权补齐、接口减少、停止承接或低风险试点。
  • 保护信息真实性和恢复时间。

胶囊与文章技法边界回归

Prompt用 crossframe-org 做一次项目失败复盘,再转成组织复盘文章。

必须看到:

  • 复用 v5-read-state-capsule,并在文章输出前执行源锚点完整性检查。
  • 组织判断仍保留责任链、授权链、反馈写回、停止条件和低风险试点。
  • 文章技法只能改变复盘文章的段落动作,不能把责任链写成管理鸡汤,也不能为了余味删除停止条件。
  • 若材料不足以支持强组织处置,必须降档为复盘假设或低条件试点。