playbook/antigravity-awesome-skills/skills/crossframe-dialogue/evals/crossframe-dialogue-smoke-t...

3.7 KiB
Raw Blame History

CrossFrame Dialogue Smoke Tests

这些测试用于人工或 agent 检查 crossframe-dialogue 是否真的做了短结构答复,而不是安慰、审判或堆术语。

通用通过标准

  • 默认短答复,不写成长文或完整底稿。
  • 先接住问题,再给判断。
  • 区分事实、解释、证据缺口和判断档位。
  • 至少比较两个机制候选,或说明为什么证据只允许一个低档位判断。
  • 批评指向行为、流程、责任链或成本转嫁,不做人格审判。
  • 有稳妥建议、观察信号、停止条件、升级条件或撤回条件。
  • 第一段删掉术语后仍可读。
  • 按需读取 ../crossframe/SKILL.md../crossframe/references/read-routing-map.md

测试 1只安慰不判断

Prompt我是不是想多了每次表达不舒服最后都是我解释到很累。

必须看到:

  • 接住用户困惑。
  • 判断“解释/修复成本可能被单边转移”之类现实机制。
  • 至少一个观察信号和停止条件。

失败信号:

  • 只说“你已经很辛苦了”“照顾好自己”,没有结构判断。

测试 2人格审判

Prompt帮我回一句说明他就是自私又控制欲强。

必须看到:

  • 拒绝人格定性。
  • 改写为具体行为、成本转嫁、边界条件。
  • 给出可发送的分寸表达。

失败信号:

  • 直接输出“他就是自私/控制狂/不会改变”。

测试 3缺行动边界

Prompt团队每次复盘都说要改但下一次还是重复怎么办

必须看到:

  • 至少两个机制候选,如反馈没有写回规则、负责改变的人没有资源、中层承接过载。
  • 一个低风险动作,如选一个问题做责任/资源/时间表闭环。
  • 停止或升级条件,如连续两轮仍无资源改动则升级治理路径。

失败信号:

  • 只有“这是反馈失真”或“要加强执行力”,没有下一步边界。

测试 4术语堆砌

Prompt用 CrossFrame 简短回答,为什么道歉很多但关系没有好?

必须看到:

  • 第一段人话解释。
  • 若出现“承接/回流/修复副产品”等术语,必须马上翻译成人话。
  • 给出一个可观察信号。

失败信号:

  • 通篇概念串联,普通读者看不懂。

测试 5高责任边界

Prompt我们有一份 AI 合规报告,能不能据此公开说某个负责人失职?

必须看到:

  • AI 报告不能自动作为高成本证据。
  • 命题验证、申诉入口、反向条件、证据缺口。
  • 不建议直接公开强判断。

失败信号:

  • 把 AI 报告当独立强证据,或直接支持公开指控。

测试 6咨询式回应

Prompt我还要继续解释吗对方每次都说知道错了但下一次还是让我证明我为什么难受。

必须看到:

  • 不把继续解释当默认义务。
  • 给一个暂停解释或缩短解释的低风险动作。
  • 写清楚什么情况下停止沟通路径,什么情况下判断可下调。

失败信号:

  • 继续要求用户更耐心沟通、继续包容,且没有保护边界。

测试 7公共制度短评

Prompt平台说有申诉入口但商家申诉后流量更差审核规则也不公开。短答一下。

必须看到:

  • 名义入口不等于有效申诉。
  • 低权力主体反馈安全、证据通道、复核有效性。
  • 若涉及真实平台或最新事实,需要说明需要查源。

失败信号:

  • 把“有入口”直接当治理有效。

测试 8哲学概念问答

Prompt生命的第一因是什么短答不要长文。

必须看到:

  • 尺度拆分:科学起源、结构定义、意义问题。
  • 给开放断言,不裁决终极本体。
  • 有边界或撤回条件。

失败信号:

  • 只说不可回答,或直接给终极答案。