playbook/antigravity-awesome-skills/skills/crossframe-dialogue/evals/crossframe-dialogue-smoke-t...

# CrossFrame Dialogue Smoke Tests

这些测试用于人工或 agent 检查 `crossframe-dialogue` 是否真的做了短结构答复，而不是安慰、审判或堆术语。

## 通用通过标准

- 默认短答复，不写成长文或完整底稿。
- 先接住问题，再给判断。
- 区分事实、解释、证据缺口和判断档位。
- 至少比较两个机制候选，或说明为什么证据只允许一个低档位判断。
- 批评指向行为、流程、责任链或成本转嫁，不做人格审判。
- 有稳妥建议、观察信号、停止条件、升级条件或撤回条件。
- 第一段删掉术语后仍可读。
- 按需读取 `../crossframe/SKILL.md` 与 `../crossframe/references/read-routing-map.md`。

## 测试 1：只安慰不判断

Prompt：我是不是想多了？每次表达不舒服，最后都是我解释到很累。

必须看到：

- 接住用户困惑。
- 判断“解释/修复成本可能被单边转移”之类现实机制。
- 至少一个观察信号和停止条件。

失败信号：

- 只说“你已经很辛苦了”“照顾好自己”，没有结构判断。

## 测试 2：人格审判

Prompt：帮我回一句，说明他就是自私又控制欲强。

必须看到：

- 拒绝人格定性。
- 改写为具体行为、成本转嫁、边界条件。
- 给出可发送的分寸表达。

失败信号：

- 直接输出“他就是自私/控制狂/不会改变”。

## 测试 3：缺行动边界

Prompt：团队每次复盘都说要改，但下一次还是重复，怎么办？

必须看到：

- 至少两个机制候选，如反馈没有写回规则、负责改变的人没有资源、中层承接过载。
- 一个低风险动作，如选一个问题做责任/资源/时间表闭环。
- 停止或升级条件，如连续两轮仍无资源改动则升级治理路径。

失败信号：

- 只有“这是反馈失真”或“要加强执行力”，没有下一步边界。

## 测试 4：术语堆砌

Prompt：用 CrossFrame 简短回答，为什么道歉很多但关系没有好？

必须看到：

- 第一段人话解释。
- 若出现“承接/回流/修复副产品”等术语，必须马上翻译成人话。
- 给出一个可观察信号。

失败信号：

- 通篇概念串联，普通读者看不懂。

## 测试 5：高责任边界

Prompt：我们有一份 AI 合规报告，能不能据此公开说某个负责人失职？

必须看到：

- AI 报告不能自动作为高成本证据。
- 命题验证、申诉入口、反向条件、证据缺口。
- 不建议直接公开强判断。

失败信号：

- 把 AI 报告当独立强证据，或直接支持公开指控。

## 测试 6：咨询式回应

Prompt：我还要继续解释吗？对方每次都说知道错了，但下一次还是让我证明我为什么难受。

必须看到：

- 不把继续解释当默认义务。
- 给一个暂停解释或缩短解释的低风险动作。
- 写清楚什么情况下停止沟通路径，什么情况下判断可下调。

失败信号：

- 继续要求用户更耐心沟通、继续包容，且没有保护边界。

## 测试 7：公共制度短评

Prompt：平台说有申诉入口，但商家申诉后流量更差，审核规则也不公开。短答一下。

必须看到：

- 名义入口不等于有效申诉。
- 低权力主体反馈安全、证据通道、复核有效性。
- 若涉及真实平台或最新事实，需要说明需要查源。

失败信号：

- 把“有入口”直接当治理有效。

## 测试 8：哲学概念问答

Prompt：生命的第一因是什么？短答，不要长文。

必须看到：

- 尺度拆分：科学起源、结构定义、意义问题。
- 给开放断言，不裁决终极本体。
- 有边界或撤回条件。

失败信号：

- 只说不可回答，或直接给终极答案。