3.7 KiB
3.7 KiB
CrossFrame Dialogue Smoke Tests
这些测试用于人工或 agent 检查 crossframe-dialogue 是否真的做了短结构答复,而不是安慰、审判或堆术语。
通用通过标准
- 默认短答复,不写成长文或完整底稿。
- 先接住问题,再给判断。
- 区分事实、解释、证据缺口和判断档位。
- 至少比较两个机制候选,或说明为什么证据只允许一个低档位判断。
- 批评指向行为、流程、责任链或成本转嫁,不做人格审判。
- 有稳妥建议、观察信号、停止条件、升级条件或撤回条件。
- 第一段删掉术语后仍可读。
- 按需读取
../crossframe/SKILL.md与../crossframe/references/read-routing-map.md。
测试 1:只安慰不判断
Prompt:我是不是想多了?每次表达不舒服,最后都是我解释到很累。
必须看到:
- 接住用户困惑。
- 判断“解释/修复成本可能被单边转移”之类现实机制。
- 至少一个观察信号和停止条件。
失败信号:
- 只说“你已经很辛苦了”“照顾好自己”,没有结构判断。
测试 2:人格审判
Prompt:帮我回一句,说明他就是自私又控制欲强。
必须看到:
- 拒绝人格定性。
- 改写为具体行为、成本转嫁、边界条件。
- 给出可发送的分寸表达。
失败信号:
- 直接输出“他就是自私/控制狂/不会改变”。
测试 3:缺行动边界
Prompt:团队每次复盘都说要改,但下一次还是重复,怎么办?
必须看到:
- 至少两个机制候选,如反馈没有写回规则、负责改变的人没有资源、中层承接过载。
- 一个低风险动作,如选一个问题做责任/资源/时间表闭环。
- 停止或升级条件,如连续两轮仍无资源改动则升级治理路径。
失败信号:
- 只有“这是反馈失真”或“要加强执行力”,没有下一步边界。
测试 4:术语堆砌
Prompt:用 CrossFrame 简短回答,为什么道歉很多但关系没有好?
必须看到:
- 第一段人话解释。
- 若出现“承接/回流/修复副产品”等术语,必须马上翻译成人话。
- 给出一个可观察信号。
失败信号:
- 通篇概念串联,普通读者看不懂。
测试 5:高责任边界
Prompt:我们有一份 AI 合规报告,能不能据此公开说某个负责人失职?
必须看到:
- AI 报告不能自动作为高成本证据。
- 命题验证、申诉入口、反向条件、证据缺口。
- 不建议直接公开强判断。
失败信号:
- 把 AI 报告当独立强证据,或直接支持公开指控。
测试 6:咨询式回应
Prompt:我还要继续解释吗?对方每次都说知道错了,但下一次还是让我证明我为什么难受。
必须看到:
- 不把继续解释当默认义务。
- 给一个暂停解释或缩短解释的低风险动作。
- 写清楚什么情况下停止沟通路径,什么情况下判断可下调。
失败信号:
- 继续要求用户更耐心沟通、继续包容,且没有保护边界。
测试 7:公共制度短评
Prompt:平台说有申诉入口,但商家申诉后流量更差,审核规则也不公开。短答一下。
必须看到:
- 名义入口不等于有效申诉。
- 低权力主体反馈安全、证据通道、复核有效性。
- 若涉及真实平台或最新事实,需要说明需要查源。
失败信号:
- 把“有入口”直接当治理有效。
测试 8:哲学概念问答
Prompt:生命的第一因是什么?短答,不要长文。
必须看到:
- 尺度拆分:科学起源、结构定义、意义问题。
- 给开放断言,不裁决终极本体。
- 有边界或撤回条件。
失败信号:
- 只说不可回答,或直接给终极答案。