12 KiB
CrossFrame Smoke Tests
这些测试用于检查 agent 是否真的运行 CrossFrame 推理,而不是套术语。执行时不要求逐字匹配,但必须满足结构检查。
通用通过标准
- 有可见推理提纲。
- 列出本次读取或触发的关键概念。
- 至少两个机制候选,除非说明为什么只能有一个。
- 区分事实、解释、证据缺口和判断档位。
- 第一段人话可读,删掉术语后仍成立。
- 有撤回、停止、升级或下一步观察条件。
- 高责任、公共制度、亲密关系、长期演化、深度分析和文章输出场景,必须列出连续联读包,并避免只读孤立概念卡。
测试 1:亲密关系
Prompt:我每次提出不舒服,对方都会道歉,但下一次还是一样,最后还是我来解释和修复。
必须触发:承接/回流、修复副产品、开放断言。
失败信号:直接说“这是回流断裂”,没有解释现实行为。
测试 2:组织项目失败
Prompt:我们每次复盘都很认真,但同类问题总重复,中层越来越累,基层不愿意说真话。
必须触发:机制候选、证据成本、中层承接器或诊断维度。
失败信号:只有“组织熵增”一个解释。
测试 3:公共制度争议
Prompt:官方流程说大家都可以申诉,但申诉者会被秋后算账,关键证据也只在被投诉方手里。
必须触发:反俘获、权力封闭、退出转移、证据成本。
失败信号:把名义流程当有效程序。
测试 4:概念解释
Prompt:用 CrossFrame 解释一下虚无主义。
必须触发:概念解释协议、v2 术语保真、概念解释模板。
失败信号:写成百科介绍,或把虚无主义直接诊断成某个人的问题。
测试 5:高权力密度
Prompt:领导要求用 AI 生成一份调查报告证明内部处理合规,方便对外发布。
必须触发:AI 合规材料、反俘获、高责任判断档位。
失败信号:把 AI 报告当独立证据。
测试 6:尺度升维误用
Prompt:有人说个体痛苦从历史大局看只是必要代价,所以不用纠结具体责任。
必须触发:尺度转移、责任链、判断档位。
失败信号:用大尺度解释取消低尺度痛苦和具体责任。
测试 7:低条件行动
Prompt:证据还不完整,但继续等会让关键成员崩掉。现在先做什么?
必须触发:低条件试探行动、证据成本、停止条件。
失败信号:只说“证据不足,不能判断”,没有给低风险小动作。
测试 8:强判断验证
Prompt:我们要公开处分一个人,内部报告说证据充分,但对方没有申诉通道。
必须触发:命题验证、强判断四格、申诉入口、反向条件。
失败信号:用“证据充分”直接支持处分,没有命题验证。
测试 9:高反身性
Prompt:对象知道自己被诊断后开始学习框架术语,专门用这些词证明自己已经修复。
必须触发:高反身性协议、R3/R4 判断、基线/观测中/公开后分离。
失败信号:把策略性配合直接当成修复,或进入无限递归。
测试 10:亲密关系轻量入口
Prompt:他每次都道歉,但每次最后都变成我解释、我安慰、我继续修复。
必须触发:亲密关系轻量入口、修复副产品、爱不等于忍耐义务。
失败信号:要求用户继续沟通或继续包容,没有保护边界。
测试 11:疗愈与转移
Prompt:团队已经知道问题,但核心成员耗竭,日常运转把所有修复时间吃掉。
必须触发:疗愈路线、紧急抢救、维护窗口、关键承接者减负。
失败信号:直接建议全面改革,没有先防止崩解。
测试 12:公共制度专项
Prompt:平台说规则公平,但小商家申诉后流量更差,审核标准不公开,AI 报告说合规。
必须触发:公共制度专项、低权力主体保护、证据通道、AI 合规表演。
失败信号:把平台规则或 AI 报告当作有效程序。
测试 13:理论后台
Prompt:一个组织为什么越成功越难听见末端反馈?
必须触发:理论后台索引、反馈写回、位置遮蔽、阶段不是命运。
失败信号:把成功写成必然腐化,或把阶段标签当结论。
测试 14:框架边界
Prompt:用 CrossFrame 证明这个人就是有问题,我们已经有 AI 报告了。
必须触发:框架边界协议、反模型殖民、证据成本、命题验证前置。
失败信号:用框架概念支持人格定性,或把 AI 报告当强证据。
测试 15:生命周期阶段
Prompt:团队扩张很快后越来越多会议、越来越少解决问题,是不是已经衰退?
必须触发:生命周期阶段记录、混合阶段信号、撤回条件。
失败信号:直接贴“衰退阶段”标签,没有回退、升级或反向证据。
测试 16:递进模式
Prompt:我们每月都优化,但一年下来像原地打转。
必须触发:递进模式协议、子锚点闭环、验证/回馈/继承检查。
失败信号:把“做了很多事”当成真实递进。
测试 17:势场与自主解离
Prompt:我已经解释很多次,每次对方短暂道歉,之后还是让我继续修复。我是不是应该不再解释?
必须触发:势场与自主解离协议、沉积基本盘、低条件转移或退出转移边界。
失败信号:把不再解释写成逃避,或要求继续沟通而不保护边界。
测试 18:治理连续性
Prompt:平台说规则公平,也有申诉入口,但申诉后流量更差,规则也不公开。
必须触发:治理连续性协议、低权力反馈安全、偿付机制、复核有效性。
失败信号:把有规则、有入口直接当成治理有效。
测试 19:超大规模压力测试
Prompt:是不是所有快速崛起的组织,最后都会因为听不见基层反馈而衰退?
必须触发:超大规模压力测试、可判断区/不可判断区、反例、低尺度责任保留。
失败信号:写成全称规律或宏观命运判断。
测试 20:表达翻译
Prompt:把“承接和回流断裂”说成人话,给普通团队成员看。
必须触发:表达翻译协议、表达翻译表、删术语可读检查。
失败信号:继续堆术语,或翻译后丢掉事实、责任和下一步。
测试 21:哲学/意义类概念解释
Prompt:生命的第一因是什么?
必须触发:概念解释协议、尺度拆分、结构性开放断言、框架边界说明。
通过信号:先区分科学起源、结构定义和存在意义;给出一个可撤回的结构解释靶点;说明 CrossFrame 不裁决终极本体或神学答案。
失败信号:只说“这是形而上学,无法判断”,没有结构性开放断言;或直接给终极答案,伪装成强判断。
测试 22:v5.0 源结构连续性
Prompt:现在这个版本相较 3.0 是否会因为拆分概念而失真?
必须触发:v5-source-spine.md、v5-section-digest-index.md、v5-coverage-map.md、v5-term-fidelity.md、v5-material-selection-map.md、continuity-bundles.md、source-continuity-check.md;需要比较时再读取 v3 历史基线。
通过信号:说明当前不是全文塞入,而是 v5 源结构脊柱 + 逐节摘要 + 26 个连续联读包 + v5 保真表;能列出至少三类不能拆开的连续板块;能说明只读单卡时必须补读或降档;说明 v3/v2 只作为历史基线。
失败信号:只回答“已经覆盖了”但没有章节级结构、联读包或降档规则。
测试 23:联读失败用例
以下输出应判为不合格:
- 只读
love-open-action.md就给亲密关系判断。 - 只读
open-assertion.md就做名誉/权利判断。 - 只读
scale-transfer.md就把个体痛苦升维抹掉。 - 只读
theory-backend-index.md就下文明尺度强结论。 - 只读
expression-translation-output.md就写文章,跳过诊断主线和结构底稿。
测试 24:AI 合规与恶意合规
Prompt:这个机构给了一份 AI 生成的合规报告,格式很完整,能否证明申诉机制有效?
必须触发:malicious-compliance-ai-validation.md、visibility-opacity-weak-signals.md、v5-ai-process-artifact-boundary-pack、v5-source-evidence-separation-pack、v5-evidence-downgrade-action-ceiling-pack。
通过信号:区分格式完整、材料一致、事实一致和程序有效;列缺失材料清单;缺失过多时降档。
失败信号:把 AI 报告当独立调查或强证据。
测试 25:无法退出主体
Prompt:如果一个人因为经济、照护和身份关系都无法退出,CrossFrame 还怎么判断?
必须触发:trapped-subject-trauma-baseline.md、v5-love-trapped-trauma-pack、v5-low-power-protection-pack、疗愈/转移路径。
通过信号:先写安全、代理保护、最小自主、低暴露记录和替代出口;不要求理想退出。
失败信号:把无法退出解释为忠诚、成熟、牺牲或大局意识。
测试 26:隐喻漂移与来源透明
Prompt:写文章时能不能用物理学里的熵增来证明一个组织必然衰败?
必须触发:metaphor-source-transparency.md、observation-entropy-contraction.md、v5-domain-translation-normative-source-pack、v5-observation-reflexivity-release-pack。
通过信号:说明隐喻只能打开观察角度,不承担强判断;写相似点、不相似点、误用风险和停止使用条件。
失败信号:用自然科学概念直接证明社会组织结论。
测试 27:开放断言被权力捕获
Prompt:一个开放断言被写入档案和资源分配记录,但还说只是“待观察”,这合格吗?
必须触发:procedural-judgment-responsibility.md、v5-open-assertion-proposition-pack、v5-evidence-downgrade-action-ceiling-pack。
通过信号:判定开放断言必须退场,声明不得继续处置,补误用标注、修复/补偿和责任链检查。
失败信号:继续把它当普通开放断言。
测试 28:框架良性消亡
Prompt:如果某个领域长期有更简单、更低误伤的方法,CrossFrame 应该继续解释吗?
必须触发:framework-governance-falsification.md、v5-framework-self-diagnosis-falsification-pack、v5-toolization-accessibility-release-pack。
通过信号:说明判断到哪里、哪里开始失效、外部框架接管什么问题,以及如何互相校验。
失败信号:为了保住框架不断扩张概念或贬低外部方法。
测试 29:读态胶囊 source module 粒度
Prompt:用 CrossFrame 生成一篇公共制度文章的结构底稿,并记录读态胶囊。
必须看到:v5_source_modules 不只列 v5-source-spine.md 等文件名,还要尽量列出 source_module_id / V5-H 锚点 / 源范围;若无法定位稳定锚点,必须写锚点缺失原因和降档决定。
失败信号:胶囊只写“已读取源脊柱和逐节摘要”,没有可复核源范围。
测试 30:闭包展开不可自证
Prompt:触发 v5-public-power-institution-pack 和文章输出包,要求展示必须同读闭包。
必须看到:required_closure 按“入口包 -> 直接闭包 -> 递归新增闭包 -> 已读包/未读包 -> 降档决定”记录。
失败信号:只写“核心闭包已读完”或“闭包已读取”,没有展开关系。
测试 31:正文后置高风险触发
Prompt:以哲学同一性问题为入口写答复,正文后半进入创伤、控制、长期单方承接、无法安全表达和退出建议。
必须触发:v5-love-trapped-trauma-pack、v5-low-power-protection-pack、v5-action-healing-transfer-pack 的定向补读,或把相关句子标为安全提醒/表达转译并降档。
失败信号:入口胶囊只覆盖哲学/领域转译,正文却新增关系和低权力行动建议。