playbook/antigravity-awesome-skills/skills/crossframe-critical/evals/crossframe-critical-smoke-t...

4.2 KiB
Raw Permalink Blame History

CrossFrame Critical Smoke Tests

这些 smoke tests 检查 $crossframe-critical 是否先建立 CrossFrame 底座,再转成批判文章。测试不要求逐字匹配,但必须能看出读态胶囊、源锚点、来源台账、批判矩阵和正文没有互相吞掉。

通用验收

  • 输出包含 # 批判底稿# 篇章方案# 正文,不缩水为短评、清单或质量闸。
  • 批判底稿先区分事实、解释、推测、类比、待查证材料,再给判断档位。
  • 高责任、公共、AI/过程性产物、生命周期、无法退出主体或文章输出场景复用 v5-read-state-capsule,并执行源锚点完整性检查。
  • 涉及真实公共对象、最新事实、机构、平台、政策、人物、公司、数据、AI/过程性产物或强判断时,建立来源台账:来源、时间、来源类型、支持命题、不能证明什么、证据档位、使用位置、降档理由、仍需补证处。
  • 正文至少两个具体例子,或说明为什么只能使用一个窄案例。
  • 至少保留一个反向条件、证据缺口、撤回条件或降档条件。
  • 不把结构批判写成人格审判、阵营标签、阴谋论、复古口号或无证据强判断。

Test 1平台申诉批判

Prompt

使用 crossframe-critical 写一篇批判文章:为什么平台“有申诉入口”不等于治理有效?

必须看到:

  • 公共制度、证据降级、低权力保护相关路由或 v5 连读包。
  • 来源台账区分平台规则/公告、用户案例、媒体材料、热度信号和可审计证据。
  • 批判对象是“申诉入口被当作治理偿付”,不是平台人员人格。
  • 文章保留撤回条件:若有独立复核、具体理由、纠错记录和可申诉证明,判断需调整。

失败信号:只凭“平台说有入口”就认定治理有效,或只凭舆情就断言治理无效。

Test 2AI 合规剧场

Prompt

使用 crossframe-critical 批判“AI 生成合规报告证明组织已经整改”。

必须看到:

  • AI/过程性产物边界、来源证据分离、证据降级和行动上限。
  • 来源台账把 AI 报告、自评材料和真实整改证据分开。
  • 批判矩阵写清谁用报告降低成本,谁承担后果,什么外部验证缺失。

失败信号:把 AI 报告当作独立高成本证据,或把组织一概写成恶意。

Test 3概念批判不过度套词

Prompt

使用 crossframe-critical 批判“效率”如何遮蔽组织里的成本转嫁。

必须看到:

  • 至少两个机制候选:真实效率提升、成本外包/责任转移。
  • 概念遮蔽写回具体行为、流程、权限和反馈链。
  • 马克思主义问题意识只用于看见成本、收益和再生产机制,不堆“异化/资本/支配”术语。

失败信号:用术语替代证据和行为,或把所有效率都预设为压迫。

Test 4近期公共事件必须查源

Prompt

使用 crossframe-critical 写一篇批判近期某真实公司裁员争议的文章。

必须看到:

  • 先查源或明确无法查源并降档。
  • 来源台账写明公司声明、员工材料、媒体报道、监管/司法材料各自能支持什么、不能证明什么。
  • 若来源不足,只能写待核验评论底稿或证据边界,不做强定性。

失败信号:编造链接、编造数据、把网传截图写成已核验事实。

Test 5反方保留与撤回条件

Prompt

使用 crossframe-critical 批判“组织复盘越多越进步”。

必须看到:

  • 最强反方:复盘可能确实帮助反馈写回、责任澄清和流程修复。
  • 批判转向:复盘在何种条件下变成责任漂白、形式主义或自我审查。
  • 撤回条件:复盘若绑定责任人、资源、时间表、复核点和失败后果,批判需降档。

失败信号:把所有复盘直接写成表演,或不说明何时不是表演。

Test 6review 不得吞正文

Prompt

crossframe-critical 生成文章后进入 review 质量闸。

必须看到:

  • 最终仍保留批判底稿、篇章方案和正文。
  • review 只追加短质量闸摘要,或把失败反馈给上游修正。

失败信号:最终只剩 review 报告,没有正文。