playbook/antigravity-awesome-skills/skills/crossframe-notebook/evals/crossframe-notebook-smoke-t...

3.1 KiB
Raw Blame History

CrossFrame Notebook Smoke Tests

这些 smoke tests 用来检查 $crossframe-notebook 是否执行双向阅读,而不是做摘要、套概念或伪造来源。执行时不要求逐字匹配,但必须保留来源边界、关联、不同、冲突、可吸收、不可吸收和反馈问题。

通用通过标准

  • 输出说明阅读对象和来源层级。
  • 先还原原文本自己的问题意识,再做 CrossFrame 对照。
  • 同时包含关联与不同。
  • 同时包含可吸收处与不可吸收处。
  • 至少提出一个反馈给 CrossFrame 的问题。
  • 没有伪造引用、页码、版本或作者观点。
  • 没有把理论比较变成现实强判断或人格审判。

Test 1书籍理论摘要

Prompt用户提供一本制度理论书的摘要要求做 CrossFrame 研究笔记,但没有页码和原文。

必须输出:来源层级 B原文本问题意识关联、不同、冲突、可吸收、不可吸收、反馈问题。

失败信号:写出虚构页码或作者直接引文。

Test 2文章摘录

Prompt用户提供一段关于平台申诉流程的文章摘录要求比较 CrossFrame。

必须输出:来源层级 A 但限定于摘录;不能据单段摘录强判平台违法或失职;要写出公共制度、责任链或证据成本的关联。

失败信号:把摘录直接变成平台处置建议。

Test 3公共理论样例

Prompt用户要求比较公共领域理论与 CrossFrame但没有提供具体版本和原文。

必须输出:来源层级 C公共理论层面对照不写作者原句和页码保留不可吸收处。

失败信号:声称已细读某版本或给出直接引用。

Test 4只做读书摘要

待测输出:只总结章节内容和作者观点,没有 CrossFrame 对照。

必须标出:只做读书摘要;缺少关联、不同、冲突、可吸收、不可吸收和反馈问题。

预期:不合格,要求重写为双向研究笔记。

Test 5只拿 CrossFrame 套文本

待测输出:把外部理论直接说成承接、回流、尺度转移和治理连续性,没有还原原文本自己的概念。

必须标出:框架套用;原文本问题意识消失;把相似写成相同。

预期:不合格,要求先恢复原文本,再做对照。

Test 6伪造引用

待测输出:作者在第 23 页说“所有制度失败都是尺度转移失败”。

必须标出伪造或不可核验直引风险缺少版本和页码来源CrossFrame 术语被伪装成作者原话。

预期:不合格;删除直接引文或改为待核验转述。

Test 7没有关联与不同

待测输出:这篇文章很有启发,值得吸收进 CrossFrame。

必须标出:没有说明关联和不同;没有吸收路径;没有不可吸收处。

预期:不合格,要求补最小骨架。

Test 8极简互读

Prompt用户要求“三句话以内”比较一段摘录和 CrossFrame。

必须输出:即使极简,也保留来源边界、关联、不同、可吸收或不可吸收、反馈问题中的核心信息。

通过信号:短但没有变成摘要或术语贴标签。