- Update .markdownlint.json: disable MD024 (duplicate headings) and MD025 (multiple h1) - MD024: test cases intentionally use duplicate headings for test IDs - MD025: function catalog files use multiple h1 for different function groups - Fix MD040: add language identifiers to fenced code blocks in test/agent/README.md - Fix MD031: add blank lines around fenced code blocks - Run prettier to format all Markdown files consistently - Fix table alignment and spacing issues All markdownlint errors are now resolved. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com> |
||
|---|---|---|
| .. | ||
| README.md | ||
| test_cases.md | ||
| test_cases_zh.md | ||
README.md
TSL Agent 测试定义
这个目录包含 TSL 语法的 agent 测试用例定义,支持测试任何 agent。
🎯 多 Agent 支持
测试定义(通用)
-
test_cases.md- 100+ 测试用例定义(英文完整版)- 适用于所有 agent(Claude, GPT-4, Gemini, 等)
- 包含提示词、评分标准、预期代码
- 与具体 agent 无关
-
test_cases_zh.md- 100+ 测试用例定义(中文完整版)- 完整翻译版本,包含所有测试用例
- 适合中文环境下的 agent 评估
测试结果(按 Agent 分类)
result/results_<agent>_<date>.md- 特定 agent 的测试结果- 存放目录:
test/agent/result/(已加入.gitignore) - 命名格式:
results_{agent}_{YYYYMMDD}.md - 示例:
result/results_claude_20260610.md- Claude 的测试结果result/results_gpt4_20240617.md- GPT-4 的测试结果result/results_gemini_20240617.md- Gemini 的测试结果
- 存放目录:
📁 目录结构
当前文件
test/agent/
├── README.md # 本文件
├── test_cases.md # 通用测试定义(英文完整版)⭐
├── test_cases_zh.md # 通用测试定义(中文完整版)⭐
└── result/ # 测试结果目录(gitignore)
├── results_claude_20260610.md
├── results_gpt4_20240617.md
└── results_gemini_20240617.md
添加新 Agent 的测试结果
test/agent/
├── test_cases.md # 通用(不变)
├── test_cases_zh.md # 中文版(不变)
└── result/
├── results_claude_20260610.md # Claude
├── results_gpt4_20240617.md # GPT-4(新增)
└── results_gemini_20240617.md # Gemini(新增)
🎯 使用方式
测试不同的 Agent
-
使用相同的测试定义
# 所有 agent 都使用 test_cases.md 中的测试用例 cat test_cases.md -
为每个 Agent 记录结果
# 创建结果目录 mkdir -p test/agent/result # 测试 GPT-4 # 结果保存为:test/agent/result/results_gpt4_20240617.md # 测试 Gemini # 结果保存为:test/agent/result/results_gemini_20240617.md # 测试 Claude # 结果保存为:test/agent/result/results_claude_20240617.md -
对比不同 Agent 的表现
# 对比通过率、得分、常见错误等 diff test/agent/result/results_claude_20240617.md \ test/agent/result/results_gpt4_20240617.md
📊 测试流程
1. 准备测试
# 查看测试用例
cat test_cases.md
# 选择要测试的 agent
AGENT="gpt4" # 或 claude, gemini, 等
DATE=$(date +%Y%m%d)
2. 执行测试
对于每个测试用例:
- 复制提示词(Prompt)
- 发送给目标 agent
- 记录生成的代码
- 根据评分标准打分(0/1/2)
3. 保存结果
# 创建结果目录
mkdir -p test/agent/result
# 创建结果文件
# 格式:result/results_{agent}_{YYYYMMDD}.md
test/agent/result/results_gpt4_20240617.md
test/agent/result/results_claude_20240617.md
test/agent/result/results_gemini_20240617.md
4. 对比分析
# 示例对比报告
| Agent | 测试日期 | 通过率 | 平均分 | 常见错误 |
|-------|---------|-------|--------|---------|
| Claude | 2026-06-10 | 100% (10/10) | 2.0 | 无 |
| GPT-4 | 2024-06-17 | 90% (9/10) | 1.8 | 赋值语法 |
| Gemini | 2024-06-17 | 85% (8.5/10) | 1.7 | 类定义 |
📝 结果文件命名规范
格式
test/agent/result/results_{agent}_{YYYYMMDD}.md
说明:
result/: 测试结果统一存放目录(已加入.gitignore){agent}: agent 名称(小写,如 claude, gpt4, gemini){YYYYMMDD}: 测试日期(如 20240617)
示例
test/agent/result/results_claude_20260610.md # Claude 在 2026-06-10 的测试
test/agent/result/results_claude_20240617.md # Claude 在 2024-06-17 的测试
test/agent/result/results_gpt4_20240617.md # GPT-4 在 2024-06-17 的测试
test/agent/result/results_gpt4o_20240617.md # GPT-4o 在 2024-06-17 的测试
test/agent/result/results_gemini_20240617.md # Gemini 在 2024-06-17 的测试
test/agent/result/results_gemini15_20240617.md # Gemini 1.5 在 2024-06-17 的测试
🎯 .gitignore 配置
版本控制策略
提交到 git:
✅ test/agent/test_cases.md # 测试定义(英文完整版)
✅ test/agent/test_cases_zh.md # 测试定义(中文完整版)
✅ test/agent/README.md # 说明文档
不提交(已加入 .gitignore):
❌ test/agent/result/ # 测试结果目录
📊 测试用例覆盖
test_cases.md 包含 100+ 测试用例,覆盖:
| 语法点 | 测试用例数 |
|---|---|
| 函数定义 | 15+ |
| 类与对象 | 10+ |
| 控制流 | 10+ |
| 变量与赋值 | 8+ |
| Unit 模块 | 5+ |
| 参数传递 | 8+ |
| 类型系统 | 6+ |
| 错误边界 | 10+ |
| 其他 | 30+ |
总计:100+ 测试用例
🔗 相关文档
TSL 文档
- TSL 语法文档:
docs/tsl/syntax/ - TSL 快速索引:
docs/tsl/syntax/00_agent_index.json - TSL 语法入口:
docs/tsl/syntax/index.md
Agent 优化
- Agent 快速索引:
docs/tsl/syntax/00_agent_index.json- 为 agent 优化,减少 75% token 消耗
- 包含精确行号和示例代码
💡 最佳实践
1. 保持测试定义的通用性
- ✅ 测试用例应该对所有 agent 都适用
- ✅ 不要添加特定 agent 的专属测试
- ✅ 关注 TSL 语法本身,而非 agent 特性
2. 结果命名规范
- ✅ 使用统一的命名格式
- ✅ 包含 agent 名称和日期
- ✅ 便于排序和查找
3. 定期对比
- 建议每季度测试一次所有 agent
- 追踪 agent 的改进趋势
- 发现不同 agent 的优势和劣势
4. 基线管理
- 保留第一次测试结果作为基线
- 新结果与基线对比
- 追踪质量变化
🎉 示例:测试新 Agent
步骤
# 1. 选择测试用例
cat test_cases.md | grep "### TSL-001"
# 2. 复制提示词发送给新 agent(如 GPT-4)
# 3. 记录结果
cat > results_gpt4_20240617.md << 'EOF'
# TSL Codegen Test Results - GPT-4
Date: 2024-06-17
Agent: GPT-4 (gpt-4-turbo)
## Summary
- Cases run: 10
- Cases passed: 9
- First-pass score: 18 / 20
- Pass rate: 90%
## Results
| Case | Score | Notes |
|------|-------|-------|
| TSL-001 | 2 | Correct |
| TSL-002 | 2 | Correct |
| TSL-003 | 1 | Minor issue |
...
EOF
# 4. 对比 Claude 和 GPT-4
diff results_claude_20260610.md results_gpt4_20240617.md
维护者:TSL Team
最后更新:2024-06-17
支持的 Agent:所有支持 TSL 的 agent