前言
关于这本书
AI Harness Engineering 是一门关于 AI 系统测试、评估、监控基础设施 的工程学科。
与传统软件测试不同,AI 系统具有不确定性和概率性输出,这使得传统的"断言式测试"不再适用。我们需要构建一套全新的基础设施来评估、验证、监控 AI 系统的质量。
AI 系统测试的挑战
graph TD
A[AI 系统特殊性] --> B[输出不确定性]
A --> C[质量难以量化]
A --> D[场景无限多样]
A --> E[模型持续演进]
B --> F[传统断言失效]
C --> G[需要评估而非测试]
D --> H[测试覆盖困难]
E --> I[回归问题复杂]
| 传统软件 | AI 系统 |
|---|---|
| 确定性输出 | 概率性输出 |
| 断言式测试 | 评估式评分 |
| Pass/Fail | 质量得分分布 |
| 100% 覆盖可行 | 覆盖是 NP 问题 |
| Bug = 代码错误 | "Bug" = 模型局限 |
这本书解决什么问题
当你面对以下困境时,这本书会给你答案:
- 怎么评估 LLM 输出质量? — 不能只靠人工看,需要自动化评估体系
- 怎么测试 Prompt 是否有效? — Prompt 也是代码,需要测试方法论
- 怎么发现模型上线后的退化? — 需要在线监控和 A/B 评估
- 怎么构建可复用的评估基础设施? — Harness 架构设计
- 怎么让非技术人员参与评估? — Human-in-the-loop 设计
你将学到什么
基础篇:建立认知
- AI Harness 的定义与价值
- AI 系统与传统软件的本质差异
方法论篇:掌握方法
- 评估体系设计方法论
- AI 测试策略与覆盖理论
架构篇:学会设计
- Harness 架构模式
- 核心组件:评估器、数据管理、流水线
实战篇:落地实现
- LLM 评估 Harness 完整案例
- RAG 系统评估案例
- 监控与持续优化闭环
核心方法论
这本书贯穿一个核心方法论框架:
graph LR
A[Offline Evaluation] --> B[Online Monitoring]
B --> C[Human Feedback]
A --> A1[Benchmark]
A --> A2[Golden Set]
B --> B1[A/B Test]
B --> B2[Real User]
C --> C1[Rating]
C --> C2[Correction]
阅读建议
适用读者
- AI 工程师:想系统化评估模型质量
- LLM 应用开发者:想构建可靠的 Prompt 测试体系
- MLOps 工程师:想建设 AI 监控基础设施
- 技术管理者:想理解 AI 质量保障方法论
"AI 的质量不是测出来的,是评估、监控、迭代出来的。"