前言

关于这本书

AI Harness Engineering 是一门关于 AI 系统测试、评估、监控基础设施 的工程学科。

与传统软件测试不同，AI 系统具有不确定性和概率性输出，这使得传统的"断言式测试"不再适用。我们需要构建一套全新的基础设施来评估、验证、监控 AI 系统的质量。

核心观点

传统软件测试：输入 → 断言输出是否正确 AI Harness：输入 → 评估输出质量得分 → 持续监控优化

AI 系统测试的挑战

graph TD
    A[AI 系统特殊性] --> B[输出不确定性]
    A --> C[质量难以量化]
    A --> D[场景无限多样]
    A --> E[模型持续演进]
    
    B --> F[传统断言失效]
    C --> G[需要评估而非测试]
    D --> H[测试覆盖困难]
    E --> I[回归问题复杂]

传统软件	AI 系统
确定性输出	概率性输出
断言式测试	评估式评分
Pass/Fail	质量得分分布
100% 覆盖可行	覆盖是 NP 问题
Bug = 代码错误	"Bug" = 模型局限

这本书解决什么问题

当你面对以下困境时，这本书会给你答案：

怎么评估 LLM 输出质量？ — 不能只靠人工看，需要自动化评估体系
怎么测试 Prompt 是否有效？ — Prompt 也是代码，需要测试方法论
怎么发现模型上线后的退化？ — 需要在线监控和 A/B 评估
怎么构建可复用的评估基础设施？ — Harness 架构设计
怎么让非技术人员参与评估？ — Human-in-the-loop 设计

你将学到什么

基础篇：建立认知

AI Harness 的定义与价值
AI 系统与传统软件的本质差异

方法论篇：掌握方法

评估体系设计方法论
AI 测试策略与覆盖理论

架构篇：学会设计

Harness 架构模式
核心组件：评估器、数据管理、流水线

实战篇：落地实现

LLM 评估 Harness 完整案例
RAG 系统评估案例
监控与持续优化闭环

核心方法论

这本书贯穿一个核心方法论框架：

$AI Quality = Offline Eval + Online Monitor + Human Feedback$

graph LR
    A[Offline Evaluation] --> B[Online Monitoring]
    B --> C[Human Feedback]
    
    A --> A1[Benchmark]
    A --> A2[Golden Set]
    B --> B1[A/B Test]
    B --> B2[Real User]
    C --> C1[Rating]
    C --> C2[Correction]

阅读建议

如何阅读

基础篇 — 快速阅读，理解 AI 测试的特殊性
方法论篇 — 重点理解评估体系设计思路
架构篇 — 结合你的项目思考架构选择
实战篇 — 选择最贴近你场景的案例深入

适用读者

AI 工程师：想系统化评估模型质量
LLM 应用开发者：想构建可靠的 Prompt 测试体系
MLOps 工程师：想建设 AI 监控基础设施
技术管理者：想理解 AI 质量保障方法论

"AI 的质量不是测出来的，是评估、监控、迭代出来的。"

Keyboard shortcuts

Harness Engineering