Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

前言

关于这本书

AI Harness Engineering 是一门关于 AI 系统测试、评估、监控基础设施 的工程学科。

与传统软件测试不同,AI 系统具有不确定性概率性输出,这使得传统的"断言式测试"不再适用。我们需要构建一套全新的基础设施来评估、验证、监控 AI 系统的质量。

核心观点

传统软件测试:输入 → 断言输出是否正确 AI Harness:输入 → 评估输出质量得分 → 持续监控优化

AI 系统测试的挑战

graph TD
    A[AI 系统特殊性] --> B[输出不确定性]
    A --> C[质量难以量化]
    A --> D[场景无限多样]
    A --> E[模型持续演进]
    
    B --> F[传统断言失效]
    C --> G[需要评估而非测试]
    D --> H[测试覆盖困难]
    E --> I[回归问题复杂]
传统软件AI 系统
确定性输出概率性输出
断言式测试评估式评分
Pass/Fail质量得分分布
100% 覆盖可行覆盖是 NP 问题
Bug = 代码错误"Bug" = 模型局限

这本书解决什么问题

当你面对以下困境时,这本书会给你答案:

  • 怎么评估 LLM 输出质量? — 不能只靠人工看,需要自动化评估体系
  • 怎么测试 Prompt 是否有效? — Prompt 也是代码,需要测试方法论
  • 怎么发现模型上线后的退化? — 需要在线监控和 A/B 评估
  • 怎么构建可复用的评估基础设施? — Harness 架构设计
  • 怎么让非技术人员参与评估? — Human-in-the-loop 设计

你将学到什么

基础篇:建立认知

  • AI Harness 的定义与价值
  • AI 系统与传统软件的本质差异

方法论篇:掌握方法

  • 评估体系设计方法论
  • AI 测试策略与覆盖理论

架构篇:学会设计

  • Harness 架构模式
  • 核心组件:评估器、数据管理、流水线

实战篇:落地实现

  • LLM 评估 Harness 完整案例
  • RAG 系统评估案例
  • 监控与持续优化闭环

核心方法论

这本书贯穿一个核心方法论框架:

graph LR
    A[Offline Evaluation] --> B[Online Monitoring]
    B --> C[Human Feedback]
    
    A --> A1[Benchmark]
    A --> A2[Golden Set]
    B --> B1[A/B Test]
    B --> B2[Real User]
    C --> C1[Rating]
    C --> C2[Correction]

阅读建议

如何阅读

  1. 基础篇 — 快速阅读,理解 AI 测试的特殊性
  2. 方法论篇 — 重点理解评估体系设计思路
  3. 架构篇 — 结合你的项目思考架构选择
  4. 实战篇 — 选择最贴近你场景的案例深入

适用读者

  • AI 工程师:想系统化评估模型质量
  • LLM 应用开发者:想构建可靠的 Prompt 测试体系
  • MLOps 工程师:想建设 AI 监控基础设施
  • 技术管理者:想理解 AI 质量保障方法论

"AI 的质量不是测出来的,是评估、监控、迭代出来的。"