代理应用程序让 LLM 自行决定解决问题的下一步。这种灵活性很强大,但模型的黑盒特性使得很难预测对代理某一部分的调整将如何影响整体。要构建生产就绪的代理,彻底的测试是必不可少的。 有几种测试代理的方法:
  • 单元测试 使用内存伪造隔离地演练代理的小型、确定性部分,以便您可以快速且确定性地断言确切行为。
  • 集成测试 使用真实网络调用测试代理,以确认组件协同工作、凭证和模式对齐,以及延迟是可接受的。
  • 评估 使用评估器评估代理的执行轨迹,通过确定性匹配或 LLM 评判。
代理应用程序往往更多地依赖集成测试,因为它们将多个组件链接在一起,并且必须处理由于 LLM 的非确定性特性而导致的不稳定性。

单元测试

模拟聊天模型并使用内存持久化来测试代理逻辑,而无需 API 调用。

集成测试

使用真实 LLM API 测试您的代理。组织测试、管理密钥、处理不稳定性并控制成本。

评估

使用确定性匹配或 LLM 评判评估器评估代理轨迹。