AgentEval 是一个 SpringBoot 生态的 Agent 轻量的非侵入式接入的评测工具链。
AgentEval 面向需要持续调优 Agent或者workflow 的 Java 项目。
AgentEval 目前采用 BYOK(Bring Your Own Key) 模式,
项目不内置模型 token,需要你自己配置可用模型的 API Key。
如果你需要给你的agent调优,评估他在不同场景下的表现,而它又刚好是一个java项目,那么这个工具链可能会适合你。
通过注解方式给入口方法和步骤方法打点,采集 trace、步骤输入输出和运行链路信息,方便后续评分与排查。
除了看整条链路的总体表现,还可以下钻到具体模块, 查看每个模块的:得分 是否通过 维度分数 评分理由 改进建议
执行完成后可以生成静态 HTML 报告,适合本地查看、归档留存和团队共享。
报告首页会聚合历史 run,方便横向对比不同时间、不同版本、不同测试样本的表现。
通过声明式注解和 Maven Plugin 接入项目
通过更改 rubric 定义全局和模块级的评分标准
- 当前版本暂时不适合批量并行处理场景。当前采集、评分、报告生成是分层串行链路。
依赖
current-run.txt来锚定“本次正在处理的 run”。 所以当前实现暂不支持批量并行处理多个 run。
- 2026-05-19 · SNAPSHOT
- 第一个快照版本

