Skip to content

hamster-yhz/agent-eval

Repository files navigation

AgentEval

AgentEval 是一个 SpringBoot 生态的 Agent 轻量的非侵入式接入的评测工具链。

AgentEval 面向需要持续调优 Agent或者workflow 的 Java 项目。

AgentEval 目前采用 BYOK(Bring Your Own Key) 模式,
项目不内置模型 token,需要你自己配置可用模型的 API Key。

如果你需要给你的agent调优,评估他在不同场景下的表现,而它又刚好是一个java项目,那么这个工具链可能会适合你。


AgentEval 可以做什么

1. 运行时采集 Agent 调用过程

通过注解方式给入口方法和步骤方法打点,采集 trace、步骤输入输出和运行链路信息,方便后续评分与排查。

2. 按全局 + 模块两层进行评分

除了看整条链路的总体表现,还可以下钻到具体模块, 查看每个模块的:得分 是否通过 维度分数 评分理由 改进建议

3. 自动生成静态评测报告

执行完成后可以生成静态 HTML 报告,适合本地查看、归档留存和团队共享。

img_1.png

img_2.png

4. 查看历史运行结果

报告首页会聚合历史 run,方便横向对比不同时间、不同版本、不同测试样本的表现。

5. 接入现有 Maven / Spring Boot 项目

通过声明式注解和 Maven Plugin 接入项目

6. 自定义评分标准

通过更改 rubric 定义全局和模块级的评分标准


注意事项

  • 当前版本暂时不适合批量并行处理场景。当前采集、评分、报告生成是分层串行链路。 依赖 current-run.txt 来锚定“本次正在处理的 run”。 所以当前实现暂不支持批量并行处理多个 run。

更新列表

  • 2026-05-19 · SNAPSHOT
    • 第一个快照版本

快速接入

About

Agent evaluation toolkit for Java and Spring Boot with trace capture, LLM scoring, rubric-based evaluation, and static HTML reports.

Topics

Resources

Stars

Watchers

Forks

Packages

 
 
 

Contributors

Languages