AgentEval

AgentEval 是一个 SpringBoot 生态的 Agent 轻量的非侵入式接入的评测工具链。

AgentEval 面向需要持续调优 Agent或者workflow 的 Java 项目。

AgentEval 目前采用 BYOK（Bring Your Own Key） 模式，
项目不内置模型 token，需要你自己配置可用模型的 API Key。

如果你需要给你的agent调优,评估他在不同场景下的表现,而它又刚好是一个java项目,那么这个工具链可能会适合你。

AgentEval 可以做什么

1. 运行时采集 Agent 调用过程

通过注解方式给入口方法和步骤方法打点，采集 trace、步骤输入输出和运行链路信息，方便后续评分与排查。

2. 按全局 + 模块两层进行评分

除了看整条链路的总体表现，还可以下钻到具体模块，查看每个模块的：得分是否通过维度分数评分理由改进建议

3. 自动生成静态评测报告

执行完成后可以生成静态 HTML 报告，适合本地查看、归档留存和团队共享。

4. 查看历史运行结果

报告首页会聚合历史 run，方便横向对比不同时间、不同版本、不同测试样本的表现。

5. 接入现有 Maven / Spring Boot 项目

通过声明式注解和 Maven Plugin 接入项目

6. 自定义评分标准

通过更改 rubric 定义全局和模块级的评分标准

注意事项

当前版本暂时不适合批量并行处理场景。当前采集、评分、报告生成是分层串行链路。依赖 current-run.txt 来锚定“本次正在处理的 run”。所以当前实现暂不支持批量并行处理多个 run。

更新列表

2026-05-19 · SNAPSHOT
- 第一个快照版本

Name		Name	Last commit message	Last commit date
Latest commit History 20 Commits
.github/workflows		.github/workflows
agent-eval-core		agent-eval-core
agent-eval-examples		agent-eval-examples
agent-eval-java-sdk		agent-eval-java-sdk
agent-eval-llm-dashscope		agent-eval-llm-dashscope
agent-eval-llm-ollama		agent-eval-llm-ollama
agent-eval-llm-openai-compatible		agent-eval-llm-openai-compatible
agent-eval-llm-openai		agent-eval-llm-openai
agent-eval-llm-spi		agent-eval-llm-spi
agent-eval-maven-plugin		agent-eval-maven-plugin
agent-eval-report		agent-eval-report
agent-eval-spring-boot-starter		agent-eval-spring-boot-starter
docs		docs
.gitignore		.gitignore
README.md		README.md
pom.xml		pom.xml
settings.xml.example		settings.xml.example

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

AgentEval

AgentEval 可以做什么

1. 运行时采集 Agent 调用过程

2. 按全局 + 模块两层进行评分

3. 自动生成静态评测报告

4. 查看历史运行结果

5. 接入现有 Maven / Spring Boot 项目

6. 自定义评分标准

注意事项

更新列表

快速接入

`项目指南`

About

Uh oh!

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

AgentEval

AgentEval 可以做什么

1. 运行时采集 Agent 调用过程

2. 按全局 + 模块两层进行评分

3. 自动生成静态评测报告

4. 查看历史运行结果

5. 接入现有 Maven / Spring Boot 项目

6. 自定义评分标准

注意事项

更新列表

快速接入

项目指南

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

`项目指南`

Packages