4.1 多场景适用概述
本文所提出的四维评价框架并非针对单一任务场景设计,而是面向 LLM-agent 多智能体系统的一般运行逻辑展开。个体智能水平评价单个 LLM agent 的理解、推理、规划与生成能力;协作效率评价多个 LLM agents 在分工、沟通、冲突处理与结果整合中的交互表现;系统稳定性评价系统在多轮运行中的一致性、可控性、错误抑制和输出可靠性;任务完成度评价系统最终结果对任务目标和任务约束的满足程度。不同应用场景可以在保留这四个一级指标的基础上,根据具体任务目标选择相应的二级指标与测量方法,使评价框架既具有一般适用性,又能够适应不同 LLM-agent MAS 的任务特征。
在不同应用场景中,个体智能水平的具体度量方式有所不同。对于问答任务,可以使用单智能体答案准确率、推理过程完整性和选项覆盖质量进行评价;对于报告生成任务,可以使用事实正确性、内容完整性和结构合理性进行评价;对于代码生成任务,则可以使用测试通过率、语法正确率和功能实现程度进行评价。
在封闭式任务中,例如多选问答或分类任务,任务完成度可以通过准确率、召回率、F1 值、答案可提取率等指标进行量化。在开放式任务中,例如报告生成或策略分析,任务完成度则需要结合事实一致性、内容覆盖率、逻辑连贯性、引用可靠性和人工评分等方式综合评价。
4.2 抽象指标 4.2.1个体智能水平 个体智能水平用于衡量单个智能体在脱离或弱化协作条件下完成子任务的能力。该指标关注的是智能体本身的认知、推理、生成或执行质量。在问答任务中,个体智能水平可通过单智能体答案准确率、推理过程完整性和选项覆盖质量进行评价;在报告生成任务中,可通过事实正确性、内容完整性、逻辑连贯性和结构合理性进行衡量;在代码生成任务中,则可采用测试通过率、语法正确率、静态检查结果和功能实现程度作为主要指标。对于基于 LangGraph 的系统,可通过关闭部分节点或仅运行核心智能体节点来构造单体基线;对于基于对话式框架的系统,则可让单一智能体独立完成任务,以此获得个体能力参照。
个体智能水平用于衡量单个 LLM agent 在多智能体系统中承担任务、理解语境、进行推理并生成有效输出的能力。 在知识问答与复杂推理场景中,个体智能水平可通过智能体对问题语义的理解程度、相关知识的调用能力、推理链条的合理性以及答案解释的充分性进行评估。评价重点不只是最终答案是否正确,也包括智能体是否能够识别问题条件、区分关键信息与干扰信息,并给出符合逻辑的推理过程。 在代码生成与软件工程场景中,个体智能水平可体现为需求理解能力、程序逻辑构建能力、错误定位能力和代码修复能力。评价时可考察单个智能体是否能够准确理解开发任务,生成符合语法和功能要求的代码,并在测试反馈或审查意见下完成有效修改。 在规划与决策支持场景中,个体智能水平可通过目标分解、约束识别、方案生成和风险判断能力进行评估。一个具备较高个体智能水平的 LLM agent 应能够将复杂目标拆解为可执行步骤,识别任务中的资源、时间和规则限制,并提出具有可行性的行动方案。 4.2.2协作效率 协作效率用于评估多个智能体之间的分工、信息传递和反馈机制是否有效。该指标不仅关注多智能体系统相对于单智能体基线的性能提升,也关注获得该提升所消耗的通信成本和交互轮次。在问答任务中,协作效率可以通过多智能体准确率相对于单智能体准确率的增益、上下文等价基线下的纯协作增益、智能体间答案一致性和平均通信轮次进行衡量;在报告生成任务中,可考察规划智能体、检索智能体、写作智能体和审校智能体之间是否有效减少事实遗漏、逻辑重复和结构混乱;在代码生成任务中,可考察需求分析智能体、代码生成智能体、测试智能体和修复智能体之间是否缩短错误修复路径、提高测试通过率并减少无效返工。
协作效率用于衡量多个 LLM agents 在共同完成任务时的信息交换、角色分工、冲突处理和结果整合能力。该指标关注协作过程是否真正提升系统表现,而不是仅仅考察智能体数量或交互轮次。 在知识问答与复杂推理场景中,协作效率可通过不同角色智能体之间的互补程度进行评估。例如,推理智能体、分析智能体和验证智能体之间是否能够形成有效分工,是否能够通过讨论修正单一智能体的错误判断,是否能够在有限交互中形成更可靠的答案。 在代码生成与软件工程场景中,协作效率可体现在需求分析、代码实现、测试验证和代码审查等智能体之间的协同关系。评价方法可关注各智能体是否减少重复劳动,是否能够及时传递错误信息,是否能够通过审查和修复机制提升代码质量,并降低无效迭代的比例。 在开放式写作、研究辅助或方案生成场景中,协作效率可通过观点生成、内容筛选、结构整合和质量评估之间的配合程度进行衡量。多个 LLM agents 如果能够在较少沟通成本下完成素材扩展、论证完善和文本优化,则说明系统具有较高的协作效率。
4.2.3系统稳定性 系统稳定性用于衡量多智能体系统在输入扰动、重复运行和执行路径变化下能否保持一致、可靠的输出。由于 LLM Agent 具有生成随机性,且多智能体交互会进一步放大局部输出差异,因此稳定性评估对于实际应用尤为重要。在问答任务中,可通过选项重排后的准确率退化、答案翻转率、重复运行一致率和 pass@k 指标衡量系统是否受到位置偏差或随机波动影响;在报告生成任务中,可通过多次生成报告的事实一致性、章节结构稳定性、关键信息保留率和引用一致性进行评价;在代码生成任务中,可通过多次生成代码的测试通过率方差、接口一致性、功能覆盖一致性和错误类型分布进行评价。对于 LangGraph 系统,稳定性可进一步表现为在相同状态输入下节点输出和条件路径是否稳定;对于自由对话式框架,则需重点关注智能体对话是否容易偏离任务目标、是否出现角色冲突或循环讨论。
系统稳定性用于评价 LLM 多智能体系统在运行过程中的一致性、可靠性和可控性。由于 LLM agents 的输出具有生成性和不确定性,多智能体交互可能引发错误扩散、幻觉强化、观点漂移或无效循环,因此稳定性是评价系统能否持续可靠运行的重要维度。 在知识问答与推理场景中,系统稳定性可通过答案一致性、推理过程连贯性、输出格式规范性和不确定性表达能力进行评估。系统在面对相似问题或重复运行时,如果能够保持相对稳定的判断,并在证据不足时表达合理不确定性,则说明其稳定性较强。
在软件工程场景中,系统稳定性可体现为代码生成与修改过程的可复现性、错误控制能力和测试结果稳定性。评价时可观察系统是否在多轮修复中引入新的缺陷,是否能够保持需求约束不被破坏,以及不同智能体之间的修改意见是否造成逻辑冲突。 在工具调用与自动化任务执行场景中,系统稳定性可通过调用流程的可控性、异常处理能力和任务状态保持能力进行评估。稳定的 LLM 多智能体系统应能够在工具返回异常、信息不完整或中间步骤失败时维持任务流程,不因单个智能体错误而导致整体系统失效。
4.2.4任务完成度 任务完成度用于评价多智能体系统最终输出是否满足任务目标和应用约束。该维度关注系统级结果,而非单一智能体表现。在问答任务中,任务完成度可由最终答案准确率、答案可提取性、答案格式规范性和答案确定性构成;在报告生成任务中,可由任务覆盖率、事实支撑程度、格式合规性、结论明确性和用户需求满足度构成;在代码生成任务中,可由最终测试通过率、需求实现比例、可运行性、可维护性和交付完整性构成。
任务完成度用于衡量 LLM 多智能体系统最终输出对任务目标、任务约束和用户需求的满足程度。该指标直接面向系统结果,但其评价方式需要根据不同应用场景进行转化。 在知识问答与复杂推理场景中,任务完成度可通过答案正确性、解释充分性、依据覆盖程度和结果可验证性进行评估。系统不仅需要给出正确答案,还需要使最终输出与问题要求相匹配,并能够提供支撑答案的合理依据。 在代码生成与软件工程场景中,任务完成度可通过功能实现程度、测试通过情况、代码可运行性和需求覆盖率进行评估。一个任务完成度较高的系统应能够生成满足用户需求的代码,并在功能、结构和可维护性方面达到基本要求。 在规划、决策支持与内容生成场景中,任务完成度可通过方案可执行性、约束满足程度、输出完整性和用户目标匹配度进行评估。对于这类开放性任务,评价重点不宜局限于单一正确答案,而应考察系统输出是否能够解决实际问题,是否覆盖关键要求,并是否具备应用价值。
------------------------------------------------
S1_SingleReasoner × × × 82.64% 0.00% 0.00% 1.00 172 0.00 1175.3
S2_Reasoner+Analyst √ × × 85.59% 0.00% 0.00% 1.00 338 0.00 1849.2
S3_Reasoner+Validator × √ × 81.33% 90.50% 89.68% 1.00 180 0.08 2293.1
S4_Reasoner+Validator+Revise × √ √ 84.19% 95.90% 95.00% 1.08 192 0.11 2130.2
S5_FullMAS_NoRevise √ √ × 84.93% 96.48% 95.82% 1.00 350 0.03 2330.7
S6_FullMAS √ √ √ 85.42% 97.95% 96.97% 1.03 363 0.04 2320.6
-------------------------------------------------------------------------------------------------------
注: A=Analyst, V=Validator, R=Revision; Strict=严格格式率; Definite=答案明确率
=== 协作增益分解 (基于 S1 / S2 / S6) ===
单智能体基线 (S1): 82.64%
上下文等价基线 (S2): 85.59%
完整 MAS (S6): 85.42%
原始协作增益: +2.78%
上下文增益: +2.95%
纯协作增益: -0.16%
=== 模块消融贡献 (Δ = S6 完整 MAS - 移除某模块后的配置) ===
移除 Analyst S4_Reasoner+Validator+Revise Acc=84.19% Δ=+1.23%
移除 Validator S2_Reasoner+Analyst Acc=85.59% Δ=-0.16%
移除修正机制 S5_FullMAS_NoRevise Acc=84.93% Δ=+0.49%
仅保留 Reasoner S1_SingleReasoner Acc=82.64% Δ=+2.78%
结果已保存至: results/ablation_summary.json / results/ablation_summary.csv / results/ablation_per_sample.json
S6 完整 MAS - 移除某模块后的配置) ===
移除 Analyst S4_Reasoner+Validator+Revise Acc=82.96% Δ=+1.97%
移除 Validator S2_Reasoner+Analyst Acc=84.68% Δ=+0.25%
移除修正机制 S5_FullMAS_NoRevise Acc=85.09% Δ=-0.16%
仅保留 Reasoner S1_SingleReasoner Acc=81.98% Δ=+2.95%
结果已保存至: results/ablation_summary.json / results/ablation_summary.csv / results/ablation_per_sample.json