Skip to content
Open
Show file tree
Hide file tree
Changes from all commits
Commits
Show all changes
37 commits
Select commit Hold shift + click to select a range
452c15c
add mini dataset doc
May 18, 2026
c2568f5
review fix
May 18, 2026
25b1686
multilingual mini fix
May 19, 2026
0ed3ea6
multilingual mini fix
May 19, 2026
8adadf8
conflict fix
May 20, 2026
5b98960
Merge branch 'master_center'
Jun 3, 2026
64ed1ed
Merge branch 'master_center'
Jun 11, 2026
711a3bb
Merge branch 'master_center'
Jun 11, 2026
aea09b1
Merge branch 'master_center'
Jun 11, 2026
da3d873
add upload_pip.sh
Jun 15, 2026
6d71b12
Merge branch 'master_center'
Jun 15, 2026
c0f4698
add testpypi only
Jun 15, 2026
57b6bf3
add testpypi only
Jun 15, 2026
d5d6190
add testpypi only
Jun 15, 2026
65af67c
add testpypi only
Jun 15, 2026
659dc89
add testpypi only
Jun 15, 2026
b1e43aa
add testpypi only
Jun 15, 2026
42a80b7
update install docs
Jun 15, 2026
a50171e
Merge branch 'master_center'
Jun 16, 2026
a01e6c5
ai fix custom cfg sample
Jun 17, 2026
589b1ba
add quick_start custom cfg sample
Jun 17, 2026
87f2d44
disable summarizer check
Jun 17, 2026
e6a3cc5
add import
Jun 18, 2026
03abb6f
add two column
Jun 22, 2026
09da854
add two column
Jun 22, 2026
e62249f
fix add two column
Jun 22, 2026
96e4ca9
add two column v1
Jun 22, 2026
6580fed
fix add two column v1
Jun 22, 2026
3570121
fix add two column v1
Jun 22, 2026
b9d2ca7
fix add two column v1
Jun 22, 2026
777b70b
custom cfg doc fix in models.md
Jun 22, 2026
4f79893
custom cfg doc fix in summarizer.md
Jun 22, 2026
dde6add
accuracy_benchmark doc
Jun 22, 2026
4b109b5
base tutorials docs add custom_cfg
Jun 22, 2026
309e22a
add en docs
Jun 23, 2026
8e04d2d
add test_range in docs
Jun 23, 2026
305a6cc
add test_range in docs
Jun 23, 2026
File filter

Filter by extension

Filter by extension


Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
222 changes: 222 additions & 0 deletions .trae/documents/improve_custom_config_docs.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,222 @@
# 计划:提升自定义配置文件方式的文档可见性与完善度

## 目标

让用户充分感知并理解"自定义配置文件"这一强大能力,它本质上可以覆盖 AISBench 所有主要评测场景,并且支持完整的 Python 语法灵活性。

---

## 一、完善 `run_custom_config.md` 文档

### 1.1 新增"为什么使用自定义配置文件"章节
- 对比 CLI 参数方式(`--models` + `--datasets`)与自定义配置文件方式的优劣
- 强调自定义配置文件的优势:
- 可复用,一次编写多次执行
- 支持 Python 全部语法(循环、条件、函数、列表推导等)
- 精确控制模型-数据集组合(`model_dataset_combinations`)
- 可在一个文件中组合任意数量的模型和数据集
- 支持自定义 `infer`/`eval` 分区器和运行器配置
- 方便版本管理和团队共享

### 1.2 新增"配置文件即 Python 脚本"章节
- 明确说明:配置文件本质上是 Python 脚本,支持所有 Python 语法
- 提供实用示例:
- 使用 for 循环批量生成模型配置(如不同端口、不同 IP)
- 使用列表推导式批量修改数据集 abbr
- 使用条件判断动态选择配置
- 使用 `.copy()` 复用配置并修改特定字段
- 从外部文件读取配置参数

### 1.3 新增"配置文件完整变量参考"章节
- `models`:模型配置列表,每个元素为 dict
- `datasets`:数据集配置列表,每个元素为 dict
- `summarizer`:汇总器配置 dict
- `model_dataset_combinations`:可选,精确控制模型-数据集配对
- `work_dir`:输出目录
- `infer`:可选,推理阶段的分区器和运行器配置
- `eval`:可选,评估阶段的分区器和运行器配置
- 说明每种变量的类型、必填字段、可选字段

### 1.4 新增"各场景自定义配置文件示例"章节
为每个主要场景提供完整的自定义配置文件示例:

| 场景 | 说明 |
|------|------|
| 服务化精度测评 | API 模型 + 开源数据集精度测评 |
| 纯模型精度测评 | HuggingFace 本地模型精度测评 |
| 服务化性能测评 | API 流式模型 + 数据集性能测评 |
| 合成数据集性能测评 | API 流式模型 + synthetic 数据集性能测评 |
| 多模型多数据集组合 | 多个模型 × 多个数据集的笛卡尔积测评 |
| 自定义模型-数据集配对 | 使用 `model_dataset_combinations` 精确配对 |
| 裁判模型测评 | 被测模型 + 裁判模型的精度测评 |
| 稳态性能测评 | 使用 `stable_stage` summarizer 的性能测评 |
| 多轮对话性能测评 | ShareGPT/MTBench 多轮对话性能测评 |
| 自定义数据集测评 | 使用自定义 CSV/JSONL 数据集的测评 |
| 多模态测评 | 多模态数据集 + 多模态模型测评 |

### 1.5 完善现有内容
- 更新"预设自定义配置文件样例列表"表格,补充新增的样例文件
- 修正文档中可能存在的过时或不准确描述

---

## 二、在整个文档体系中接入自定义配置文件引用

### 2.1 修改 `index.rst`(文档首页)
- 在"推荐上手路径"中,将自定义配置文件的推荐提前或加重
- 在 toctree 中可以考虑将 `run_custom_config` 提升到更显眼的位置,或添加一个独立的引导章节

### 2.2 修改 `get_started/quick_start.md`(快速入门)
- 在执行命令章节末尾添加"💡 进阶提示",引导用户了解自定义配置文件方式
- 说明:当需要重复执行或复杂组合时,推荐使用自定义配置文件

### 2.3 修改各场景文档,添加"通过自定义配置文件实现"小节

在以下文档的适当位置(建议在"主要功能场景"之后或每个功能场景末尾)添加引用:

| 文档 | 添加位置 | 引用内容 |
|------|---------|---------|
| `base_tutorials/scenes_intro/accuracy_benchmark.md` | 多任务测评章节后 | 说明如何用自定义配置文件实现多任务精度测评 |
| `base_tutorials/scenes_intro/accuracy_benchmark_local.md` | 主要功能章节后 | 说明如何用自定义配置文件实现纯模型精度测评 |
| `base_tutorials/scenes_intro/performance_benchmark.md` | 多任务测评章节后 | 说明如何用自定义配置文件实现多任务性能测评 |
| `advanced_tutorials/multiturn_benchmark.md` | 快速入门章节后 | 说明如何用自定义配置文件实现多轮对话测评 |
| `advanced_tutorials/synthetic_dataset.md` | 使用指导章节后 | 说明如何用自定义配置文件实现合成数据集测评 |
| `advanced_tutorials/custom_dataset.md` | 配置文件方式章节后 | 说明如何用自定义配置文件实现自定义数据集测评 |
| `advanced_tutorials/judge_model_evaluate.md` | 快速上手章节后 | 说明如何用自定义配置文件实现裁判模型测评 |
| `advanced_tutorials/stable_stage.md` | 快速入门章节后 | 说明如何用自定义配置文件实现稳态性能测评 |
| `advanced_tutorials/rps_distribution.md` | 文件配置章节后 | 说明 RPS 分布控制参数在自定义配置文件中同样适用 |
| `extended_benchmark/agent/swe_bench.md` | 适当位置 | 说明已有预设配置文件样例 |
| `extended_benchmark/agent/tau2_bench.md` | 适当位置 | 说明已有预设配置文件样例 |
| `extended_benchmark/agent/harbor_bench.md` | 适当位置 | 说明已有预设配置文件样例 |
| `extended_benchmark/lmm_generate/vbench.md` | 适当位置 | 说明已有预设配置文件样例 |
| `extended_benchmark/lmm_generate/gedit_bench.md` | 适当位置 | 说明已有预设配置文件样例 |
| `best_practices/practice_nvidia.md` | 适当位置 | 说明推荐使用自定义配置文件 |
| `best_practices/practice_ascend.md` | 适当位置 | 说明推荐使用自定义配置文件 |

每个引用小节的统一格式:
```markdown
### 通过自定义配置文件实现

> 💡 上述场景同样可以通过 [自定义配置文件](../advanced_tutorials/run_custom_config.md) 实现,将模型、数据集、summarizer 等配置写入一个 Python 文件,一次编写、多次复用。详见 [自定义配置文件运行AISBench](../advanced_tutorials/run_custom_config.md#各场景自定义配置文件示例) 中对应场景的示例。
```

---

## 三、强调配置文件支持 Python 全部语法

### 3.1 在 `run_custom_config.md` 中重点强调
- 新增独立章节"配置文件即 Python 脚本"(如 1.2 所述)
- 在文档开头添加醒目的提示框

### 3.2 在 `index.rst` 中提及
- 在推荐上手路径中增加一句描述,强调配置文件的灵活性

### 3.3 在各场景文档的引用小节中提及
- 在"通过自定义配置文件实现"小节中简要提及 Python 语法的灵活性

---

## 四、在代码仓库中预置不同场景的自定义配置文件样例

在 `ais_bench/configs/` 下新增/完善以下样例文件:

### 4.1 精度测评场景(`ais_bench/configs/api_examples/`)

| 文件名 | 说明 |
|--------|------|
| `demo_infer_vllm_api.py` | ✅ 已有,需检查完善 |
| `infer_vllm_api_general.py` | ✅ 已有 |
| `infer_vllm_api_general_chat.py` | ✅ 已有 |
| `infer_vllm_api_stream_chat.py` | ✅ 已有 |
| `infer_mindie_stream_api_general.py` | ✅ 已有 |
| `infer_vllm_api_multi_model_multi_dataset.py` | 🆕 多模型多数据集精度测评示例 |
| `infer_vllm_api_with_model_dataset_combinations.py` | 🆕 自定义模型-数据集配对示例 |
| `infer_vllm_api_with_judge_model.py` | 🆕 裁判模型测评示例 |

### 4.2 性能测评场景(`ais_bench/configs/api_examples/`)

| 文件名 | 说明 |
|--------|------|
| `demo_infer_vllm_api_perf.py` | ✅ 已有,需检查完善 |
| `perf_vllm_api_synthetic.py` | 🆕 合成数据集性能测评示例 |
| `perf_vllm_api_stable_stage.py` | 🆕 稳态性能测评示例 |
| `perf_vllm_api_multiturn.py` | 🆕 多轮对话性能测评示例 |
| `perf_vllm_api_custom_dataset.py` | 🆕 自定义数据集性能测评示例 |
| `perf_vllm_api_rps_distribution.py` | 🆕 RPS 分布控制性能测评示例 |

### 4.3 纯模型测评场景(`ais_bench/configs/hf_example/`)

| 文件名 | 说明 |
|--------|------|
| `infer_hf_chat_model.py` | ✅ 已有 |
| `infer_hf_base_model.py` | ✅ 已有 |
| `infer_hf_multi_model_multi_dataset.py` | 🆕 多模型多数据集纯模型测评示例 |

### 4.4 多模态场景(`ais_bench/configs/lmm_example/`)

| 文件名 | 说明 |
|--------|------|
| `multi_device_run_qwen_image_edit.py` | ✅ 已有 |
| `infer_lmm_multi_dataset.py` | 🆕 多模态多数据集测评示例 |

### 4.5 Agent 场景(已有,需检查)

| 文件名 | 说明 |
|--------|------|
| `agent_example/harbor_terminal_bench_2_task.py` | ✅ 已有 |
| `agent_example/tau2_bench_task.py` | ✅ 已有 |
| `swe_bench_examples/*.py` | ✅ 已有 |
| `swe_bench_pro_examples/*.py` | ✅ 已有 |

### 4.6 VBench 场景(已有,需检查)

| 文件名 | 说明 |
|--------|------|
| `vbench_examples/eval_vbench_standard.py` | ✅ 已有 |
| `vbench_examples/eval_vbench_custom.py` | ✅ 已有 |

### 4.7 更新 `all_dataset_configs.py`
- 确保所有常用数据集的导入都已包含
- 添加注释说明每个导入对应的数据集

---

## 五、实施步骤

### 步骤 1:完善 `run_custom_config.md`
- 新增"为什么使用自定义配置文件"章节
- 新增"配置文件即 Python 脚本"章节(含 Python 语法示例)
- 新增"配置文件完整变量参考"章节
- 新增"各场景自定义配置文件示例"章节(含所有主要场景的完整示例代码)
- 更新"预设自定义配置文件样例列表"

### 步骤 2:创建新的预设配置文件样例
- 在 `ais_bench/configs/api_examples/` 下创建 4.1 和 4.2 列出的新文件
- 在 `ais_bench/configs/hf_example/` 下创建 4.3 列出的新文件
- 在 `ais_bench/configs/lmm_example/` 下创建 4.4 列出的新文件
- 更新 `all_dataset_configs.py`

### 步骤 3:在文档体系中添加交叉引用
- 修改 `index.rst`
- 修改 `get_started/quick_start.md`
- 修改 `base_tutorials/scenes_intro/accuracy_benchmark.md`
- 修改 `base_tutorials/scenes_intro/accuracy_benchmark_local.md`
- 修改 `base_tutorials/scenes_intro/performance_benchmark.md`
- 修改 `advanced_tutorials/multiturn_benchmark.md`
- 修改 `advanced_tutorials/synthetic_dataset.md`
- 修改 `advanced_tutorials/custom_dataset.md`
- 修改 `advanced_tutorials/judge_model_evaluate.md`
- 修改 `advanced_tutorials/stable_stage.md`
- 修改 `advanced_tutorials/rps_distribution.md`
- 修改 `extended_benchmark/agent/swe_bench.md`
- 修改 `extended_benchmark/agent/tau2_bench.md`
- 修改 `extended_benchmark/agent/harbor_bench.md`
- 修改 `extended_benchmark/lmm_generate/vbench.md`
- 修改 `extended_benchmark/lmm_generate/gedit_bench.md`
- 修改 `best_practices/practice_nvidia.md`
- 修改 `best_practices/practice_ascend.md`

### 步骤 4:验证
- 检查所有新增/修改的 Markdown 文件中的内部链接是否正确
- 确保新增的配置文件样例语法正确、可执行
- 确保文档中的代码示例与实际代码逻辑一致
Loading
Loading