From 94102ee5fdd848bab18e8072c0cfe7e3f4cad53a Mon Sep 17 00:00:00 2001
From: zhangdw156 <zhangdawei24@mails.ucas.ac.cn>
Date: Sat, 27 Jun 2026 23:32:40 +0800
Subject: [PATCH] docs(readme): add Dressage to Chinese ecosystem

---
 README_zh.md | 4 ++++
 1 file changed, 4 insertions(+)

diff --git a/README_zh.md b/README_zh.md
index 5240fa22f5..a5143bbdf6 100644
--- a/README_zh.md
+++ b/README_zh.md
@@ -115,6 +115,10 @@ slime 被当作 RL 基础设施来开发，因为“脚本能跑起来”远远
 
 这些项目不只是 demo。它们是把 slime 作为可复用 RL substrate 的独立系统，覆盖生产级 post-training、agentic RL、domain RL 和 rollout-system research。
 
+### 🐎 Dressage：面向任意 Agent 与 Sandbox 的可扩展 RL
+
+[**Dressage**](https://github.com/Accio-Lab/Dressage) 是 [Alibaba Accio](https://www.accio.com/work?im_ref=1O8wgT3poxyZWCj31F1ZJ0fNUkuTK6x9ZTHw0Y0&sharedid=&im_pid=5619512&im_pname=AI%20INTRO%20COPORATE) 基于 slime 构建的 agentic RL training framework，面向 blackbox agents（例如 [OpenCode](https://github.com/anomalyco/opencode)、[OpenClaw](https://github.com/openclaw/openclaw)）以及任意 sandbox environment（例如 [bwrap](https://github.com/containers/bubblewrap)、[E2B](https://github.com/e2b-dev/e2b)、Kubernetes）提供统一 RL。它通过 Paddock、Sandbox 和 Proxy 层解耦交互语义、执行位置与 token-level trajectory capture，在不重写 agent 内部循环的情况下适配 agent workflow。Dressage 会记录 token-wise logprobs、loss masks、weight versions 和 MoE routing，并使用 TITO 与 segment-aware training 将长程 tool interaction 转换为稳定的 RL samples。
+
 ### ⛵ Miles：面向大规模模型训练的企业级强化学习框架
 
 [Miles](https://github.com/radixark/miles) 是 [RadixArk](https://github.com/radixark) 基于 slime 构建的大模型 RL 后训练框架。它与 slime 上游开发保持紧密同步，同时在此基础上针对企业场景做了一系列扩展：更深度的 [SGLang](https://github.com/sgl-project/sglang) 集成、配套的运维与部署工具和服务，以及针对[新模型](https://www.radixark.com/miles/docs/models)和[新硬件](https://www.radixark.com/miles/docs/platforms)的优化。Miles 也在持续围绕真实生产环境需求迭代和进化，例如加入对 LoRA、TITO、低精度训练的支持。