From a175156de1f3be7bac3c4f5a106ae2df7157f614 Mon Sep 17 00:00:00 2001
From: ActivePeter <1020401660@qq.com>
Date: Tue, 30 Jun 2026 21:38:20 +0800
Subject: [PATCH 1/2] test

---
 deployment/manual_dispatch_release.py         |   12 +-
 deployment/tests/test_gen_bare_deploy_bash.py |  137 ++
 ...nual_dispatch_release_test_rsc_contract.py |   27 +
 .../test_start_test_bed_bootstrap_log.py      |  148 +-
 deployment/utils/proc_lifecycle_codegen.py    |   48 +-
 ...2\346\235\277\344\270\216Metric_Trends.md" |  138 ++
 fluxon_doc_cn/roadmap.md                      |    1 +
 ...7 - 3 - KV-RPC\346\216\245\345\217\243.md" |   23 +
 fluxon_doc_en/roadmap.md                      |    1 +
 .../User - 3 - KV and RPC Interface.md        |   29 +
 fluxon_rs/fluxon_cli/src/lib.rs               |   36 +-
 fluxon_rs/fluxon_cli/src/model.rs             |  102 +
 fluxon_rs/fluxon_cli/src/prom.rs              |  157 +-
 fluxon_rs/fluxon_cli/src/server.rs            | 1782 +++++++++++++++--
 fluxon_rs/fluxon_cli/src/web_renderer.rs      |    1 +
 .../fluxon_cli/templates/monitor_table.html   | 1016 ++++++++--
 .../fluxon_kv/src/client_seg_pool/mod.rs      |   13 +-
 fluxon_rs/fluxon_kv/src/config.rs             |   18 +-
 .../fluxon_kv/src/external_client_api/mod.rs  |    3 +-
 fluxon_rs/fluxon_kv/src/kv_test.rs            |   18 +-
 fluxon_rs/fluxon_kv/src/lib.rs                |    4 +-
 .../lease_manager_test.rs                     |   12 +-
 .../fluxon_kv/src/metric_reporter/mod.rs      |   25 +-
 fluxon_rs/fluxon_kv/src/metrics.rs            |   20 +-
 fluxon_rs/fluxon_observability/src/keys.rs    |   23 +
 .../src/kv_metrics_actor.rs                   |  524 ++++-
 fluxon_test_stack/start_test_bed.py           |  182 +-
 27 files changed, 4095 insertions(+), 405 deletions(-)
 create mode 100644 "fluxon_doc_cn/design/observ_0_KV\350\265\204\346\272\220\347\233\221\346\216\247\351\235\242\346\235\277\344\270\216Metric_Trends.md"

diff --git a/deployment/manual_dispatch_release.py b/deployment/manual_dispatch_release.py
index 9f24380..e51b0d2 100644
--- a/deployment/manual_dispatch_release.py
+++ b/deployment/manual_dispatch_release.py
@@ -1063,7 +1063,17 @@ def _finalize_remote_staged_dir(
                 + sh_quote(stage_dir_s)
                 + " "
                 + sh_quote(dst_dir_s)
-                + " && rm -rf \"$backup\""
+                + " && "
+                + "if [ -n \"${backup:-}\" ] && [ -e \"$backup\" -o -L \"$backup\" ]; then "
+                + "rm -rf \"$backup\" || "
+                + "{ "
+                + "echo "
+                + sh_quote(
+                    "[manual_dispatch_release] warning: failed to remove old staged backup; keep it for later cleanup: "
+                )
+                + " \"$backup\" 1>&2; "
+                + "}; "
+                + "fi"
             )
         ),
     )
diff --git a/deployment/tests/test_gen_bare_deploy_bash.py b/deployment/tests/test_gen_bare_deploy_bash.py
index 21f11a6..299ba1c 100644
--- a/deployment/tests/test_gen_bare_deploy_bash.py
+++ b/deployment/tests/test_gen_bare_deploy_bash.py
@@ -64,6 +64,7 @@ def _build_checks(selected_test_id: Optional[str]) -> List[Tuple[str, Callable[[
         ("bootstrap_start_reuses_already_present_selection", test_bootstrap_start_reuses_already_present_selection),
         ("bare_start_fails_when_child_exits_within_startup_window", test_bare_start_fails_when_child_exits_within_startup_window),
         ("pid_ready_check_requires_full_stable_window_after_first_child_observation", test_pid_ready_check_requires_full_stable_window_after_first_child_observation),
+        ("pid_ready_check_ignores_nested_selection_supervisor_children", test_pid_ready_check_ignores_nested_selection_supervisor_children),
         ("atomic_group_start_does_not_auto_stop_on_failure", test_atomic_group_start_does_not_auto_stop_on_failure),
         ("atomic_group_preserves_nested_heredoc_terminator", test_atomic_group_preserves_nested_heredoc_terminator),
         ("atomic_group_stop_script_is_shell_valid", test_atomic_group_stop_script_is_shell_valid),
@@ -812,6 +813,142 @@ def _shutdown(_signum, _frame):
         print("PASS: test_pid_ready_check_requires_full_stable_window_after_first_child_observation")
 
 
+def test_pid_ready_check_ignores_nested_selection_supervisor_children() -> None:
+    proc_lifecycle = _load_python_module(
+        module_name="test_proc_lifecycle_codegen_nested_supervisor_runtime",
+        path=DEPLOYMENT_DIR / "utils" / "proc_lifecycle_codegen.py",
+    )
+    helpers = proc_lifecycle.render_bash_proc_lifecycle_funcs_pid_tree(
+        timeouts=proc_lifecycle.StopTimeouts(term_seconds=60, kill_seconds=10, supersede_seconds=30)
+    )
+    with tempfile.TemporaryDirectory(prefix="test_proc_lifecycle_nested_supervisor_") as td:
+        tmpdir = Path(td)
+        shell_script = tmpdir / "probe.sh"
+        root_script = tmpdir / "root_supervisor.py"
+        child_script = tmpdir / "real_child.py"
+        nested_supervisor_script = tmpdir / "selection_supervisor.py"
+
+        child_script.write_text(
+            textwrap.dedent(
+                """
+                #!/usr/bin/env python3
+                import signal
+                import time
+
+                def _shutdown(_signum, _frame):
+                    raise SystemExit(0)
+
+                signal.signal(signal.SIGTERM, _shutdown)
+                signal.signal(signal.SIGINT, _shutdown)
+
+                while True:
+                    time.sleep(0.2)
+                """
+            ).strip()
+            + "\n",
+            encoding="utf-8",
+        )
+        nested_supervisor_script.write_text(
+            textwrap.dedent(
+                """
+                #!/usr/bin/env python3
+                import signal
+                import time
+
+                def _shutdown(_signum, _frame):
+                    raise SystemExit(0)
+
+                signal.signal(signal.SIGTERM, _shutdown)
+                signal.signal(signal.SIGINT, _shutdown)
+
+                while True:
+                    time.sleep(0.2)
+                """
+            ).strip()
+            + "\n",
+            encoding="utf-8",
+        )
+        root_script.write_text(
+            textwrap.dedent(
+                f"""
+                #!/usr/bin/env python3
+                import signal
+                import subprocess
+                import sys
+                import time
+                from pathlib import Path
+
+                procs = []
+
+                def _shutdown(_signum, _frame):
+                    for proc in procs:
+                        if proc.poll() is None:
+                            proc.terminate()
+                    deadline = time.time() + 5
+                    for proc in procs:
+                        if proc.poll() is None:
+                            try:
+                                proc.wait(timeout=max(0.0, deadline - time.time()))
+                            except subprocess.TimeoutExpired:
+                                proc.kill()
+                    raise SystemExit(0)
+
+                signal.signal(signal.SIGTERM, _shutdown)
+                signal.signal(signal.SIGINT, _shutdown)
+
+                procs.append(subprocess.Popen([sys.executable, str(Path({str(child_script)!r}))]))
+                procs.append(subprocess.Popen([sys.executable, str(Path({str(nested_supervisor_script)!r}))]))
+                while True:
+                    for proc in procs:
+                        if proc.poll() is not None:
+                            raise SystemExit(proc.returncode or 0)
+                    time.sleep(0.2)
+                """
+            ).strip()
+            + "\n",
+            encoding="utf-8",
+        )
+
+        shell_script.write_text(
+            textwrap.dedent(
+                f"""\
+                #!/usr/bin/env bash
+                set -euo pipefail
+                {helpers}
+                python3 {shlex.quote(str(root_script))} &
+                root_pid="$!"
+                startup_deadline_seconds=6
+                if ! wait_service_probably_ready_pid_tree "svc_plain" "$root_pid" 4 "$startup_deadline_seconds" "[test]"; then
+                  wait_rc="$?"
+                  kill "$root_pid" >/dev/null 2>&1 || true
+                  wait "$root_pid" >/dev/null 2>&1 || true
+                  exit "$wait_rc"
+                fi
+                kill "$root_pid" >/dev/null 2>&1 || true
+                wait "$root_pid" >/dev/null 2>&1 || true
+                exit 0
+                """
+            ),
+            encoding="utf-8",
+        )
+        shell_script.chmod(0o755)
+
+        result = subprocess.run(
+            ["bash", str(shell_script)],
+            check=False,
+            capture_output=True,
+            text=True,
+            cwd=str(DEPLOYMENT_DIR.parent),
+            timeout=20,
+        )
+        assert result.returncode == 0, (
+            f"expected startup gate success rc={result.returncode} stdout={result.stdout!r} stderr={result.stderr!r}"
+        )
+        assert "multiple direct child pids" not in result.stdout, result.stdout
+        assert "probable-ready: ok" in result.stdout, result.stdout
+        print("PASS: test_pid_ready_check_ignores_nested_selection_supervisor_children")
+
+
 def test_atomic_group_preserves_nested_heredoc_terminator() -> None:
     with tempfile.TemporaryDirectory(prefix="test_gen_bare_deploy_bash_atomic_heredoc_") as td:
         tmpdir = Path(td)
diff --git a/deployment/tests/test_manual_dispatch_release_test_rsc_contract.py b/deployment/tests/test_manual_dispatch_release_test_rsc_contract.py
index d8148f4..1e2ca67 100644
--- a/deployment/tests/test_manual_dispatch_release_test_rsc_contract.py
+++ b/deployment/tests/test_manual_dispatch_release_test_rsc_contract.py
@@ -30,6 +30,33 @@ def _load_module():
 
 
 class TestManualDispatchReleaseTestRscContract(unittest.TestCase):
+    def test_finalize_remote_staged_dir_keeps_backup_when_cleanup_fails(self) -> None:
+        captured: list[tuple[str | None, str]] = []
+
+        def _fake_check_call_bash_with_optional_password(*, password: str | None, cmd: str) -> None:
+            captured.append((password, cmd))
+
+        with mock.patch.object(
+            _DISPATCH,
+            "_check_call_bash_with_optional_password",
+            side_effect=_fake_check_call_bash_with_optional_password,
+        ):
+            _DISPATCH._finalize_remote_staged_dir(
+                stage_dir_s="/remote/.fluxon_release.stage.abc123",
+                dst_dir_s="/remote/fluxon_release",
+                ssh_user="root",
+                ip="203.0.113.7",
+                ssh_port=30245,
+                ssh_password=None,
+            )
+
+        self.assertEqual(len(captured), 1)
+        password, cmd = captured[0]
+        self.assertIsNone(password)
+        self.assertIn('mv \'"\'"\'/remote/.fluxon_release.stage.abc123\'"\'"\' \'"\'"\'/remote/fluxon_release\'"\'"\'', cmd)
+        self.assertIn('rm -rf "$backup" || {', cmd)
+        self.assertIn("[manual_dispatch_release] warning: failed to remove old staged backup; keep it for later cleanup:", cmd)
+
     def test_deploy_and_profiles_dispatches_test_rsc_tree(self) -> None:
         with tempfile.TemporaryDirectory() as td:
             release_dir = Path(td)
diff --git a/deployment/tests/test_start_test_bed_bootstrap_log.py b/deployment/tests/test_start_test_bed_bootstrap_log.py
index 2bd6b00..01fffc6 100644
--- a/deployment/tests/test_start_test_bed_bootstrap_log.py
+++ b/deployment/tests/test_start_test_bed_bootstrap_log.py
@@ -353,6 +353,41 @@ def test_parse_cluster_nodes_accepts_local_execution_mode() -> None:
     print("PASS: test_parse_cluster_nodes_accepts_local_execution_mode")
 
 
+def test_resolve_local_node_cfg_accepts_remote_only_controller_host() -> None:
+    module = _load_start_test_bed_module()
+    cluster_nodes = {
+        "gpu-a": {
+            "hostname": "gpu-a",
+            "ip": "10.233.111.42",
+            "hostworkdir": "/srv/gpu-a",
+            "execution_mode": "ssh",
+            "ssh_host": "116.238.240.2",
+            "ssh_user": "root",
+            "ssh_port": 30245,
+        },
+        "gpu-b": {
+            "hostname": "gpu-b",
+            "ip": "10.233.114.86",
+            "hostworkdir": "/srv/gpu-b",
+            "execution_mode": "ssh",
+            "ssh_host": "116.238.240.2",
+            "ssh_user": "root",
+            "ssh_port": 31408,
+        },
+    }
+    original_check_output = module.subprocess.check_output
+    try:
+        module.subprocess.check_output = lambda *args, **kwargs: "infra44-ThinkStation-PX\n"
+        resolved = module._resolve_local_node_cfg(
+            cluster_nodes,
+            controller_url="http://10.233.111.42:53180/r/ops/fluxon_gpu_monitor_remote",
+        )
+    finally:
+        module.subprocess.check_output = original_check_output
+    assert resolved is cluster_nodes["gpu-a"], resolved
+    print("PASS: test_resolve_local_node_cfg_accepts_remote_only_controller_host")
+
+
 def test_run_bare_waves_treats_local_execution_mode_node_as_local() -> None:
     module = _load_start_test_bed_module()
     cluster_nodes = {
@@ -444,6 +479,99 @@ def test_run_bare_waves_treats_local_execution_mode_node_as_local() -> None:
     print("PASS: test_run_bare_waves_treats_local_execution_mode_node_as_local")
 
 
+def test_run_bare_waves_stops_legacy_plain_services_before_atomic_launch() -> None:
+    module = _load_start_test_bed_module()
+    cluster_nodes = {
+        "logic-a": {
+            "hostname": "logic-a",
+            "ip": "127.0.0.1",
+            "hostworkdir": "/tmp/logic-a",
+            "execution_mode": "local",
+            "ssh_user": "tester",
+            "ssh_port": 22,
+        },
+    }
+    deployconf = {
+        "name_prefix": "fluxon-testbed",
+        "service": {
+            "master": {"node_bind": {"node": ["logic-a"]}},
+            "owner": {"node_bind": {"node": ["logic-a"]}},
+            "ops_controller": {"node_bind": {"node": ["logic-a"]}},
+            "ops_agent": {"node_bind": {"node": ["logic-a"]}},
+        },
+        "atomic_groups": {
+            "fluxon_core_controller": {
+                "phase": 1,
+                "nodes": ["logic-a"],
+                "services": ["master", "owner", "ops_controller", "ops_agent"],
+            }
+        },
+    }
+    stop_calls: list[str] = []
+    spawn_calls: list[str] = []
+    original_run_local_stop = module._run_local_stop
+    original_spawn_local = module._spawn_local_start
+    original_join = module._join_bare_launch
+    original_collect = module._collect_bare_runtime_statuses
+    original_bare_script_name = module._selection_bare_script_name
+    original_service_names = module._selection_service_names_for_target_node
+    original_log_path = module._bare_wave_bootstrap_log_path
+    try:
+        module._run_local_stop = lambda *, local_node_cfg, service_name: stop_calls.append(
+            f"{local_node_cfg['hostname']}:{service_name}"
+        )
+        module._spawn_local_start = lambda **kwargs: spawn_calls.append(kwargs["selection_name"]) or {
+            "mode": "local",
+            "node_name": kwargs["local_node_cfg"]["hostname"],
+            "selection_name": kwargs["selection_name"],
+            "bare_script_name": kwargs["bare_script_name"],
+            "bootstrap_log_path": kwargs["bootstrap_log_path"],
+            "expected_service_names": kwargs["expected_service_names"],
+            "launch_error": None,
+            "launcher_rc": 0,
+            "runtime_statuses": [],
+        }
+        module._join_bare_launch = lambda result: None
+        module._collect_bare_runtime_statuses = lambda **kwargs: []
+        module._selection_bare_script_name = lambda **kwargs: "fluxon_core_controller"
+        module._selection_service_names_for_target_node = (
+            lambda **kwargs: ["master", "owner", "ops_controller", "ops_agent"]
+        )
+        module._bare_wave_bootstrap_log_path = (
+            lambda **kwargs: Path("/tmp") / f"{kwargs['node_name']}_{kwargs['selection_name']}.log"
+        )
+        module._run_bare_waves(
+            workdir=Path("/tmp"),
+            deployconf=deployconf,
+            cluster_nodes=cluster_nodes,
+            local_node_cfg=cluster_nodes["logic-a"],
+            waves=[
+                {
+                    "launches": [
+                        {"node": "logic-a", "selection_name": "fluxon_core_controller"},
+                    ]
+                }
+            ],
+            bootstrap_bare_services=set(),
+        )
+    finally:
+        module._run_local_stop = original_run_local_stop
+        module._spawn_local_start = original_spawn_local
+        module._join_bare_launch = original_join
+        module._collect_bare_runtime_statuses = original_collect
+        module._selection_bare_script_name = original_bare_script_name
+        module._selection_service_names_for_target_node = original_service_names
+        module._bare_wave_bootstrap_log_path = original_log_path
+    assert stop_calls == [
+        "logic-a:master",
+        "logic-a:owner",
+        "logic-a:ops_controller",
+        "logic-a:ops_agent",
+    ], stop_calls
+    assert spawn_calls == ["fluxon_core_controller"], spawn_calls
+    print("PASS: test_run_bare_waves_stops_legacy_plain_services_before_atomic_launch")
+
+
 def test_local_coverage_bootstrap_excludes_duplicate_local_control_plane_selection() -> None:
     module = _load_start_test_bed_module()
     deployconf = {
@@ -1094,7 +1222,7 @@ def test_bare_then_apply_success_path_does_not_run_post_apply_stop() -> None:
             encoding="utf-8",
         )
 
-        original_read_local_release_manifest_sha256 = module._read_local_release_manifest_sha256
+        original_read_release_manifest_sha256 = module._read_release_manifest_sha256
         original_with_release_manifest_sha256_env = module._with_release_manifest_sha256_env
         original_generate_daemonset_artifacts = module._generate_daemonset_artifacts
         original_refresh_cluster_bare_deploy_scripts = module._refresh_cluster_bare_deploy_scripts
@@ -1120,7 +1248,7 @@ def test_bare_then_apply_success_path_does_not_run_post_apply_stop() -> None:
         call_sequence: list[str] = []
 
         try:
-            module._read_local_release_manifest_sha256 = lambda **_: "sha256"
+            module._read_release_manifest_sha256 = lambda **_: "sha256"
             module._with_release_manifest_sha256_env = lambda **kwargs: kwargs["deployconf"]
             module._generate_daemonset_artifacts = lambda **_: None
             module._refresh_cluster_bare_deploy_scripts = lambda **_: None
@@ -1194,7 +1322,7 @@ def _fail_remote_stop(*, node_name: str, service_name: str, **_: object) -> None
             finally:
                 sys.argv = original_argv
         finally:
-            module._read_local_release_manifest_sha256 = original_read_local_release_manifest_sha256
+            module._read_release_manifest_sha256 = original_read_release_manifest_sha256
             module._with_release_manifest_sha256_env = original_with_release_manifest_sha256_env
             module._generate_daemonset_artifacts = original_generate_daemonset_artifacts
             module._refresh_cluster_bare_deploy_scripts = original_refresh_cluster_bare_deploy_scripts
@@ -1321,7 +1449,7 @@ def test_bare_only_stops_after_controller_ready() -> None:
             encoding="utf-8",
         )
 
-        original_read_local_release_manifest_sha256 = module._read_local_release_manifest_sha256
+        original_read_release_manifest_sha256 = module._read_release_manifest_sha256
         original_with_release_manifest_sha256_env = module._with_release_manifest_sha256_env
         original_generate_daemonset_artifacts = module._generate_daemonset_artifacts
         original_refresh_cluster_bare_deploy_scripts = module._refresh_cluster_bare_deploy_scripts
@@ -1339,7 +1467,7 @@ def test_bare_only_stops_after_controller_ready() -> None:
         run_calls: list[tuple[str, object]] = []
 
         try:
-            module._read_local_release_manifest_sha256 = lambda **_: "sha256"
+            module._read_release_manifest_sha256 = lambda **_: "sha256"
             module._with_release_manifest_sha256_env = lambda **kwargs: kwargs["deployconf"]
             module._generate_daemonset_artifacts = lambda **_: run_calls.append(("generate", None))
             module._refresh_cluster_bare_deploy_scripts = lambda **_: run_calls.append(("refresh_bare", None))
@@ -1390,7 +1518,7 @@ def _fail_deploy_or_wait(**_: object) -> dict[str, str]:
             finally:
                 sys.argv = original_argv
         finally:
-            module._read_local_release_manifest_sha256 = original_read_local_release_manifest_sha256
+            module._read_release_manifest_sha256 = original_read_release_manifest_sha256
             module._with_release_manifest_sha256_env = original_with_release_manifest_sha256_env
             module._generate_daemonset_artifacts = original_generate_daemonset_artifacts
             module._refresh_cluster_bare_deploy_scripts = original_refresh_cluster_bare_deploy_scripts
@@ -1518,11 +1646,19 @@ def main() -> int:
             "run_bare_waves_treats_local_execution_mode_node_as_local",
             test_run_bare_waves_treats_local_execution_mode_node_as_local,
         ),
+        (
+            "run_bare_waves_stops_legacy_plain_services_before_atomic_launch",
+            test_run_bare_waves_stops_legacy_plain_services_before_atomic_launch,
+        ),
         (
             "local_coverage_bootstrap_excludes_duplicate_local_control_plane_selection",
             test_local_coverage_bootstrap_excludes_duplicate_local_control_plane_selection,
         ),
         ("parse_test_runner_ui_config_resolves_paths", test_parse_test_runner_ui_config_resolves_paths),
+        (
+            "resolve_local_node_cfg_accepts_remote_only_controller_host",
+            test_resolve_local_node_cfg_accepts_remote_only_controller_host,
+        ),
         (
             "normalize_bootstrap_deployconf_strips_legacy_master_p2p_listen_port",
             test_normalize_bootstrap_deployconf_strips_legacy_master_p2p_listen_port,
diff --git a/deployment/utils/proc_lifecycle_codegen.py b/deployment/utils/proc_lifecycle_codegen.py
index 197829f..d93ece6 100644
--- a/deployment/utils/proc_lifecycle_codegen.py
+++ b/deployment/utils/proc_lifecycle_codegen.py
@@ -164,6 +164,52 @@ def render_bash_proc_lifecycle_funcs_pid_tree(*, timeouts: StopTimeouts) -> str:
   '
 }}
 
+_cmdline_contains_selection_supervisor_entry() {{
+  pid="$1"
+  if [[ ! "$pid" =~ ^[0-9]+$ ]]; then
+    return 1
+  fi
+  cmdline_path="/proc/$pid/cmdline"
+  if [ ! -r "$cmdline_path" ]; then
+    return 1
+  fi
+  tr '\\0' '\\n' < "$cmdline_path" 2>/dev/null | awk '
+    {{
+      if ($0 ~ /(^|\\/)selection_supervisor\\.py$/) {{
+        found=1;
+      }}
+    }}
+    END {{
+      exit(found ? 0 : 1);
+    }}
+  '
+}}
+
+_pid_tree_ready_candidate_child_pids() {{
+  root_pid="$1"
+  if [[ ! "$root_pid" =~ ^[0-9]+$ ]]; then
+    return 1
+  fi
+  if ! _pid_exists "$root_pid"; then
+    return 1
+  fi
+
+  direct_child_pids="$(_pid_tree_direct_child_pids "$root_pid" 2>/dev/null || true)"
+  if [ -z "$direct_child_pids" ]; then
+    echo ""
+    return 0
+  fi
+
+  ready_child_pids=""
+  for child_pid in $direct_child_pids; do
+    if _cmdline_contains_selection_supervisor_entry "$child_pid"; then
+      continue
+    fi
+    ready_child_pids="$ready_child_pids $child_pid"
+  done
+  echo "${{ready_child_pids# }}"
+}}
+
 _now_monotonic_ms() {{
   python3 - <<'__FLUXON_MONOTONIC_MS__'
 import time
@@ -206,7 +252,7 @@ def render_bash_proc_lifecycle_funcs_pid_tree(*, timeouts: StopTimeouts) -> str:
       return 1
     fi
 
-    current_child_pids="$(_pid_tree_direct_child_pids "$root_pid" 2>/dev/null || true)"
+    current_child_pids="$(_pid_tree_ready_candidate_child_pids "$root_pid" 2>/dev/null || true)"
     current_child_pid=""
     if [ -n "$current_child_pids" ]; then
       set -- $current_child_pids
diff --git "a/fluxon_doc_cn/design/observ_0_KV\350\265\204\346\272\220\347\233\221\346\216\247\351\235\242\346\235\277\344\270\216Metric_Trends.md" "b/fluxon_doc_cn/design/observ_0_KV\350\265\204\346\272\220\347\233\221\346\216\247\351\235\242\346\235\277\344\270\216Metric_Trends.md"
new file mode 100644
index 0000000..9a6d545
--- /dev/null
+++ "b/fluxon_doc_cn/design/observ_0_KV\350\265\204\346\272\220\347\233\221\346\216\247\351\235\242\346\235\277\344\270\216Metric_Trends.md"
@@ -0,0 +1,138 @@
+# Observ 设计 0 - 监控面板 Metric Trends
+
+## 0. 总起
+
+本文只定义 KV 监控面板里的 `Metric Trends` 区域。对应页面模板在 `fluxon_rs/fluxon_cli/templates/monitor_table.html`，页面上显示为：
+
+```html
+<summary><b>Metric Trends</b> <span class="muted">(KV aggregate + member drill-down)</span></summary>
+```
+
+稳定结论：
+
+- `Metric Trends` 是 KV 面板里的趋势图区域，负责展示聚合指标卡片和 per owner 展开视图。
+- 指标卡片支持多线折线图。容量型指标必须把用量和总量放在同一张图里。
+- 用户可以多选指标卡片，同时展开多个 owner drilldown block。
+- 折线 hover 时必须显示 tooltip、垂直辅助线和折线上的对齐辅助点。
+- 周期刷新必须复用已有 DOM，避免页面跳动、展开状态丢失和 hover 中断。
+
+## 1. 区域结构
+
+`Metric Trends` 区域由三层组成：
+
+| 层级 | 页面元素 | 职责 |
+| --- | --- | --- |
+| 顶部控制 | window selector、role filters | 控制趋势窗口和可见成员角色 |
+| 聚合卡片 | `#metric_grid` 下的 `.metric_card` | 展示每个指标的最新值和聚合曲线 |
+| 展开视图 | `#member_metric_sections` 下的 owner blocks | 展示选中指标的 per owner 曲线和成员行 |
+
+用户进入 KV 面板时先看到聚合卡片。点击一个指标卡片后，该指标会进入选中集合，并在下方生成一个 owner drilldown block；再次点击同一卡片会关闭该指标的展开视图。
+
+## 2. 指标卡片
+
+每个 `.metric_card` 展示三类信息：
+
+- 指标名，例如 `Node CPU`、`Node Memory`、`GPU Memory`。
+- 最新值。多线指标用 `主线 / 对比线 / 附加线` 的顺序展示。
+- 一张 sparkline 折线图。
+
+当前卡片按以下语义渲染：
+
+| 指标 | 曲线要求 |
+| --- | --- |
+| `Node CPU` | `Used`、`Capacity`、`Process CPU` 三条线 |
+| `Node Memory` | `Used`、`Total`、`Process RSS` 三条线 |
+| `Segment Usage` | `Used`、`Capacity` 两条线 |
+| `GPU Memory` | `Used`、`Total` 两条线 |
+| `Process Network` | `TX`、`RX` 两条线 |
+| `Node Network` | `TX`、`RX` 两条线 |
+| `Cache Hit %` | 一条命中率曲线，选择后可看 per owner 命中率 |
+| 其他单值指标 | 一条主曲线 |
+
+CPU 指标按核堆叠展示，GPU 百分比指标按设备聚合展示；这类按资源实例求和的百分比聚合值都可以超过 `100%`。折线图的 Y 轴起点固定为 `0`，避免资源曲线因为局部波动被视觉放大。
+
+## 3. 多线折线图
+
+折线图由 `buildSparklineSvg(...)` 生成。输入统一归并为 `data-lines`：
+
+```text
+primary series
+comparison series
+additional series...
+```
+
+渲染规则：
+
+- 第一条线是主线。
+- comparison line 用于容量、总量或反方向指标。
+- additional line 用于同图补充进程资源，例如 `Process CPU`、`Process RSS`。
+- 多线图必须显示 legend，legend 文案使用 `series_label`。
+- 没有有效 series 时显示 `N/A`，不生成空白 SVG。
+
+这个规则保证 `Node Memory` 这类指标能在一张图里同时看节点用量、节点总量和 Fluxon 进程 RSS。
+
+## 4. Hover 交互
+
+鼠标悬浮在折线图上时，UI 必须显示：
+
+- 垂直 hover 辅助线：`.metric_chart_hover_line`
+- 每条曲线的对齐辅助点：`.metric_chart_hover_point_ring` 和 `.metric_chart_hover_point`
+- tooltip：时间戳和当前 x 位置上每条曲线的格式化数值
+
+辅助点和 tooltip 都从同一份 `data-lines` 取值。这样点位、颜色、legend 和 tooltip 数值保持一致。
+
+离开图表时，tooltip 和所有辅助点隐藏。
+
+## 5. 多选展开
+
+`Metric Trends` 支持同时展开多个指标。状态保存在：
+
+```text
+selectedMetricKeys: string[]
+```
+
+交互规则：
+
+- 点击未选中的 metric card：加入 `selectedMetricKeys`，创建对应 owner drilldown block。
+- 点击已选中的 metric card：从 `selectedMetricKeys` 删除，同时删除该指标的 owner 展开状态。
+- 多个选中指标按 `selectedMetricKeys` 顺序逐个渲染，不互相覆盖。
+
+这意味着用户可以同时查看 `Node CPU`、`Node Memory`、`Cache Hit %` 等多个指标的 per owner 视图。
+
+## 6. Owner Drilldown
+
+每个选中指标对应一个 owner drilldown block。block 里每个 owner 用 `<details class="owner_metric_card">` 渲染。
+
+owner card 的内容：
+
+- owner id 和 node key。
+- owner 汇总最新值。
+- owner 汇总折线图。
+- 展开后的成员行。
+
+owner 展开状态按指标分别保存：
+
+```text
+expandedOwnersByMetric[metric_key] = [owner_id, ...]
+```
+
+因此，同一个 owner 在 `Node CPU` 里展开，不会强制影响 `Node Memory` 里的展开状态。
+
+## 7. 刷新稳定性
+
+`Metric Trends` 会随页面周期刷新。刷新时必须满足：
+
+- 不清空整个 `#metric_grid` 后重建。
+- 不清空整个 owner drilldown section 后重建。
+- 已存在卡片按 `data-patch-key` 复用 DOM。
+- 已展开的 owner 继续保持展开。
+- 初次加载后不反复写回 `Loading metric panel...`，避免高度跳动。
+
+当前实现用 `patchChildrenByKey(...)` 复用 metric card 和 owner card。刷新只更新必要 HTML，保留卡片节点本身。
+
+## 8. 关键结论
+
+- `Metric Trends` 的核心 contract 是“多线趋势 + 多选 owner drilldown + 稳定刷新”。
+- `Node CPU`、`Node Memory`、`Segment Usage`、`GPU Memory`、网络指标必须保持多线展示；CPU/GPU 这类资源实例聚合百分比允许超过 `100%`。
+- hover 辅助点是趋势图可读性的一部分，不能只显示 tooltip。
+- 多选展开状态和 owner 展开状态必须分别持久化，避免用户刷新或轮询后丢失上下文。
diff --git a/fluxon_doc_cn/roadmap.md b/fluxon_doc_cn/roadmap.md
index ddbd735..6af4d6e 100644
--- a/fluxon_doc_cn/roadmap.md
+++ b/fluxon_doc_cn/roadmap.md
@@ -11,6 +11,7 @@
 ### 0.2.1
 
 - [PERF] 优化 `RPC`、`KV`、`FS` 性能
+- [TOOL] KV 监控面板支持 GPU 资源列和趋势曲线
 - [MQ] 修复 `MQ` 控制面可扩展性问题
 - [ETCD] 修复 `etcd` 前缀获取时 `gRPC` 限制大小问题
 - [OSS] 完善开源相关工作
diff --git "a/fluxon_doc_cn/user_doc/\347\224\250\346\210\267 - 3 - KV-RPC\346\216\245\345\217\243.md" "b/fluxon_doc_cn/user_doc/\347\224\250\346\210\267 - 3 - KV-RPC\346\216\245\345\217\243.md"
index 9a8c8e1..fea34dc 100644
--- "a/fluxon_doc_cn/user_doc/\347\224\250\346\210\267 - 3 - KV-RPC\346\216\245\345\217\243.md"	
+++ "b/fluxon_doc_cn/user_doc/\347\224\250\346\210\267 - 3 - KV-RPC\346\216\245\345\217\243.md"	
@@ -200,6 +200,29 @@ master_ui:
 http://<host-ip-or-domain>:18080/view?cluster_name=demo-kv-cluster&member_kind=kv
 ```
 
+KV Web UI 会直接展示 KV 成员表和 `Metric Trends` 曲线面板。成员表的 `gpu` 列展示每个采样节点上 GPU 的显存、利用率、温度和 GPU 进程摘要；`Metric Trends` 里可以查看 `GPU Memory Used`、`GPU Memory Total`、`GPU Util %`、`GPU Temp`、`GPU Proc Count`、`GPU Proc SM %` 和 `GPU Proc Mem %` 的可视化曲线。
+
+GPU 监控使用 Fluxon 的标准监控链路：
+
+```text
+owner/master 系统指标采样
+  -> nvidia-smi
+  -> Prometheus remote-write
+  -> Greptime / Prometheus query API
+  -> KV Web UI
+```
+
+使用 GPU 曲线需要满足这些前置条件：
+
+| 项 | 要求 |
+| --- | --- |
+| GPU 可见性 | 采样进程所在机器能执行 `nvidia-smi`，并能看到目标 GPU。 |
+| 监控写入 | `monitoring.prom_remote_write_url` 指向可写的 Greptime/Prometheus remote-write 接口。 |
+| 监控查询 | `monitoring.prometheus_base_url` 指向可查询的 Prometheus API，例如 Greptime 的 `/v1/prometheus`。 |
+| 采样范围 | 当前 GPU 指标跟随系统指标采样角色，覆盖 master 和 owner/client 进程可见的节点资源；external client 不重复采样系统资源。 |
+
+如果机器没有 GPU、没有 `nvidia-smi`，或进程没有访问 GPU 的权限，KV 进程仍会继续运行；对应成员的 `gpu` 列显示 `N/A`，GPU 趋势卡片没有样本。
+
 `owner` 把共享内存池和 `shared.json` 准备好之后，再运行下面的业务最小示例。
 
 ### 生命周期与调用流程（Call Flow）
diff --git a/fluxon_doc_en/roadmap.md b/fluxon_doc_en/roadmap.md
index d2f79c6..e23f233 100644
--- a/fluxon_doc_en/roadmap.md
+++ b/fluxon_doc_en/roadmap.md
@@ -11,6 +11,7 @@
 ### 0.2.1
 
 - [PERF] Optimize `RPC`, `KV`, and `FS` performance
+- [TOOL] Add GPU resource columns and trend curves to the KV monitoring panel
 - [MQ] Fix MQ control-plane scalability issues
 - [ETCD] Fix the gRPC size limit issue when listing etcd prefixes
 - [OSS] Improve open-source readiness and related workflows
diff --git a/fluxon_doc_en/user_doc/User - 3 - KV and RPC Interface.md b/fluxon_doc_en/user_doc/User - 3 - KV and RPC Interface.md
index b3f003d..65b6213 100644
--- a/fluxon_doc_en/user_doc/User - 3 - KV and RPC Interface.md	
+++ b/fluxon_doc_en/user_doc/User - 3 - KV and RPC Interface.md	
@@ -160,6 +160,35 @@ python3 examples/start_master_owner.py
 python3 examples/start_master_owner.py --without-master
 ```
 
+The `master_ui` block starts the KV Web UI from the master process. With the example above, open:
+
+```text
+http://<host-ip-or-domain>:18080/view?cluster_name=demo-kv-cluster&member_kind=kv
+```
+
+The KV Web UI shows the KV member table and the `Metric Trends` chart panel. The table's `gpu` column summarizes GPU memory, utilization, temperature, and GPU process activity for each sampled node. `Metric Trends` can plot `GPU Memory Used`, `GPU Memory Total`, `GPU Util %`, `GPU Temp`, `GPU Proc Count`, `GPU Proc SM %`, and `GPU Proc Mem %`.
+
+GPU monitoring uses the standard Fluxon observability path:
+
+```text
+owner/master system-metric sampling
+  -> nvidia-smi
+  -> Prometheus remote-write
+  -> Greptime / Prometheus query API
+  -> KV Web UI
+```
+
+GPU curves require:
+
+| Item | Requirement |
+| --- | --- |
+| GPU visibility | The sampling process can run `nvidia-smi` and can see the target GPUs. |
+| Metric write path | `monitoring.prom_remote_write_url` points to a writable Greptime/Prometheus remote-write endpoint. |
+| Metric query path | `monitoring.prometheus_base_url` points to a queryable Prometheus API, for example Greptime's `/v1/prometheus`. |
+| Sampling scope | GPU metrics follow the system-metric sampling roles: master and owner/client processes report visible node resources; external clients do not duplicate system-resource sampling. |
+
+If a machine has no GPU, lacks `nvidia-smi`, or the process cannot access the GPU, the KV process keeps running. The member table shows `N/A` for `gpu`, and GPU trend cards have no samples.
+
 ### Lifecycle and Call Flow
 
 ```text
diff --git a/fluxon_rs/fluxon_cli/src/lib.rs b/fluxon_rs/fluxon_cli/src/lib.rs
index 11c9fcd..2adb85d 100644
--- a/fluxon_rs/fluxon_cli/src/lib.rs
+++ b/fluxon_rs/fluxon_cli/src/lib.rs
@@ -30,7 +30,7 @@ pub const OPS_PANEL_SERVICE_NAME: &str = "ops";
 
 use crate::config::{AVAILABLE_MEMBER_KINDS, MemberKind, MonitorConfig};
 use crate::model::{
-    ClusterMember, ClusterSnapshot, ClustersResponse, MemberRdmaDeviceSnapshot,
+    ClusterMember, ClusterSnapshot, ClustersResponse, GpuSnapshot, MemberRdmaDeviceSnapshot,
     MemberRdmaPortSnapshot, MemberSnapshot, NodeSnapshot, RdmaNetdevRateSnapshot,
     TransferEngineEdge,
 };
@@ -1359,6 +1359,7 @@ async fn build_fs_cluster_snapshot(
             node_memory_total_bytes: None,
             container_memory_usage_bytes: None,
             container_memory_limit_bytes: None,
+            gpus: Vec::new(),
             process_resident_memory_bytes: None,
             process_cpu_usage_percent: None,
             tokio_num_workers: None,
@@ -1864,6 +1865,38 @@ pub async fn build_cluster_snapshot_with_prom_query_time(
     let seg_used_bytes_by_node =
         sum_segment_bytes_by_node(&prom_maps.seg_used_bytes_by_node_device);
 
+    fn gpu_snapshots_for_member(
+        prom_maps: &crate::prom::PromSnapshotMaps,
+        member_id: &str,
+    ) -> Vec<GpuSnapshot> {
+        let mut out = Vec::new();
+        for ((node, index, name), gpu) in &prom_maps.gpu_by_node_index_name {
+            if node != member_id {
+                continue;
+            }
+            out.push(GpuSnapshot {
+                index: index.clone(),
+                name: name.clone(),
+                memory_used_bytes: gpu.memory_used_bytes,
+                memory_total_bytes: gpu.memory_total_bytes,
+                utilization_percent: gpu.utilization_percent,
+                temperature_celsius: gpu.temperature_celsius,
+                process_count: gpu.process_count,
+                process_sm_utilization_percent: gpu.process_sm_utilization_percent,
+                process_memory_utilization_percent: gpu.process_memory_utilization_percent,
+            });
+        }
+        out.sort_by(|a, b| {
+            let ai = a.index.parse::<u32>();
+            let bi = b.index.parse::<u32>();
+            match (ai, bi) {
+                (Ok(ai), Ok(bi)) => ai.cmp(&bi),
+                _ => a.index.cmp(&b.index),
+            }
+        });
+        out
+    }
+
     async fn prom_scalar_best_effort(
         warnings: &mut Vec<String>,
         prom: &PromClient,
@@ -2068,6 +2101,7 @@ pub async fn build_cluster_snapshot_with_prom_query_time(
                 .container_memory_limit_bytes
                 .get(&member_id)
                 .copied(),
+            gpus: gpu_snapshots_for_member(&prom_maps, &member_id),
             process_resident_memory_bytes: prom_maps
                 .process_resident_memory_bytes
                 .get(&member_id)
diff --git a/fluxon_rs/fluxon_cli/src/model.rs b/fluxon_rs/fluxon_cli/src/model.rs
index 4b9e14a..934a09f 100644
--- a/fluxon_rs/fluxon_cli/src/model.rs
+++ b/fluxon_rs/fluxon_cli/src/model.rs
@@ -56,6 +56,26 @@ pub struct RdmaNetdevRateSnapshot {
     pub rx_mbps: Option<f64>,
 }
 
+#[derive(Debug, Clone, Default, Serialize, Deserialize)]
+pub struct GpuSnapshot {
+    pub index: String,
+    pub name: String,
+    #[serde(skip_serializing_if = "Option::is_none")]
+    pub memory_used_bytes: Option<f64>,
+    #[serde(skip_serializing_if = "Option::is_none")]
+    pub memory_total_bytes: Option<f64>,
+    #[serde(skip_serializing_if = "Option::is_none")]
+    pub utilization_percent: Option<f64>,
+    #[serde(skip_serializing_if = "Option::is_none")]
+    pub temperature_celsius: Option<f64>,
+    #[serde(skip_serializing_if = "Option::is_none")]
+    pub process_count: Option<f64>,
+    #[serde(skip_serializing_if = "Option::is_none")]
+    pub process_sm_utilization_percent: Option<f64>,
+    #[serde(skip_serializing_if = "Option::is_none")]
+    pub process_memory_utilization_percent: Option<f64>,
+}
+
 #[derive(Debug, Clone, Serialize, Deserialize)]
 pub struct KvTopologyOwnerExternalMaxSnapshot {
     pub owner_id: String,
@@ -379,6 +399,79 @@ fn fmt_bytes_per_sec_from_mbps(v_mbps: Option<f64>) -> (String, UiPillStatus) {
     fmt_bytes_auto(Some(bytes_per_sec), true)
 }
 
+fn fmt_bytes_gib_short(v: Option<f64>) -> String {
+    match v {
+        Some(bytes) => format!("{:.1}G", bytes / 1024.0 / 1024.0 / 1024.0),
+        None => "-".to_string(),
+    }
+}
+
+fn fmt_percent_short(v: Option<f64>) -> String {
+    match v {
+        Some(v) => format!("{:.0}%", v),
+        None => "-".to_string(),
+    }
+}
+
+fn fmt_temp_short(v: Option<f64>) -> String {
+    match v {
+        Some(v) => format!("{:.0}C", v),
+        None => "-".to_string(),
+    }
+}
+
+fn fmt_count_short(v: Option<f64>) -> String {
+    match v {
+        Some(v) => format!("{:.0}", v),
+        None => "-".to_string(),
+    }
+}
+
+fn render_gpu_summary(gpus: &[GpuSnapshot]) -> String {
+    if gpus.is_empty() {
+        return "N/A".to_string();
+    }
+
+    let mut rows: Vec<&GpuSnapshot> = gpus.iter().collect();
+    rows.sort_by(|a, b| {
+        let ai = a.index.parse::<u32>();
+        let bi = b.index.parse::<u32>();
+        match (ai, bi) {
+            (Ok(ai), Ok(bi)) => ai.cmp(&bi),
+            _ => a.index.cmp(&b.index),
+        }
+    });
+
+    rows.into_iter()
+        .map(|g| {
+            format!(
+                "{}: {}/{} util={} temp={} p={} sm={} pmem={}",
+                g.index,
+                fmt_bytes_gib_short(g.memory_used_bytes),
+                fmt_bytes_gib_short(g.memory_total_bytes),
+                fmt_percent_short(g.utilization_percent),
+                fmt_temp_short(g.temperature_celsius),
+                fmt_count_short(g.process_count),
+                fmt_percent_short(g.process_sm_utilization_percent),
+                fmt_percent_short(g.process_memory_utilization_percent),
+            )
+        })
+        .collect::<Vec<_>>()
+        .join(" | ")
+}
+
+fn max_gpu_memory_used(gpus: &[GpuSnapshot]) -> Option<f64> {
+    gpus.iter()
+        .filter_map(|g| g.memory_used_bytes)
+        .fold(None, |acc, v| Some(acc.map(|a| a.max(v)).unwrap_or(v)))
+}
+
+fn max_gpu_utilization(gpus: &[GpuSnapshot]) -> Option<f64> {
+    gpus.iter()
+        .filter_map(|g| g.utilization_percent)
+        .fold(None, |acc, v| Some(acc.map(|a| a.max(v)).unwrap_or(v)))
+}
+
 #[derive(Debug, Clone, Serialize, Deserialize)]
 pub struct NetworkConfigSnapshot {
     pub subnet_whitelist: Vec<String>,
@@ -528,6 +621,7 @@ pub struct MemberSnapshot {
     pub node_memory_total_bytes: Option<f64>,
     pub container_memory_usage_bytes: Option<f64>,
     pub container_memory_limit_bytes: Option<f64>,
+    pub gpus: Vec<GpuSnapshot>,
     pub process_resident_memory_bytes: Option<f64>,
     pub process_cpu_usage_percent: Option<f64>,
     pub tokio_num_workers: Option<f64>,
@@ -1531,6 +1625,9 @@ pub struct MemberTableRowView {
     pub shared_mem_dir_text: String,
     pub p2p_listen_port_text: String,
     pub rdma_text: String,
+    pub gpu_text: String,
+    pub gpu_memory_used_sort: String,
+    pub gpu_utilization_sort: String,
     pub search_text: String,
     pub cpu_text: String,
     pub cpu_sort: String,
@@ -1937,6 +2034,7 @@ pub fn build_member_table_rows(snapshot: &ClusterSnapshot) -> Vec<MemberTableRow
                 }
                 parts.join(" ").trim().to_string()
             };
+            let gpu_text = render_gpu_summary(&m.gpus);
             let search_text = [
                 node.node_key.as_str(),
                 m.member_id.as_str(),
@@ -1946,6 +2044,7 @@ pub fn build_member_table_rows(snapshot: &ClusterSnapshot) -> Vec<MemberTableRow
                 accessible_ip_text.as_str(),
                 shared_mem_dir_text.as_str(),
                 rdma_text.as_str(),
+                gpu_text.as_str(),
             ]
             .join(" ");
 
@@ -1980,6 +2079,9 @@ pub fn build_member_table_rows(snapshot: &ClusterSnapshot) -> Vec<MemberTableRow
                 shared_mem_dir_text,
                 p2p_listen_port_text,
                 rdma_text,
+                gpu_text,
+                gpu_memory_used_sort: sort_value_opt(max_gpu_memory_used(&m.gpus)),
+                gpu_utilization_sort: sort_value_opt(max_gpu_utilization(&m.gpus)),
                 search_text,
                 cpu_text,
                 cpu_sort: sort_value_opt(m.node_cpu_usage_percent),
diff --git a/fluxon_rs/fluxon_cli/src/prom.rs b/fluxon_rs/fluxon_cli/src/prom.rs
index 4406c50..f9e24b5 100644
--- a/fluxon_rs/fluxon_cli/src/prom.rs
+++ b/fluxon_rs/fluxon_cli/src/prom.rs
@@ -2,12 +2,16 @@ use crate::model::MemberRole;
 use anyhow::Context;
 use fluxon_observability::keys::{
     PROM_LABEL_FS_IO_OP, PROM_LABEL_FS_MOUNT_KIND, PROM_LABEL_FS_MOUNTPOINT_DIR_ABS,
-    PROM_LABEL_FS_TARGET_DIR_ABS, PROM_LABEL_MQ_CHAN_ID, PROM_LABEL_MQ_CONSUMER_IDX,
-    PROM_LABEL_MQ_METRIC, PROM_LABEL_MQ_PRODUCER_IDX, PROM_LABEL_MQ_STAT, PROM_LABEL_NODE,
-    PROM_LABEL_PEER, PROM_METRIC_CONTAINER_MEMORY_LIMIT_BYTES,
-    PROM_METRIC_CONTAINER_MEMORY_USAGE_BYTES, PROM_METRIC_FS_IO_OPS_TOTAL,
-    PROM_METRIC_FS_MOUNT_FS_TOTAL_BYTES, PROM_METRIC_FS_MOUNT_FS_USED_BYTES,
-    PROM_METRIC_KV_PEER_NETWORK_BYTES_TOTAL,
+    PROM_LABEL_FS_TARGET_DIR_ABS, PROM_LABEL_GPU_INDEX, PROM_LABEL_GPU_NAME, PROM_LABEL_MQ_CHAN_ID,
+    PROM_LABEL_MQ_CONSUMER_IDX, PROM_LABEL_MQ_METRIC, PROM_LABEL_MQ_PRODUCER_IDX,
+    PROM_LABEL_MQ_STAT, PROM_LABEL_NODE, PROM_LABEL_PEER, PROM_METRIC_CLIENT_NETWORK_MBPS,
+    PROM_METRIC_CONTAINER_MEMORY_LIMIT_BYTES, PROM_METRIC_CONTAINER_MEMORY_USAGE_BYTES,
+    PROM_METRIC_FS_IO_OPS_TOTAL, PROM_METRIC_FS_MOUNT_FS_TOTAL_BYTES,
+    PROM_METRIC_FS_MOUNT_FS_USED_BYTES, PROM_METRIC_GPU_MEMORY_TOTAL_BYTES,
+    PROM_METRIC_GPU_MEMORY_USED_BYTES, PROM_METRIC_GPU_PROCESS_COUNT,
+    PROM_METRIC_GPU_PROCESS_MEMORY_UTILIZATION_PERCENT,
+    PROM_METRIC_GPU_PROCESS_SM_UTILIZATION_PERCENT, PROM_METRIC_GPU_TEMPERATURE_CELSIUS,
+    PROM_METRIC_GPU_UTILIZATION_PERCENT, PROM_METRIC_KV_PEER_NETWORK_BYTES_TOTAL,
     PROM_METRIC_MQ_CONSUMER_NONBLOCKING_LATEST_INTERVAL_UNIX_MS,
     PROM_METRIC_MQ_CONSUMER_NONBLOCKING_LATEST_PHASE_CALLS,
     PROM_METRIC_MQ_CONSUMER_NONBLOCKING_LATEST_PHASE_RPS, PROM_METRIC_MQ_GET_ONE_LATENCY_US,
@@ -234,6 +238,17 @@ pub struct PromRangeSeries {
     pub values: Vec<(f64, String)>,
 }
 
+#[derive(Debug, Clone, Default)]
+pub struct GpuPromSnapshot {
+    pub memory_used_bytes: Option<f64>,
+    pub memory_total_bytes: Option<f64>,
+    pub utilization_percent: Option<f64>,
+    pub temperature_celsius: Option<f64>,
+    pub process_count: Option<f64>,
+    pub process_sm_utilization_percent: Option<f64>,
+    pub process_memory_utilization_percent: Option<f64>,
+}
+
 pub struct PromSnapshotMaps {
     pub node_cpu_usage_percent: HashMap<String, f64>,
     pub node_cpu_logical_cores: HashMap<String, f64>,
@@ -241,6 +256,7 @@ pub struct PromSnapshotMaps {
     pub node_memory_total_bytes: HashMap<String, f64>,
     pub container_memory_usage_bytes: HashMap<String, f64>,
     pub container_memory_limit_bytes: HashMap<String, f64>,
+    pub gpu_by_node_index_name: HashMap<(String, String, String), GpuPromSnapshot>,
     pub process_resident_memory_bytes: HashMap<String, f64>,
     pub process_cpu_usage_percent: HashMap<String, f64>,
     pub tokio_num_workers: HashMap<String, f64>,
@@ -291,6 +307,7 @@ impl PromSnapshotMaps {
             node_memory_total_bytes: HashMap::new(),
             container_memory_usage_bytes: HashMap::new(),
             container_memory_limit_bytes: HashMap::new(),
+            gpu_by_node_index_name: HashMap::new(),
             process_resident_memory_bytes: HashMap::new(),
             process_cpu_usage_percent: HashMap::new(),
             tokio_num_workers: HashMap::new(),
@@ -459,6 +476,39 @@ fn take_node_device_metric(samples: &[PromSample]) -> HashMap<(String, String),
     out
 }
 
+fn take_gpu_metric(samples: &[PromSample]) -> HashMap<(String, String, String), f64> {
+    let mut out = HashMap::new();
+    for s in samples {
+        let Some(node) = s.metric.get(PROM_LABEL_NODE) else {
+            continue;
+        };
+        let Some(gpu_index) = s.metric.get(PROM_LABEL_GPU_INDEX) else {
+            continue;
+        };
+        let Some(gpu_name) = s.metric.get(PROM_LABEL_GPU_NAME) else {
+            continue;
+        };
+        let Some(v) = s.value_f64() else {
+            continue;
+        };
+        out.insert((node.clone(), gpu_index.clone(), gpu_name.clone()), v);
+    }
+    out
+}
+
+fn merge_gpu_metric<F>(
+    dst: &mut HashMap<(String, String, String), GpuPromSnapshot>,
+    src: HashMap<(String, String, String), f64>,
+    mut set: F,
+) where
+    F: FnMut(&mut GpuPromSnapshot, f64),
+{
+    for (key, value) in src {
+        let gpu = dst.entry(key).or_default();
+        set(gpu, value);
+    }
+}
+
 pub fn role_from_member_metadata(meta: &BTreeMap<String, String>) -> MemberRole {
     if meta.get("master").map(|v| v == "true").unwrap_or(false) {
         return MemberRole::Master;
@@ -1090,6 +1140,97 @@ pub async fn collect_prom_snapshot(
         )
         .await,
     );
+    merge_gpu_metric(
+        &mut out.gpu_by_node_index_name,
+        take_gpu_metric(
+            &q(
+                prom,
+                warnings,
+                PROM_METRIC_GPU_MEMORY_USED_BYTES,
+                PROM_METRIC_GPU_MEMORY_USED_BYTES,
+            )
+            .await,
+        ),
+        |gpu, v| gpu.memory_used_bytes = Some(v),
+    );
+    merge_gpu_metric(
+        &mut out.gpu_by_node_index_name,
+        take_gpu_metric(
+            &q(
+                prom,
+                warnings,
+                PROM_METRIC_GPU_MEMORY_TOTAL_BYTES,
+                PROM_METRIC_GPU_MEMORY_TOTAL_BYTES,
+            )
+            .await,
+        ),
+        |gpu, v| gpu.memory_total_bytes = Some(v),
+    );
+    merge_gpu_metric(
+        &mut out.gpu_by_node_index_name,
+        take_gpu_metric(
+            &q(
+                prom,
+                warnings,
+                PROM_METRIC_GPU_UTILIZATION_PERCENT,
+                PROM_METRIC_GPU_UTILIZATION_PERCENT,
+            )
+            .await,
+        ),
+        |gpu, v| gpu.utilization_percent = Some(v),
+    );
+    merge_gpu_metric(
+        &mut out.gpu_by_node_index_name,
+        take_gpu_metric(
+            &q(
+                prom,
+                warnings,
+                PROM_METRIC_GPU_TEMPERATURE_CELSIUS,
+                PROM_METRIC_GPU_TEMPERATURE_CELSIUS,
+            )
+            .await,
+        ),
+        |gpu, v| gpu.temperature_celsius = Some(v),
+    );
+    merge_gpu_metric(
+        &mut out.gpu_by_node_index_name,
+        take_gpu_metric(
+            &q(
+                prom,
+                warnings,
+                PROM_METRIC_GPU_PROCESS_COUNT,
+                PROM_METRIC_GPU_PROCESS_COUNT,
+            )
+            .await,
+        ),
+        |gpu, v| gpu.process_count = Some(v),
+    );
+    merge_gpu_metric(
+        &mut out.gpu_by_node_index_name,
+        take_gpu_metric(
+            &q(
+                prom,
+                warnings,
+                PROM_METRIC_GPU_PROCESS_SM_UTILIZATION_PERCENT,
+                PROM_METRIC_GPU_PROCESS_SM_UTILIZATION_PERCENT,
+            )
+            .await,
+        ),
+        |gpu, v| gpu.process_sm_utilization_percent = Some(v),
+    );
+    merge_gpu_metric(
+        &mut out.gpu_by_node_index_name,
+        take_gpu_metric(
+            &q(
+                prom,
+                warnings,
+                PROM_METRIC_GPU_PROCESS_MEMORY_UTILIZATION_PERCENT,
+                PROM_METRIC_GPU_PROCESS_MEMORY_UTILIZATION_PERCENT,
+            )
+            .await,
+        ),
+        |gpu, v| gpu.process_memory_utilization_percent = Some(v),
+    );
     out.process_resident_memory_bytes = take_node_metric(
         &q(
             prom,
@@ -1168,7 +1309,7 @@ pub async fn collect_prom_snapshot(
             prom,
             warnings,
             "process_network_tx_mbps",
-            "sum by (node) (rate(client_network_bytes_total{direction=\"tx\"}[2m])) * 8 / 1000000",
+            &format!("{PROM_METRIC_CLIENT_NETWORK_MBPS}{{direction=\"tx\"}}"),
         )
         .await,
     );
@@ -1177,7 +1318,7 @@ pub async fn collect_prom_snapshot(
             prom,
             warnings,
             "process_network_rx_mbps",
-            "sum by (node) (rate(client_network_bytes_total{direction=\"rx\"}[2m])) * 8 / 1000000",
+            &format!("{PROM_METRIC_CLIENT_NETWORK_MBPS}{{direction=\"rx\"}}"),
         )
         .await,
     );
diff --git a/fluxon_rs/fluxon_cli/src/server.rs b/fluxon_rs/fluxon_cli/src/server.rs
index ed6baec..e1dee90 100644
--- a/fluxon_rs/fluxon_cli/src/server.rs
+++ b/fluxon_rs/fluxon_cli/src/server.rs
@@ -19,11 +19,13 @@ use hyper::Uri;
 use hyper::client::HttpConnector;
 use hyper_rustls::HttpsConnectorBuilder;
 use serde::Serialize;
+use std::collections::{BTreeMap, BTreeSet};
 use std::net::SocketAddr;
 use std::pin::Pin;
 use std::sync::Arc;
 use tokio::sync::{RwLock, watch};
 
+use fluxon_observability::keys::PROM_METRIC_CLIENT_NETWORK_MBPS;
 use fluxon_util::{
     FluxonCliProxyDescriptorV2, FluxonCliProxyTransportV2, fluxon_cli_proxy_desc_etcd_key_v2,
     fluxon_cli_proxy_desc_etcd_service_prefix_v2,
@@ -245,6 +247,8 @@ const FLUXON_CLI_AUTO_REFRESH_TOOL_JS: &str = r#"
     if (inFlightRef.inFlight) return;
     inFlightRef.inFlight = true;
     const state = hooks.captureState();
+    const scrollX = window.scrollX;
+    const scrollY = window.scrollY;
     try {
       const resp = await fetch(cfg.url, { cache: 'no-store' });
       if (!resp.ok) {
@@ -262,6 +266,7 @@ const FLUXON_CLI_AUTO_REFRESH_TOOL_JS: &str = r#"
       curApp.innerHTML = nextApp.innerHTML;
       hooks.restoreState(state);
       hooks.afterReplace();
+      window.scrollTo(scrollX, scrollY);
     } catch (e) {
       console.warn('auto_refresh: refresh failed:', e);
     } finally {
@@ -479,16 +484,30 @@ struct KvMetricPanelResponse {
 #[serde(rename_all = "snake_case")]
 struct KvMetricMembersResponse {
     metric: KvMetricMetaWire,
+    comparison_metric: Option<KvMetricMetaWire>,
+    additional_metrics: Vec<KvMetricMetaWire>,
     range: KvMetricRangeWire,
     members: Vec<KvMemberSeriesWire>,
     warnings: Vec<String>,
 }
 
+#[derive(Debug, Clone, Serialize)]
+#[serde(rename_all = "snake_case")]
+struct KvMetricOwnersResponse {
+    metric: KvMetricMetaWire,
+    comparison_metric: Option<KvMetricMetaWire>,
+    additional_metrics: Vec<KvMetricMetaWire>,
+    range: KvMetricRangeWire,
+    owners: Vec<KvOwnerSeriesWire>,
+    warnings: Vec<String>,
+}
+
 #[derive(Debug, Clone, Serialize)]
 #[serde(rename_all = "snake_case")]
 struct KvMetricMetaWire {
     key: String,
     label: String,
+    series_label: String,
     unit: String,
     aggregate: String,
 }
@@ -504,8 +523,20 @@ struct KvMetricRangeWire {
 #[serde(rename_all = "snake_case")]
 struct KvAggregateMetricCardWire {
     metric: KvMetricMetaWire,
+    comparison_metric: Option<KvMetricMetaWire>,
     latest: Option<f64>,
     aggregate_series: Vec<(f64, f64)>,
+    comparison_latest: Option<f64>,
+    comparison_series: Vec<(f64, f64)>,
+    additional_series: Vec<KvMetricAdditionalSeriesWire>,
+}
+
+#[derive(Debug, Clone, Serialize)]
+#[serde(rename_all = "snake_case")]
+struct KvMetricAdditionalSeriesWire {
+    metric: KvMetricMetaWire,
+    latest: Option<f64>,
+    series: Vec<(f64, f64)>,
 }
 
 #[derive(Debug, Clone, Serialize)]
@@ -516,12 +547,29 @@ struct KvMemberSeriesWire {
     node_key: String,
     latest: Option<f64>,
     series: Vec<(f64, f64)>,
+    comparison_latest: Option<f64>,
+    comparison_series: Vec<(f64, f64)>,
+    additional_series: Vec<KvMetricAdditionalSeriesWire>,
+}
+
+#[derive(Debug, Clone, Serialize)]
+#[serde(rename_all = "snake_case")]
+struct KvOwnerSeriesWire {
+    owner_id: String,
+    node_key: String,
+    latest: Option<f64>,
+    series: Vec<(f64, f64)>,
+    comparison_latest: Option<f64>,
+    comparison_series: Vec<(f64, f64)>,
+    additional_series: Vec<KvMetricAdditionalSeriesWire>,
+    members: Vec<KvMemberSeriesWire>,
 }
 
 #[derive(Debug, Clone, Copy, PartialEq, Eq)]
 enum KvMetricAggregate {
     Sum,
     Max,
+    Mean,
 }
 
 impl KvMetricAggregate {
@@ -529,6 +577,7 @@ impl KvMetricAggregate {
         match self {
             Self::Sum => "sum",
             Self::Max => "max",
+            Self::Mean => "mean",
         }
     }
 }
@@ -537,93 +586,427 @@ impl KvMetricAggregate {
 enum KvMetricValueField {
     PutRps,
     GetRps,
+    GetCacheHitRatePercent,
     PutBps,
     GetBps,
+    ProcessCpuUsagePercent,
+    NodeCpuUsagePercent,
+    NodeCpuCapacityPercent,
+    ProcessNetworkTxMbps,
+    ProcessNetworkRxMbps,
+    NodeMemoryUsageBytes,
+    NodeMemoryTotalBytes,
+    NodeNetworkTxMbps,
+    NodeNetworkRxMbps,
     ProcessRss,
+    GpuMemoryUsed,
+    GpuMemoryTotal,
+    GpuUtilizationPercent,
+    GpuTemperatureCelsius,
+    GpuProcessCount,
+    GpuProcessSmUtilizationPercent,
+    GpuProcessMemoryUtilizationPercent,
     SegUsedBytes,
+    SegCapacityBytes,
     TokioGlobalQueueDepth,
     TokioBusyPercent,
 }
 
+#[derive(Debug, Clone, Copy)]
+struct KvMetricSeriesSpec {
+    key: &'static str,
+    label: &'static str,
+    series_label: &'static str,
+    unit: &'static str,
+    aggregate: KvMetricAggregate,
+    field: KvMetricValueField,
+    roles: Option<&'static [MemberRole]>,
+}
+
+impl KvMetricSeriesSpec {
+    const fn new(
+        key: &'static str,
+        label: &'static str,
+        series_label: &'static str,
+        unit: &'static str,
+        aggregate: KvMetricAggregate,
+        field: KvMetricValueField,
+    ) -> Self {
+        Self {
+            key,
+            label,
+            series_label,
+            unit,
+            aggregate,
+            field,
+            roles: None,
+        }
+    }
+
+    const fn new_with_roles(
+        key: &'static str,
+        label: &'static str,
+        series_label: &'static str,
+        unit: &'static str,
+        aggregate: KvMetricAggregate,
+        field: KvMetricValueField,
+        roles: &'static [MemberRole],
+    ) -> Self {
+        Self {
+            key,
+            label,
+            series_label,
+            unit,
+            aggregate,
+            field,
+            roles: Some(roles),
+        }
+    }
+}
+
 #[derive(Debug, Clone, Copy)]
 struct KvMetricSpec {
     key: &'static str,
     label: &'static str,
+    series_label: &'static str,
     unit: &'static str,
     aggregate: KvMetricAggregate,
     field: KvMetricValueField,
     roles: &'static [MemberRole],
+    comparison: Option<KvMetricSeriesSpec>,
+    additional: &'static [KvMetricSeriesSpec],
+}
+
+impl KvMetricSpec {
+    const fn single(
+        key: &'static str,
+        label: &'static str,
+        unit: &'static str,
+        aggregate: KvMetricAggregate,
+        field: KvMetricValueField,
+        roles: &'static [MemberRole],
+    ) -> Self {
+        Self::single_with_series_label(key, label, label, unit, aggregate, field, roles)
+    }
+
+    const fn single_with_series_label(
+        key: &'static str,
+        label: &'static str,
+        series_label: &'static str,
+        unit: &'static str,
+        aggregate: KvMetricAggregate,
+        field: KvMetricValueField,
+        roles: &'static [MemberRole],
+    ) -> Self {
+        Self {
+            key,
+            label,
+            series_label,
+            unit,
+            aggregate,
+            field,
+            roles,
+            comparison: None,
+            additional: &[],
+        }
+    }
+
+    const fn paired(
+        primary: KvMetricSeriesSpec,
+        comparison: KvMetricSeriesSpec,
+        roles: &'static [MemberRole],
+    ) -> Self {
+        Self {
+            key: primary.key,
+            label: primary.label,
+            series_label: primary.series_label,
+            unit: primary.unit,
+            aggregate: primary.aggregate,
+            field: primary.field,
+            roles,
+            comparison: Some(comparison),
+            additional: &[],
+        }
+    }
+
+    const fn paired_with_additional(
+        primary: KvMetricSeriesSpec,
+        comparison: KvMetricSeriesSpec,
+        additional: &'static [KvMetricSeriesSpec],
+        roles: &'static [MemberRole],
+    ) -> Self {
+        Self {
+            key: primary.key,
+            label: primary.label,
+            series_label: primary.series_label,
+            unit: primary.unit,
+            aggregate: primary.aggregate,
+            field: primary.field,
+            roles,
+            comparison: Some(comparison),
+            additional,
+        }
+    }
 }
 
 const KV_METRIC_OWNER_AND_EXTERNAL_ROLES: &[MemberRole] =
     &[MemberRole::OwnerClient, MemberRole::ExternalClient];
+const KV_METRIC_OWNER_AND_EXTERNAL_LIKE_ROLES: &[MemberRole] = &[
+    MemberRole::OwnerClient,
+    MemberRole::ExternalClient,
+    MemberRole::SideTransferWorker,
+];
+const KV_METRIC_SYSTEM_ROLES: &[MemberRole] = &[MemberRole::Master, MemberRole::OwnerClient];
 const KV_METRIC_OWNER_ONLY_ROLES: &[MemberRole] = &[MemberRole::OwnerClient];
+const KV_NODE_MEMORY_ADDITIONAL_SPECS: &[KvMetricSeriesSpec] =
+    &[KvMetricSeriesSpec::new_with_roles(
+        "process_rss",
+        "Process RSS",
+        "Process RSS",
+        "bytes",
+        KvMetricAggregate::Sum,
+        KvMetricValueField::ProcessRss,
+        KV_METRIC_OWNER_AND_EXTERNAL_LIKE_ROLES,
+    )];
+const KV_NODE_CPU_ADDITIONAL_SPECS: &[KvMetricSeriesSpec] = &[KvMetricSeriesSpec::new_with_roles(
+    "process_cpu_usage_percent",
+    "Process CPU",
+    "Process CPU",
+    "percent",
+    KvMetricAggregate::Sum,
+    KvMetricValueField::ProcessCpuUsagePercent,
+    KV_METRIC_OWNER_AND_EXTERNAL_LIKE_ROLES,
+)];
 
 const KV_METRIC_SPECS: &[KvMetricSpec] = &[
-    KvMetricSpec {
-        key: "put_rps",
-        label: "Put RPS",
-        unit: "rps",
-        aggregate: KvMetricAggregate::Sum,
-        field: KvMetricValueField::PutRps,
-        roles: KV_METRIC_OWNER_AND_EXTERNAL_ROLES,
-    },
-    KvMetricSpec {
-        key: "get_rps",
-        label: "Get RPS",
-        unit: "rps",
-        aggregate: KvMetricAggregate::Sum,
-        field: KvMetricValueField::GetRps,
-        roles: KV_METRIC_OWNER_AND_EXTERNAL_ROLES,
-    },
-    KvMetricSpec {
-        key: "put_bps",
-        label: "Put B/s",
-        unit: "B/s",
-        aggregate: KvMetricAggregate::Sum,
-        field: KvMetricValueField::PutBps,
-        roles: KV_METRIC_OWNER_AND_EXTERNAL_ROLES,
-    },
-    KvMetricSpec {
-        key: "get_bps",
-        label: "Get B/s",
-        unit: "B/s",
-        aggregate: KvMetricAggregate::Sum,
-        field: KvMetricValueField::GetBps,
-        roles: KV_METRIC_OWNER_AND_EXTERNAL_ROLES,
-    },
-    KvMetricSpec {
-        key: "process_rss",
-        label: "Process RSS",
-        unit: "bytes",
-        aggregate: KvMetricAggregate::Sum,
-        field: KvMetricValueField::ProcessRss,
-        roles: KV_METRIC_OWNER_AND_EXTERNAL_ROLES,
-    },
-    KvMetricSpec {
-        key: "seg_used_bytes",
-        label: "Segment Used",
-        unit: "bytes",
-        aggregate: KvMetricAggregate::Sum,
-        field: KvMetricValueField::SegUsedBytes,
-        roles: KV_METRIC_OWNER_ONLY_ROLES,
-    },
-    KvMetricSpec {
-        key: "tokio_global_queue_depth",
-        label: "Tokio Queue Depth",
-        unit: "count",
-        aggregate: KvMetricAggregate::Sum,
-        field: KvMetricValueField::TokioGlobalQueueDepth,
-        roles: KV_METRIC_OWNER_ONLY_ROLES,
-    },
-    KvMetricSpec {
-        key: "tokio_busy_percent",
-        label: "Tokio Busy %",
-        unit: "percent",
-        aggregate: KvMetricAggregate::Max,
-        field: KvMetricValueField::TokioBusyPercent,
-        roles: KV_METRIC_OWNER_ONLY_ROLES,
-    },
+    KvMetricSpec::single(
+        "put_rps",
+        "Put RPS",
+        "rps",
+        KvMetricAggregate::Sum,
+        KvMetricValueField::PutRps,
+        KV_METRIC_OWNER_AND_EXTERNAL_ROLES,
+    ),
+    KvMetricSpec::single(
+        "get_rps",
+        "Get RPS",
+        "rps",
+        KvMetricAggregate::Sum,
+        KvMetricValueField::GetRps,
+        KV_METRIC_OWNER_AND_EXTERNAL_ROLES,
+    ),
+    KvMetricSpec::single(
+        "get_cache_hit_rate_percent",
+        "Cache Hit %",
+        "percent",
+        KvMetricAggregate::Mean,
+        KvMetricValueField::GetCacheHitRatePercent,
+        KV_METRIC_OWNER_ONLY_ROLES,
+    ),
+    KvMetricSpec::single(
+        "put_bps",
+        "Put B/s",
+        "B/s",
+        KvMetricAggregate::Sum,
+        KvMetricValueField::PutBps,
+        KV_METRIC_OWNER_AND_EXTERNAL_ROLES,
+    ),
+    KvMetricSpec::single(
+        "get_bps",
+        "Get B/s",
+        "B/s",
+        KvMetricAggregate::Sum,
+        KvMetricValueField::GetBps,
+        KV_METRIC_OWNER_AND_EXTERNAL_ROLES,
+    ),
+    KvMetricSpec::single(
+        "process_cpu_usage_percent",
+        "CPU Util %",
+        "percent",
+        KvMetricAggregate::Sum,
+        KvMetricValueField::ProcessCpuUsagePercent,
+        KV_METRIC_OWNER_AND_EXTERNAL_LIKE_ROLES,
+    ),
+    KvMetricSpec::paired_with_additional(
+        KvMetricSeriesSpec::new(
+            "node_cpu_usage_percent",
+            "Node CPU",
+            "Used",
+            "percent",
+            KvMetricAggregate::Sum,
+            KvMetricValueField::NodeCpuUsagePercent,
+        ),
+        KvMetricSeriesSpec::new(
+            "node_cpu_capacity_percent",
+            "Capacity",
+            "Capacity",
+            "percent",
+            KvMetricAggregate::Sum,
+            KvMetricValueField::NodeCpuCapacityPercent,
+        ),
+        KV_NODE_CPU_ADDITIONAL_SPECS,
+        KV_METRIC_OWNER_ONLY_ROLES,
+    ),
+    KvMetricSpec::paired(
+        KvMetricSeriesSpec::new(
+            "process_network_tx_mbps",
+            "Process Network",
+            "TX",
+            "mbps",
+            KvMetricAggregate::Sum,
+            KvMetricValueField::ProcessNetworkTxMbps,
+        ),
+        KvMetricSeriesSpec::new(
+            "process_network_rx_mbps",
+            "RX",
+            "RX",
+            "mbps",
+            KvMetricAggregate::Sum,
+            KvMetricValueField::ProcessNetworkRxMbps,
+        ),
+        KV_METRIC_OWNER_AND_EXTERNAL_LIKE_ROLES,
+    ),
+    KvMetricSpec::paired_with_additional(
+        KvMetricSeriesSpec::new(
+            "node_memory_usage_bytes",
+            "Node Memory",
+            "Used",
+            "bytes",
+            KvMetricAggregate::Sum,
+            KvMetricValueField::NodeMemoryUsageBytes,
+        ),
+        KvMetricSeriesSpec::new(
+            "node_memory_total_bytes",
+            "Total",
+            "Total",
+            "bytes",
+            KvMetricAggregate::Sum,
+            KvMetricValueField::NodeMemoryTotalBytes,
+        ),
+        KV_NODE_MEMORY_ADDITIONAL_SPECS,
+        KV_METRIC_OWNER_ONLY_ROLES,
+    ),
+    KvMetricSpec::paired(
+        KvMetricSeriesSpec::new(
+            "node_network_tx_mbps",
+            "Node Network",
+            "TX",
+            "mbps",
+            KvMetricAggregate::Sum,
+            KvMetricValueField::NodeNetworkTxMbps,
+        ),
+        KvMetricSeriesSpec::new(
+            "node_network_rx_mbps",
+            "RX",
+            "RX",
+            "mbps",
+            KvMetricAggregate::Sum,
+            KvMetricValueField::NodeNetworkRxMbps,
+        ),
+        KV_METRIC_OWNER_ONLY_ROLES,
+    ),
+    KvMetricSpec::single(
+        "process_rss",
+        "Process RSS",
+        "bytes",
+        KvMetricAggregate::Sum,
+        KvMetricValueField::ProcessRss,
+        KV_METRIC_OWNER_AND_EXTERNAL_LIKE_ROLES,
+    ),
+    KvMetricSpec::paired(
+        KvMetricSeriesSpec::new(
+            "seg_used_bytes",
+            "Segment Usage",
+            "Used",
+            "bytes",
+            KvMetricAggregate::Sum,
+            KvMetricValueField::SegUsedBytes,
+        ),
+        KvMetricSeriesSpec::new(
+            "seg_capacity_bytes",
+            "Capacity",
+            "Capacity",
+            "bytes",
+            KvMetricAggregate::Sum,
+            KvMetricValueField::SegCapacityBytes,
+        ),
+        KV_METRIC_OWNER_ONLY_ROLES,
+    ),
+    KvMetricSpec::paired(
+        KvMetricSeriesSpec::new(
+            "gpu_memory_used",
+            "GPU Memory",
+            "Used",
+            "bytes",
+            KvMetricAggregate::Sum,
+            KvMetricValueField::GpuMemoryUsed,
+        ),
+        KvMetricSeriesSpec::new(
+            "gpu_memory_total",
+            "Total",
+            "Total",
+            "bytes",
+            KvMetricAggregate::Sum,
+            KvMetricValueField::GpuMemoryTotal,
+        ),
+        KV_METRIC_SYSTEM_ROLES,
+    ),
+    KvMetricSpec::single(
+        "gpu_utilization_percent",
+        "GPU Util %",
+        "percent",
+        KvMetricAggregate::Sum,
+        KvMetricValueField::GpuUtilizationPercent,
+        KV_METRIC_SYSTEM_ROLES,
+    ),
+    KvMetricSpec::single(
+        "gpu_temperature_celsius",
+        "GPU Temp",
+        "celsius",
+        KvMetricAggregate::Max,
+        KvMetricValueField::GpuTemperatureCelsius,
+        KV_METRIC_SYSTEM_ROLES,
+    ),
+    KvMetricSpec::single(
+        "gpu_process_count",
+        "GPU Proc Count",
+        "count",
+        KvMetricAggregate::Sum,
+        KvMetricValueField::GpuProcessCount,
+        KV_METRIC_SYSTEM_ROLES,
+    ),
+    KvMetricSpec::single(
+        "gpu_process_sm_utilization_percent",
+        "GPU Proc SM %",
+        "percent",
+        KvMetricAggregate::Sum,
+        KvMetricValueField::GpuProcessSmUtilizationPercent,
+        KV_METRIC_SYSTEM_ROLES,
+    ),
+    KvMetricSpec::single(
+        "gpu_process_memory_utilization_percent",
+        "GPU Proc Mem %",
+        "percent",
+        KvMetricAggregate::Sum,
+        KvMetricValueField::GpuProcessMemoryUtilizationPercent,
+        KV_METRIC_SYSTEM_ROLES,
+    ),
+    KvMetricSpec::single(
+        "tokio_global_queue_depth",
+        "Tokio Queue Depth",
+        "count",
+        KvMetricAggregate::Sum,
+        KvMetricValueField::TokioGlobalQueueDepth,
+        KV_METRIC_OWNER_ONLY_ROLES,
+    ),
+    KvMetricSpec::single(
+        "tokio_busy_percent",
+        "Tokio Busy %",
+        "percent",
+        KvMetricAggregate::Max,
+        KvMetricValueField::TokioBusyPercent,
+        KV_METRIC_OWNER_ONLY_ROLES,
+    ),
 ];
 
 fn kv_metric_spec_by_key(key: &str) -> Option<KvMetricSpec> {
@@ -634,11 +1017,34 @@ fn kv_metric_meta(spec: KvMetricSpec) -> KvMetricMetaWire {
     KvMetricMetaWire {
         key: spec.key.to_string(),
         label: spec.label.to_string(),
+        series_label: spec.series_label.to_string(),
+        unit: spec.unit.to_string(),
+        aggregate: spec.aggregate.as_str().to_string(),
+    }
+}
+
+fn kv_metric_meta_from_series(spec: KvMetricSeriesSpec) -> KvMetricMetaWire {
+    KvMetricMetaWire {
+        key: spec.key.to_string(),
+        label: spec.label.to_string(),
+        series_label: spec.series_label.to_string(),
         unit: spec.unit.to_string(),
         aggregate: spec.aggregate.as_str().to_string(),
     }
 }
 
+fn kv_metric_comparison_meta(spec: KvMetricSpec) -> Option<KvMetricMetaWire> {
+    spec.comparison.map(kv_metric_meta_from_series)
+}
+
+fn kv_metric_additional_meta(spec: KvMetricSpec) -> Vec<KvMetricMetaWire> {
+    spec.additional
+        .iter()
+        .copied()
+        .map(kv_metric_meta_from_series)
+        .collect()
+}
+
 fn parse_kv_metric_window(raw: Option<&str>) -> Result<(String, f64, u64), String> {
     match raw.unwrap_or("15m") {
         "5m" => Ok(("5m".to_string(), 5.0 * 60.0, 5)),
@@ -683,26 +1089,86 @@ fn parse_member_roles_list(raw: Option<&Vec<String>>) -> Result<Option<Vec<Membe
     Ok(Some(out))
 }
 
-fn kv_metric_promql_for_member(spec: KvMetricSpec, member_id: &str) -> String {
-    match spec.field {
-        KvMetricValueField::PutRps => format!(
-            "sum_over_time(kv_op_end_event{{node={member_id:?},op=\"put\",status=\"success\"}}[1s])"
-        ),
+fn kv_metric_promql_for_field(field: KvMetricValueField, member_id: &str) -> String {
+    match field {
+        KvMetricValueField::PutRps => {
+            format!("sum(kv_op_end_event_rps{{node={member_id:?},op=\"put\",status=\"success\"}})")
+        }
         KvMetricValueField::GetRps => format!(
-            "sum_over_time(kv_op_end_event{{node={member_id:?},op=\"get\",status=~\"hit|success\"}}[1s])"
+            "sum(kv_op_end_event_rps{{node={member_id:?},op=\"get\",status=~\"hit|success\"}})"
         ),
+        KvMetricValueField::GetCacheHitRatePercent => {
+            format!("kv_get_cache_hit_rate_percent{{node={member_id:?}}}")
+        }
         KvMetricValueField::PutBps => format!(
-            "sum_over_time(kv_op_end_bytes{{node={member_id:?},op=\"put\",status=\"success\"}}[1s])"
+            "sum(kv_op_end_bytes_per_sec{{node={member_id:?},op=\"put\",status=\"success\"}})"
         ),
         KvMetricValueField::GetBps => format!(
-            "sum_over_time(kv_op_end_bytes{{node={member_id:?},op=\"get\",status=~\"hit|success\"}}[1s])"
+            "sum(kv_op_end_bytes_per_sec{{node={member_id:?},op=\"get\",status=~\"hit|success\"}})"
         ),
+        KvMetricValueField::ProcessCpuUsagePercent => {
+            format!("process_cpu_usage_percent{{node={member_id:?}}}")
+        }
+        KvMetricValueField::NodeCpuUsagePercent => {
+            format!(
+                "node_cpu_usage_percent{{node={member_id:?}}} * node_cpu_logical_cores{{node={member_id:?}}}"
+            )
+        }
+        KvMetricValueField::NodeCpuCapacityPercent => {
+            format!("node_cpu_logical_cores{{node={member_id:?}}} * 100")
+        }
+        KvMetricValueField::ProcessNetworkTxMbps => {
+            format!("{PROM_METRIC_CLIENT_NETWORK_MBPS}{{node={member_id:?},direction=\"tx\"}}")
+        }
+        KvMetricValueField::ProcessNetworkRxMbps => {
+            format!("{PROM_METRIC_CLIENT_NETWORK_MBPS}{{node={member_id:?},direction=\"rx\"}}")
+        }
+        KvMetricValueField::NodeMemoryUsageBytes => {
+            format!("node_memory_usage_bytes{{node={member_id:?}}}")
+        }
+        KvMetricValueField::NodeMemoryTotalBytes => {
+            format!("node_memory_total_bytes{{node={member_id:?}}}")
+        }
+        KvMetricValueField::NodeNetworkTxMbps => {
+            format!(
+                "sum(rate(node_network_transmit_bytes_total{{node={member_id:?}}}[2m])) * 8 / 1000000"
+            )
+        }
+        KvMetricValueField::NodeNetworkRxMbps => {
+            format!(
+                "sum(rate(node_network_receive_bytes_total{{node={member_id:?}}}[2m])) * 8 / 1000000"
+            )
+        }
         KvMetricValueField::ProcessRss => {
             format!("process_resident_memory_bytes{{node={member_id:?}}}")
         }
+        KvMetricValueField::GpuMemoryUsed => {
+            format!("sum(gpu_memory_used_bytes{{node={member_id:?}}})")
+        }
+        KvMetricValueField::GpuMemoryTotal => {
+            format!("sum(gpu_memory_total_bytes{{node={member_id:?}}})")
+        }
+        KvMetricValueField::GpuUtilizationPercent => {
+            format!("sum(gpu_utilization_percent{{node={member_id:?}}})")
+        }
+        KvMetricValueField::GpuTemperatureCelsius => {
+            format!("max(gpu_temperature_celsius{{node={member_id:?}}})")
+        }
+        KvMetricValueField::GpuProcessCount => {
+            format!("sum(gpu_process_count{{node={member_id:?}}})")
+        }
+        KvMetricValueField::GpuProcessSmUtilizationPercent => {
+            format!("sum(gpu_process_sm_utilization_percent{{node={member_id:?}}})")
+        }
+        KvMetricValueField::GpuProcessMemoryUtilizationPercent => {
+            format!("sum(gpu_process_memory_utilization_percent{{node={member_id:?}}})")
+        }
         KvMetricValueField::SegUsedBytes => {
             format!("sum(kvcache_segment_used_bytes{{node={member_id:?}}})")
         }
+        KvMetricValueField::SegCapacityBytes => {
+            format!("sum(kvcache_segment_capacity_bytes{{node={member_id:?}}})")
+        }
         KvMetricValueField::TokioGlobalQueueDepth => {
             format!("tokio_global_queue_depth{{node={member_id:?}}}")
         }
@@ -712,6 +1178,10 @@ fn kv_metric_promql_for_member(spec: KvMetricSpec, member_id: &str) -> String {
     }
 }
 
+fn kv_metric_promql_for_member(spec: KvMetricSpec, member_id: &str) -> String {
+    kv_metric_promql_for_field(spec.field, member_id)
+}
+
 #[derive(Debug, Clone)]
 struct KvMetricMemberRef {
     member_id: String,
@@ -719,6 +1189,58 @@ struct KvMetricMemberRef {
     node_key: String,
 }
 
+#[derive(Debug, Clone)]
+struct KvMetricOwnerRef {
+    owner_id: String,
+    node_key: String,
+    members: Vec<KvMetricMemberRef>,
+}
+
+fn kv_metric_member_matches(
+    member: &crate::model::MemberSnapshot,
+    spec: KvMetricSpec,
+    visible_roles: Option<&Vec<MemberRole>>,
+) -> bool {
+    if !spec.roles.contains(&member.role) {
+        return false;
+    }
+    if let Some(v) = visible_roles {
+        if !v.contains(&member.role) {
+            return false;
+        }
+    }
+    true
+}
+
+fn kv_metric_series_member_matches(
+    member: &crate::model::MemberSnapshot,
+    spec: KvMetricSeriesSpec,
+    visible_roles: Option<&Vec<MemberRole>>,
+) -> bool {
+    if let Some(roles) = spec.roles {
+        if !roles.contains(&member.role) {
+            return false;
+        }
+    }
+    if let Some(v) = visible_roles {
+        if !v.contains(&member.role) {
+            return false;
+        }
+    }
+    true
+}
+
+fn kv_metric_member_ref(
+    member: &crate::model::MemberSnapshot,
+    node_key: &str,
+) -> KvMetricMemberRef {
+    KvMetricMemberRef {
+        member_id: member.member_id.clone(),
+        role: member.role,
+        node_key: node_key.to_string(),
+    }
+}
+
 fn select_kv_metric_members(
     snapshot: &crate::model::ClusterSnapshot,
     spec: KvMetricSpec,
@@ -727,22 +1249,70 @@ fn select_kv_metric_members(
     let mut out = Vec::new();
     for node in &snapshot.nodes {
         for member in &node.members {
-            if !spec.roles.contains(&member.role) {
+            if !kv_metric_member_matches(member, spec, visible_roles) {
                 continue;
             }
-            if let Some(v) = visible_roles {
-                if !v.contains(&member.role) {
-                    continue;
-                }
+            out.push(kv_metric_member_ref(member, &node.node_key));
+        }
+    }
+    out
+}
+
+fn select_kv_metric_owner_groups(
+    snapshot: &crate::model::ClusterSnapshot,
+    spec: KvMetricSpec,
+    visible_roles: Option<&Vec<MemberRole>>,
+) -> (Vec<KvMetricOwnerRef>, Vec<String>) {
+    let mut out = Vec::new();
+    let mut warnings = Vec::new();
+
+    for node in &snapshot.nodes {
+        let mut owners = node
+            .members
+            .iter()
+            .filter(|m| m.role == MemberRole::OwnerClient)
+            .collect::<Vec<_>>();
+        owners.sort_by(|a, b| a.member_id.cmp(&b.member_id));
+        if owners.is_empty() {
+            continue;
+        }
+
+        if owners.len() == 1 {
+            let members = node
+                .members
+                .iter()
+                .filter(|member| kv_metric_member_matches(member, spec, visible_roles))
+                .map(|member| kv_metric_member_ref(member, &node.node_key))
+                .collect::<Vec<_>>();
+            if members.is_empty() {
+                continue;
             }
-            out.push(KvMetricMemberRef {
-                member_id: member.member_id.clone(),
-                role: member.role,
+            out.push(KvMetricOwnerRef {
+                owner_id: owners[0].member_id.clone(),
                 node_key: node.node_key.clone(),
+                members,
+            });
+            continue;
+        }
+
+        warnings.push(format!(
+            "metric {} owner view: multiple owner_client members under node_key={}, grouping owner_client members only",
+            spec.key, node.node_key
+        ));
+        for owner in owners {
+            if !kv_metric_member_matches(owner, spec, visible_roles) {
+                continue;
+            }
+            out.push(KvMetricOwnerRef {
+                owner_id: owner.member_id.clone(),
+                node_key: node.node_key.clone(),
+                members: vec![kv_metric_member_ref(owner, &node.node_key)],
             });
         }
     }
-    out
+
+    out.sort_by(|a, b| a.owner_id.cmp(&b.owner_id));
+    (out, warnings)
 }
 
 fn prom_regex_escape_literal_local(s: &str) -> String {
@@ -775,28 +1345,104 @@ fn prom_regex_union_exact_local(ids: &[String]) -> Option<String> {
     }
 }
 
-fn kv_metric_aggregate_promql(spec: KvMetricSpec, member_ids: &[String]) -> Result<String, String> {
+fn kv_metric_aggregate_promql_for_field(
+    field: KvMetricValueField,
+    aggregate: KvMetricAggregate,
+    member_ids: &[String],
+) -> Result<String, String> {
     let member_regex = prom_regex_union_exact_local(member_ids)
         .ok_or_else(|| "no visible members for metric".to_string())?;
-    let promql = match spec.field {
+    let promql = match field {
         KvMetricValueField::PutRps => format!(
-            "sum(sum_over_time(kv_op_end_event{{node=~{member_regex:?},op=\"put\",status=\"success\"}}[1s]))"
+            "sum(kv_op_end_event_rps{{node=~{member_regex:?},op=\"put\",status=\"success\"}})"
         ),
         KvMetricValueField::GetRps => format!(
-            "sum(sum_over_time(kv_op_end_event{{node=~{member_regex:?},op=\"get\",status=~\"hit|success\"}}[1s]))"
+            "sum(kv_op_end_event_rps{{node=~{member_regex:?},op=\"get\",status=~\"hit|success\"}})"
         ),
+        KvMetricValueField::GetCacheHitRatePercent => {
+            format!("avg(kv_get_cache_hit_rate_percent{{node=~{member_regex:?}}})")
+        }
         KvMetricValueField::PutBps => format!(
-            "sum(sum_over_time(kv_op_end_bytes{{node=~{member_regex:?},op=\"put\",status=\"success\"}}[1s]))"
+            "sum(kv_op_end_bytes_per_sec{{node=~{member_regex:?},op=\"put\",status=\"success\"}})"
         ),
         KvMetricValueField::GetBps => format!(
-            "sum(sum_over_time(kv_op_end_bytes{{node=~{member_regex:?},op=\"get\",status=~\"hit|success\"}}[1s]))"
+            "sum(kv_op_end_bytes_per_sec{{node=~{member_regex:?},op=\"get\",status=~\"hit|success\"}})"
         ),
+        KvMetricValueField::ProcessCpuUsagePercent => match aggregate {
+            KvMetricAggregate::Mean => {
+                format!("avg(process_cpu_usage_percent{{node=~{member_regex:?}}})")
+            }
+            KvMetricAggregate::Max => {
+                format!("max(process_cpu_usage_percent{{node=~{member_regex:?}}})")
+            }
+            KvMetricAggregate::Sum => {
+                format!("sum(process_cpu_usage_percent{{node=~{member_regex:?}}})")
+            }
+        },
+        KvMetricValueField::NodeCpuUsagePercent => {
+            format!(
+                "sum(node_cpu_usage_percent{{node=~{member_regex:?}}} * node_cpu_logical_cores{{node=~{member_regex:?}}})"
+            )
+        }
+        KvMetricValueField::NodeCpuCapacityPercent => {
+            format!("sum(node_cpu_logical_cores{{node=~{member_regex:?}}} * 100)")
+        }
+        KvMetricValueField::ProcessNetworkTxMbps => {
+            format!(
+                "sum({PROM_METRIC_CLIENT_NETWORK_MBPS}{{node=~{member_regex:?},direction=\"tx\"}})"
+            )
+        }
+        KvMetricValueField::ProcessNetworkRxMbps => {
+            format!(
+                "sum({PROM_METRIC_CLIENT_NETWORK_MBPS}{{node=~{member_regex:?},direction=\"rx\"}})"
+            )
+        }
+        KvMetricValueField::NodeMemoryUsageBytes => {
+            format!("sum(node_memory_usage_bytes{{node=~{member_regex:?}}})")
+        }
+        KvMetricValueField::NodeMemoryTotalBytes => {
+            format!("sum(node_memory_total_bytes{{node=~{member_regex:?}}})")
+        }
+        KvMetricValueField::NodeNetworkTxMbps => {
+            format!(
+                "sum(rate(node_network_transmit_bytes_total{{node=~{member_regex:?}}}[2m])) * 8 / 1000000"
+            )
+        }
+        KvMetricValueField::NodeNetworkRxMbps => {
+            format!(
+                "sum(rate(node_network_receive_bytes_total{{node=~{member_regex:?}}}[2m])) * 8 / 1000000"
+            )
+        }
         KvMetricValueField::ProcessRss => {
             format!("sum(process_resident_memory_bytes{{node=~{member_regex:?}}})")
         }
+        KvMetricValueField::GpuMemoryUsed => {
+            format!("sum(gpu_memory_used_bytes{{node=~{member_regex:?}}})")
+        }
+        KvMetricValueField::GpuMemoryTotal => {
+            format!("sum(gpu_memory_total_bytes{{node=~{member_regex:?}}})")
+        }
+        KvMetricValueField::GpuUtilizationPercent => {
+            format!("sum(gpu_utilization_percent{{node=~{member_regex:?}}})")
+        }
+        KvMetricValueField::GpuTemperatureCelsius => {
+            format!("max(gpu_temperature_celsius{{node=~{member_regex:?}}})")
+        }
+        KvMetricValueField::GpuProcessCount => {
+            format!("sum(gpu_process_count{{node=~{member_regex:?}}})")
+        }
+        KvMetricValueField::GpuProcessSmUtilizationPercent => {
+            format!("sum(gpu_process_sm_utilization_percent{{node=~{member_regex:?}}})")
+        }
+        KvMetricValueField::GpuProcessMemoryUtilizationPercent => {
+            format!("sum(gpu_process_memory_utilization_percent{{node=~{member_regex:?}}})")
+        }
         KvMetricValueField::SegUsedBytes => {
             format!("sum(kvcache_segment_used_bytes{{node=~{member_regex:?}}})")
         }
+        KvMetricValueField::SegCapacityBytes => {
+            format!("sum(kvcache_segment_capacity_bytes{{node=~{member_regex:?}}})")
+        }
         KvMetricValueField::TokioGlobalQueueDepth => {
             format!("sum(tokio_global_queue_depth{{node=~{member_regex:?}}})")
         }
@@ -807,6 +1453,194 @@ fn kv_metric_aggregate_promql(spec: KvMetricSpec, member_ids: &[String]) -> Resu
     Ok(promql)
 }
 
+fn kv_metric_aggregate_promql(spec: KvMetricSpec, member_ids: &[String]) -> Result<String, String> {
+    kv_metric_aggregate_promql_for_field(spec.field, spec.aggregate, member_ids)
+}
+
+fn kv_metric_series_from_range(range: Vec<crate::prom::PromRangeSeries>) -> Vec<(f64, f64)> {
+    range
+        .into_iter()
+        .flat_map(|series| {
+            series
+                .values
+                .into_iter()
+                .filter_map(|(ts, value)| value.parse::<f64>().ok().map(|v| (ts, v)))
+        })
+        .collect::<Vec<_>>()
+}
+
+async fn query_kv_metric_member_series(
+    prom: &PromClient,
+    spec: KvMetricSpec,
+    member: KvMetricMemberRef,
+    start_s: f64,
+    end_s: f64,
+    step: &str,
+    warnings: &mut Vec<String>,
+) -> Option<KvMemberSeriesWire> {
+    let promql = kv_metric_promql_for_member(spec, &member.member_id);
+    let range = match prom.query_range(&promql, start_s, end_s, step).await {
+        Ok(v) => v,
+        Err(e) => {
+            warnings.push(format!(
+                "metric {} member {} query_range failed: {}",
+                spec.key, member.member_id, e
+            ));
+            return None;
+        }
+    };
+    let series = kv_metric_series_from_range(range);
+    Some(KvMemberSeriesWire {
+        member_id: member.member_id,
+        role: member.role.as_str().to_string(),
+        node_key: member.node_key,
+        latest: series.last().map(|(_, v)| *v),
+        series,
+        comparison_latest: None,
+        comparison_series: Vec::new(),
+        additional_series: Vec::new(),
+    })
+}
+
+async fn query_kv_metric_series_for_field(
+    prom: &PromClient,
+    field: KvMetricValueField,
+    member_id: &str,
+    start_s: f64,
+    end_s: f64,
+    step: &str,
+) -> Result<Vec<(f64, f64)>, String> {
+    let promql = kv_metric_promql_for_field(field, member_id);
+    prom.query_range(&promql, start_s, end_s, step)
+        .await
+        .map(kv_metric_series_from_range)
+        .map_err(|e| e.to_string())
+}
+
+async fn query_kv_metric_additional_aggregate_series(
+    prom: &PromClient,
+    spec: KvMetricSeriesSpec,
+    member_ids: &[String],
+    start_s: f64,
+    end_s: f64,
+    step: &str,
+) -> Result<KvMetricAdditionalSeriesWire, String> {
+    let promql = kv_metric_aggregate_promql_for_field(spec.field, spec.aggregate, member_ids)?;
+    let series = prom
+        .query_range(&promql, start_s, end_s, step)
+        .await
+        .map(kv_metric_series_from_range)
+        .map_err(|e| e.to_string())?;
+    Ok(KvMetricAdditionalSeriesWire {
+        metric: kv_metric_meta_from_series(spec),
+        latest: series.last().map(|(_, v)| *v),
+        series,
+    })
+}
+
+async fn query_kv_metric_additional_member_series(
+    prom: &PromClient,
+    spec: KvMetricSeriesSpec,
+    member_id: &str,
+    start_s: f64,
+    end_s: f64,
+    step: &str,
+) -> Result<KvMetricAdditionalSeriesWire, String> {
+    let series =
+        query_kv_metric_series_for_field(prom, spec.field, member_id, start_s, end_s, step).await?;
+    Ok(KvMetricAdditionalSeriesWire {
+        metric: kv_metric_meta_from_series(spec),
+        latest: series.last().map(|(_, v)| *v),
+        series,
+    })
+}
+
+fn kv_metric_additional_members_for_node(
+    snapshot: &crate::model::ClusterSnapshot,
+    node_key: &str,
+    spec: KvMetricSeriesSpec,
+    visible_roles: Option<&Vec<MemberRole>>,
+) -> Vec<KvMetricMemberRef> {
+    let mut out = Vec::new();
+    let mut seen = BTreeSet::new();
+    for node in &snapshot.nodes {
+        if node.node_key != node_key {
+            continue;
+        }
+        for member in &node.members {
+            if !kv_metric_series_member_matches(member, spec, visible_roles) {
+                continue;
+            }
+            if seen.insert(member.member_id.clone()) {
+                out.push(kv_metric_member_ref(member, &node.node_key));
+            }
+        }
+    }
+    out
+}
+
+fn sort_kv_member_series_rows(rows: &mut [KvMemberSeriesWire]) {
+    rows.sort_by(|a, b| {
+        let av = a.latest.unwrap_or(f64::NEG_INFINITY);
+        let bv = b.latest.unwrap_or(f64::NEG_INFINITY);
+        bv.partial_cmp(&av)
+            .unwrap_or(std::cmp::Ordering::Equal)
+            .then_with(|| a.member_id.cmp(&b.member_id))
+    });
+}
+
+fn aggregate_kv_member_series(
+    aggregate: KvMetricAggregate,
+    members: &[KvMemberSeriesWire],
+) -> Vec<(f64, f64)> {
+    let mut by_ts: BTreeMap<i64, f64> = BTreeMap::new();
+    let mut counts_by_ts: BTreeMap<i64, usize> = BTreeMap::new();
+    for member in members {
+        for (ts, value) in &member.series {
+            if !ts.is_finite() || !value.is_finite() {
+                continue;
+            }
+            let ts_ms = (*ts * 1000.0).round() as i64;
+            match aggregate {
+                KvMetricAggregate::Sum => {
+                    *by_ts.entry(ts_ms).or_insert(0.0) += *value;
+                }
+                KvMetricAggregate::Max => {
+                    by_ts
+                        .entry(ts_ms)
+                        .and_modify(|cur| {
+                            if *value > *cur {
+                                *cur = *value;
+                            }
+                        })
+                        .or_insert(*value);
+                }
+                KvMetricAggregate::Mean => {
+                    *by_ts.entry(ts_ms).or_insert(0.0) += *value;
+                    *counts_by_ts.entry(ts_ms).or_insert(0) += 1;
+                }
+            }
+        }
+    }
+    by_ts
+        .into_iter()
+        .map(|(ts_ms, value)| {
+            let value = match aggregate {
+                KvMetricAggregate::Mean => {
+                    let count = counts_by_ts.get(&ts_ms).copied().unwrap_or(0);
+                    if count == 0 {
+                        value
+                    } else {
+                        value / count as f64
+                    }
+                }
+                _ => value,
+            };
+            (ts_ms as f64 / 1000.0, value)
+        })
+        .collect()
+}
+
 async fn kv_metric_panel(
     State(st): State<Arc<AppState>>,
     Query(q): Query<KvMetricPanelQuery>,
@@ -863,8 +1697,12 @@ async fn kv_metric_panel(
         if members.is_empty() {
             cards.push(KvAggregateMetricCardWire {
                 metric: kv_metric_meta(spec),
+                comparison_metric: kv_metric_comparison_meta(spec),
                 latest: None,
                 aggregate_series: Vec::new(),
+                comparison_latest: None,
+                comparison_series: Vec::new(),
+                additional_series: Vec::new(),
             });
             continue;
         }
@@ -878,8 +1716,12 @@ async fn kv_metric_panel(
                 warnings.push(format!("metric {} unavailable: {}", spec.key, e));
                 cards.push(KvAggregateMetricCardWire {
                     metric: kv_metric_meta(spec),
+                    comparison_metric: kv_metric_comparison_meta(spec),
                     latest: None,
                     aggregate_series: Vec::new(),
+                    comparison_latest: None,
+                    comparison_series: Vec::new(),
+                    additional_series: Vec::new(),
                 });
                 continue;
             }
@@ -890,26 +1732,114 @@ async fn kv_metric_panel(
                 warnings.push(format!("metric {} query_range failed: {}", spec.key, e));
                 cards.push(KvAggregateMetricCardWire {
                     metric: kv_metric_meta(spec),
+                    comparison_metric: kv_metric_comparison_meta(spec),
                     latest: None,
                     aggregate_series: Vec::new(),
+                    comparison_latest: None,
+                    comparison_series: Vec::new(),
+                    additional_series: Vec::new(),
                 });
                 continue;
             }
         };
-        let aggregate_series = range
-            .into_iter()
-            .flat_map(|series| {
-                series
-                    .values
-                    .into_iter()
-                    .filter_map(|(ts, value)| value.parse::<f64>().ok().map(|v| (ts, v)))
-            })
-            .collect::<Vec<_>>();
+        let aggregate_series = kv_metric_series_from_range(range);
         let latest = aggregate_series.last().map(|(_, v)| *v);
+        let member_node_keys = members
+            .iter()
+            .map(|m| m.node_key.clone())
+            .collect::<BTreeSet<_>>();
+        let (comparison_latest, comparison_series) = match spec.comparison {
+            Some(comparison) => {
+                let comparison_promql = match kv_metric_aggregate_promql_for_field(
+                    comparison.field,
+                    comparison.aggregate,
+                    &member_ids,
+                ) {
+                    Ok(v) => v,
+                    Err(e) => {
+                        warnings.push(format!("metric {} comparison unavailable: {}", spec.key, e));
+                        String::new()
+                    }
+                };
+                if comparison_promql.is_empty() {
+                    (None, Vec::new())
+                } else {
+                    match prom
+                        .query_range(&comparison_promql, start_s, end_s, &step)
+                        .await
+                    {
+                        Ok(v) => {
+                            let series = kv_metric_series_from_range(v);
+                            (series.last().map(|(_, v)| *v), series)
+                        }
+                        Err(e) => {
+                            warnings.push(format!(
+                                "metric {} comparison query_range failed: {}",
+                                spec.key, e
+                            ));
+                            (None, Vec::new())
+                        }
+                    }
+                }
+            }
+            None => (None, Vec::new()),
+        };
+        let mut additional_series = Vec::with_capacity(spec.additional.len());
+        for additional in spec.additional.iter().copied() {
+            let mut additional_member_ids = Vec::new();
+            let mut seen = BTreeSet::new();
+            for node_key in &member_node_keys {
+                for member in kv_metric_additional_members_for_node(
+                    &snapshot,
+                    node_key,
+                    additional,
+                    visible_member_roles.as_ref(),
+                ) {
+                    if seen.insert(member.member_id.clone()) {
+                        additional_member_ids.push(member.member_id);
+                    }
+                }
+            }
+            if additional_member_ids.is_empty() {
+                additional_series.push(KvMetricAdditionalSeriesWire {
+                    metric: kv_metric_meta_from_series(additional),
+                    latest: None,
+                    series: Vec::new(),
+                });
+                continue;
+            }
+            match query_kv_metric_additional_aggregate_series(
+                &prom,
+                additional,
+                &additional_member_ids,
+                start_s,
+                end_s,
+                &step,
+            )
+            .await
+            {
+                Ok(row) => additional_series.push(row),
+                Err(e) => {
+                    warnings.push(format!(
+                        "metric {} additional {} query_range failed: {}",
+                        spec.key, additional.key, e
+                    ));
+                    additional_series.push(KvMetricAdditionalSeriesWire {
+                        metric: kv_metric_meta_from_series(additional),
+                        latest: None,
+                        series: Vec::new(),
+                    });
+                }
+            }
+        }
         cards.push(KvAggregateMetricCardWire {
             metric: kv_metric_meta(spec),
+            comparison_metric: kv_metric_comparison_meta(spec),
             latest,
             aggregate_series,
+            comparison_latest,
+            comparison_series,
+            additional_series,
         });
     }
 
@@ -1000,51 +1930,301 @@ async fn kv_metric_members(
     let mut warnings = snapshot.warnings.clone();
     let mut rows = Vec::with_capacity(members.len());
     for member in members {
-        let promql = kv_metric_promql_for_member(spec, &member.member_id);
-        let range = match prom.query_range(&promql, start_s, end_s, &step).await {
-            Ok(v) => v,
-            Err(e) => {
-                warnings.push(format!(
-                    "metric {} member {} query_range failed: {}",
-                    spec.key, member.member_id, e
-                ));
-                continue;
+        if let Some(mut row) =
+            query_kv_metric_member_series(&prom, spec, member, start_s, end_s, &step, &mut warnings)
+                .await
+        {
+            if let Some(comparison) = spec.comparison {
+                match query_kv_metric_series_for_field(
+                    &prom,
+                    comparison.field,
+                    &row.member_id,
+                    start_s,
+                    end_s,
+                    &step,
+                )
+                .await
+                {
+                    Ok(series) => {
+                        row.comparison_latest = series.last().map(|(_, v)| *v);
+                        row.comparison_series = series;
+                    }
+                    Err(e) => warnings.push(format!(
+                        "metric {} member {} comparison query_range failed: {}",
+                        spec.key, row.member_id, e
+                    )),
+                }
+            }
+            for additional in spec.additional.iter().copied() {
+                match query_kv_metric_additional_member_series(
+                    &prom,
+                    additional,
+                    &row.member_id,
+                    start_s,
+                    end_s,
+                    &step,
+                )
+                .await
+                {
+                    Ok(series) => row.additional_series.push(series),
+                    Err(e) => warnings.push(format!(
+                        "metric {} member {} additional {} query_range failed: {}",
+                        spec.key, row.member_id, additional.key, e
+                    )),
+                }
+            }
+            rows.push(row);
+        }
+    }
+    sort_kv_member_series_rows(&mut rows);
+
+    let mut resp = (
+        StatusCode::OK,
+        Json(KvMetricMembersResponse {
+            metric: kv_metric_meta(spec),
+            comparison_metric: kv_metric_comparison_meta(spec),
+            additional_metrics: kv_metric_additional_meta(spec),
+            range: KvMetricRangeWire {
+                window: window_label,
+                step_s,
+            },
+            members: rows,
+            warnings,
+        }),
+    )
+        .into_response();
+    resp.headers_mut().insert(
+        header::CONTENT_TYPE,
+        "application/json; charset=utf-8".parse().unwrap(),
+    );
+    resp
+}
+
+async fn kv_metric_owners(
+    State(st): State<Arc<AppState>>,
+    Query(q): Query<KvMetricMembersQuery>,
+) -> Response {
+    let Some(cluster_name) = q.cluster_name.as_ref() else {
+        return text_response(
+            StatusCode::BAD_REQUEST,
+            "missing query param: cluster_name".to_string(),
+        );
+    };
+    let Some(metric_key) = q.metric_key.as_ref() else {
+        return text_response(
+            StatusCode::BAD_REQUEST,
+            "missing query param: metric_key".to_string(),
+        );
+    };
+    let spec = match kv_metric_spec_by_key(metric_key) {
+        Some(v) => v,
+        None => {
+            return text_response(
+                StatusCode::BAD_REQUEST,
+                format!("invalid metric_key: {}", metric_key),
+            );
+        }
+    };
+    let visible_member_roles = match parse_member_roles_list(q.member_roles.as_ref()) {
+        Ok(v) => v,
+        Err(e) => return text_response(StatusCode::BAD_REQUEST, e),
+    };
+    let (window_label, window_secs, step_s) = match parse_kv_metric_window(q.window.as_deref()) {
+        Ok(v) => v,
+        Err(e) => return text_response(StatusCode::BAD_REQUEST, e),
+    };
+    let cfg = MonitorConfig {
+        etcd_endpoints: st.cfg.etcd_endpoints.clone(),
+        prometheus_base_url: st.cfg.prometheus_base_url.clone(),
+        cluster_name: cluster_name.clone(),
+        member_kind: MemberKind::Kv,
+        output: OutputFormat::Web,
+        mq_unique_key_prefixes: st.cfg.mq_unique_key_prefixes.clone(),
+        http_listen_addr: st.cfg.http_listen_addr.clone(),
+        greptime_sql: st.cfg.greptime_sql.clone(),
+    };
+    let snapshot = match crate::build_cluster_snapshot(&cfg).await {
+        Ok(v) => v,
+        Err(e) => {
+            return text_response(
+                StatusCode::BAD_GATEWAY,
+                format!("snapshot build failed: {}", e),
+            );
+        }
+    };
+    let (groups, mut owner_warnings) =
+        select_kv_metric_owner_groups(&snapshot, spec, visible_member_roles.as_ref());
+    let prom = PromClient::new(st.cfg.prometheus_base_url.clone());
+    let end_s = match prom.effective_query_time_s() {
+        Ok(v) => v,
+        Err(e) => {
+            return text_response(
+                StatusCode::BAD_GATEWAY,
+                format!("resolve query time failed: {}", e),
+            );
+        }
+    };
+    let start_s = (end_s - window_secs).max(0.0);
+    let step = format!("{}s", step_s);
+    let mut warnings = snapshot.warnings.clone();
+    warnings.append(&mut owner_warnings);
+
+    let mut owners = Vec::with_capacity(groups.len());
+    for group in groups {
+        let mut members = Vec::with_capacity(group.members.len());
+        for member in group.members.iter().cloned() {
+            if let Some(mut row) = query_kv_metric_member_series(
+                &prom,
+                spec,
+                member,
+                start_s,
+                end_s,
+                &step,
+                &mut warnings,
+            )
+            .await
+            {
+                if let Some(comparison) = spec.comparison {
+                    match query_kv_metric_series_for_field(
+                        &prom,
+                        comparison.field,
+                        &row.member_id,
+                        start_s,
+                        end_s,
+                        &step,
+                    )
+                    .await
+                    {
+                        Ok(series) => {
+                            row.comparison_latest = series.last().map(|(_, v)| *v);
+                            row.comparison_series = series;
+                        }
+                        Err(e) => warnings.push(format!(
+                            "metric {} member {} comparison query_range failed: {}",
+                            spec.key, row.member_id, e
+                        )),
+                    }
+                }
+                members.push(row);
             }
+        }
+        sort_kv_member_series_rows(&mut members);
+        let series = aggregate_kv_member_series(spec.aggregate, &members);
+        let (comparison_latest, comparison_series) = match spec.comparison {
+            Some(comparison) => {
+                let comparison_members = members
+                    .iter()
+                    .map(|member| KvMemberSeriesWire {
+                        member_id: member.member_id.clone(),
+                        role: member.role.clone(),
+                        node_key: member.node_key.clone(),
+                        latest: member.comparison_latest,
+                        series: member.comparison_series.clone(),
+                        comparison_latest: None,
+                        comparison_series: Vec::new(),
+                        additional_series: Vec::new(),
+                    })
+                    .collect::<Vec<_>>();
+                let comparison_series =
+                    aggregate_kv_member_series(comparison.aggregate, &comparison_members);
+                (comparison_series.last().map(|(_, v)| *v), comparison_series)
+            }
+            None => (None, Vec::new()),
         };
-        let series = range
-            .into_iter()
-            .flat_map(|series| {
-                series
-                    .values
-                    .into_iter()
-                    .filter_map(|(ts, value)| value.parse::<f64>().ok().map(|v| (ts, v)))
-            })
-            .collect::<Vec<_>>();
-        rows.push(KvMemberSeriesWire {
-            member_id: member.member_id,
-            role: member.role.as_str().to_string(),
-            node_key: member.node_key,
+        for member in &mut members {
+            for additional in spec.additional.iter().copied() {
+                match query_kv_metric_additional_member_series(
+                    &prom,
+                    additional,
+                    &member.member_id,
+                    start_s,
+                    end_s,
+                    &step,
+                )
+                .await
+                {
+                    Ok(row) => member.additional_series.push(row),
+                    Err(e) => warnings.push(format!(
+                        "metric {} member {} additional {} query_range failed: {}",
+                        spec.key, member.member_id, additional.key, e
+                    )),
+                }
+            }
+        }
+        let mut owner_additional_series = Vec::with_capacity(spec.additional.len());
+        for additional in spec.additional.iter().copied() {
+            let additional_members = kv_metric_additional_members_for_node(
+                &snapshot,
+                &group.node_key,
+                additional,
+                visible_member_roles.as_ref(),
+            );
+            let additional_member_ids = additional_members
+                .into_iter()
+                .map(|m| m.member_id)
+                .collect::<Vec<_>>();
+            if additional_member_ids.is_empty() {
+                owner_additional_series.push(KvMetricAdditionalSeriesWire {
+                    metric: kv_metric_meta_from_series(additional),
+                    latest: None,
+                    series: Vec::new(),
+                });
+                continue;
+            }
+            match query_kv_metric_additional_aggregate_series(
+                &prom,
+                additional,
+                &additional_member_ids,
+                start_s,
+                end_s,
+                &step,
+            )
+            .await
+            {
+                Ok(row) => owner_additional_series.push(row),
+                Err(e) => {
+                    warnings.push(format!(
+                        "metric {} owner {} additional {} query_range failed: {}",
+                        spec.key, group.owner_id, additional.key, e
+                    ));
+                    owner_additional_series.push(KvMetricAdditionalSeriesWire {
+                        metric: kv_metric_meta_from_series(additional),
+                        latest: None,
+                        series: Vec::new(),
+                    });
+                }
+            }
+        }
+        owners.push(KvOwnerSeriesWire {
+            owner_id: group.owner_id,
+            node_key: group.node_key,
             latest: series.last().map(|(_, v)| *v),
             series,
+            comparison_latest,
+            comparison_series,
+            additional_series: owner_additional_series,
+            members,
         });
     }
-    rows.sort_by(|a, b| {
+    owners.sort_by(|a, b| {
         let av = a.latest.unwrap_or(f64::NEG_INFINITY);
         let bv = b.latest.unwrap_or(f64::NEG_INFINITY);
         bv.partial_cmp(&av)
             .unwrap_or(std::cmp::Ordering::Equal)
-            .then_with(|| a.member_id.cmp(&b.member_id))
+            .then_with(|| a.owner_id.cmp(&b.owner_id))
     });
 
     let mut resp = (
         StatusCode::OK,
-        Json(KvMetricMembersResponse {
+        Json(KvMetricOwnersResponse {
             metric: kv_metric_meta(spec),
+            comparison_metric: kv_metric_comparison_meta(spec),
+            additional_metrics: kv_metric_additional_meta(spec),
             range: KvMetricRangeWire {
                 window: window_label,
                 step_s,
             },
-            members: rows,
+            owners,
             warnings,
         }),
     )
@@ -2771,6 +3951,7 @@ fn build_router(st: Arc<AppState>) -> Router {
         .route("/api/clusters", get(api_clusters))
         .route("/api/kv_metric_panel", get(kv_metric_panel))
         .route("/api/kv_metric_members", get(kv_metric_members))
+        .route("/api/kv_metric_owners", get(kv_metric_owners))
         .route("/view", get(view))
         .route("/topology", get(topology_page))
         .route("/cli", get(cli))
@@ -3434,3 +4615,360 @@ where
         .await
         .with_context(|| format!("http serve failed at {}", listen_addr))
 }
+
+#[cfg(test)]
+mod tests {
+    use super::*;
+    use crate::config::MemberKind;
+    use crate::model::{ClusterSnapshot, MemberSnapshot, NodeSnapshot};
+
+    fn test_member(member_id: &str, role: MemberRole, node_start_time: i64) -> MemberSnapshot {
+        MemberSnapshot {
+            member_id: member_id.to_string(),
+            role,
+            is_p2p_relay: false,
+            is_side_transfer_worker: false,
+            node_start_time,
+            hostname: None,
+            accessible_ip: None,
+            shared_mem_dir: None,
+            p2p_listen_port: None,
+            rdma_runtime_reported: false,
+            rdma_probe_error: None,
+            rdma_devices: Vec::new(),
+            rdma_ports: Vec::new(),
+            rdma_transfer_engine: None,
+            pid: None,
+            cmd: None,
+            sub_cluster: None,
+            product_uuid: None,
+            node_cpu_usage_percent: None,
+            node_cpu_logical_cores: None,
+            node_memory_usage_bytes: None,
+            node_memory_total_bytes: None,
+            container_memory_usage_bytes: None,
+            container_memory_limit_bytes: None,
+            gpus: Vec::new(),
+            process_resident_memory_bytes: None,
+            process_cpu_usage_percent: None,
+            tokio_num_workers: None,
+            tokio_alive_tasks: None,
+            tokio_global_queue_depth: None,
+            tokio_busy_percent: None,
+            tokio_max_worker_busy_percent: None,
+            tokio_park_unpark_rate_hz: None,
+            process_net_tx_mbps: None,
+            process_net_rx_mbps: None,
+            kv_put_rps: None,
+            kv_get_rps: None,
+            kv_put_bps: None,
+            kv_get_bps: None,
+            kv_put_latency_mean_us: None,
+            kv_put_latency_p95_us: None,
+            kv_put_latency_p99_us: None,
+            kv_get_latency_mean_us: None,
+            kv_get_latency_p95_us: None,
+            kv_get_latency_p99_us: None,
+            seg_capacity_bytes: None,
+            seg_used_bytes: None,
+            fs_read_rps: None,
+            fs_write_rps: None,
+        }
+    }
+
+    fn test_snapshot(nodes: Vec<NodeSnapshot>) -> ClusterSnapshot {
+        ClusterSnapshot {
+            cluster_name: "test_cluster".to_string(),
+            member_kind: MemberKind::Kv,
+            etcd_endpoints: Vec::new(),
+            prometheus_base_url: "http://example.invalid".to_string(),
+            warnings: Vec::new(),
+            visible_member_roles: None,
+            master_id: None,
+            master_network: None,
+            transfer_engine_edges: Vec::new(),
+            kv_peer_network: Vec::new(),
+            rdma_netdev_network: Vec::new(),
+            fs_mount_fs: Vec::new(),
+            shm_files: Vec::new(),
+            fs_export_registry: Vec::new(),
+            fs_mount_registry: Vec::new(),
+            kv_topology_owner_external_max: Vec::new(),
+            kv_topology_machine_external_max: Vec::new(),
+            kv_topology_sub_cluster_owner_owner_max: Vec::new(),
+            nodes,
+            mq: None,
+            total_put_rps: None,
+            total_get_rps: None,
+            total_put_bps: None,
+            total_get_bps: None,
+            total_put_latency_mean_us: None,
+            total_put_latency_p95_us: None,
+            total_put_latency_p99_us: None,
+            total_get_latency_mean_us: None,
+            total_get_latency_p95_us: None,
+            total_get_latency_p99_us: None,
+        }
+    }
+
+    #[test]
+    fn cache_hit_metric_uses_windowed_gauge_queries() {
+        let spec = kv_metric_spec_by_key("get_cache_hit_rate_percent").unwrap();
+        let member_promql = kv_metric_promql_for_member(spec, "owner_a");
+        let aggregate_promql =
+            kv_metric_aggregate_promql(spec, &[String::from("owner_a")]).unwrap();
+        assert_eq!(
+            member_promql,
+            "kv_get_cache_hit_rate_percent{node=\"owner_a\"}"
+        );
+        assert_eq!(
+            aggregate_promql,
+            "avg(kv_get_cache_hit_rate_percent{node=~\"^(?:owner_a)$\"})"
+        );
+    }
+
+    #[test]
+    fn gpu_percent_metrics_use_sum_aggregation_so_totals_can_exceed_100() {
+        let spec = kv_metric_spec_by_key("gpu_utilization_percent").unwrap();
+        assert_eq!(spec.aggregate, KvMetricAggregate::Sum);
+        let member_promql = kv_metric_promql_for_member(spec, "owner_a");
+        let aggregate_promql =
+            kv_metric_aggregate_promql(spec, &[String::from("owner_a"), String::from("owner_b")])
+                .unwrap();
+        assert_eq!(
+            member_promql,
+            "sum(gpu_utilization_percent{node=\"owner_a\"})"
+        );
+        assert_eq!(
+            aggregate_promql,
+            "sum(gpu_utilization_percent{node=~\"^(?:owner_a|owner_b)$\"})"
+        );
+    }
+
+    #[test]
+    fn owner_grouping_keeps_single_owner_node_members_together() {
+        let spec = kv_metric_spec_by_key("get_cache_hit_rate_percent").unwrap();
+        let snapshot = test_snapshot(vec![
+            NodeSnapshot {
+                node_key: "node_a".to_string(),
+                hostname: None,
+                accessible_ip: None,
+                shared_mem_dir: None,
+                is_p2p_relay: false,
+                node_cpu_usage_percent: None,
+                node_cpu_logical_cores: None,
+                node_memory_usage_bytes: None,
+                node_memory_total_bytes: None,
+                container_memory_usage_bytes: None,
+                container_memory_limit_bytes: None,
+                members: vec![
+                    test_member("owner_a", MemberRole::OwnerClient, 1),
+                    test_member("master_a", MemberRole::Master, 1),
+                ],
+                segment_devices: Vec::new(),
+            },
+            NodeSnapshot {
+                node_key: "node_b".to_string(),
+                hostname: None,
+                accessible_ip: None,
+                shared_mem_dir: None,
+                is_p2p_relay: false,
+                node_cpu_usage_percent: None,
+                node_cpu_logical_cores: None,
+                node_memory_usage_bytes: None,
+                node_memory_total_bytes: None,
+                container_memory_usage_bytes: None,
+                container_memory_limit_bytes: None,
+                members: vec![test_member("owner_b", MemberRole::OwnerClient, 1)],
+                segment_devices: Vec::new(),
+            },
+        ]);
+        let (groups, warnings) = select_kv_metric_owner_groups(&snapshot, spec, None);
+        assert!(warnings.is_empty());
+        assert_eq!(groups.len(), 2);
+        assert_eq!(groups[0].owner_id, "owner_a");
+        assert_eq!(groups[0].members.len(), 1);
+        assert_eq!(groups[0].members[0].member_id, "owner_a");
+        assert_eq!(groups[1].owner_id, "owner_b");
+    }
+
+    #[test]
+    fn aggregate_mean_series_is_computed_per_timestamp() {
+        let members = vec![
+            KvMemberSeriesWire {
+                member_id: "a".to_string(),
+                role: "owner_client".to_string(),
+                node_key: "node_a".to_string(),
+                latest: Some(30.0),
+                series: vec![(1.0, 10.0), (2.0, 30.0)],
+                comparison_latest: None,
+                comparison_series: Vec::new(),
+                additional_series: Vec::new(),
+            },
+            KvMemberSeriesWire {
+                member_id: "b".to_string(),
+                role: "owner_client".to_string(),
+                node_key: "node_b".to_string(),
+                latest: Some(50.0),
+                series: vec![(1.0, 20.0), (2.0, 50.0)],
+                comparison_latest: None,
+                comparison_series: Vec::new(),
+                additional_series: Vec::new(),
+            },
+        ];
+        let out = aggregate_kv_member_series(KvMetricAggregate::Mean, &members);
+        assert_eq!(out, vec![(1.0, 15.0), (2.0, 40.0)]);
+    }
+
+    #[test]
+    fn cpu_metric_uses_sum_aggregation_so_totals_can_exceed_100() {
+        let spec = kv_metric_spec_by_key("process_cpu_usage_percent").unwrap();
+        assert_eq!(spec.aggregate, KvMetricAggregate::Sum);
+        assert!(spec.roles.contains(&MemberRole::OwnerClient));
+        assert!(spec.roles.contains(&MemberRole::ExternalClient));
+        assert!(spec.roles.contains(&MemberRole::SideTransferWorker));
+        let member_promql = kv_metric_promql_for_member(spec, "owner_a");
+        let aggregate_promql = kv_metric_aggregate_promql(
+            spec,
+            &[String::from("owner_a"), String::from("external_a")],
+        )
+        .unwrap();
+        assert_eq!(member_promql, "process_cpu_usage_percent{node=\"owner_a\"}");
+        assert_eq!(
+            aggregate_promql,
+            "sum(process_cpu_usage_percent{node=~\"^(?:owner_a|external_a)$\"})"
+        );
+
+        let process_network_spec = kv_metric_spec_by_key("process_network_tx_mbps").unwrap();
+        let process_network_rx = process_network_spec
+            .comparison
+            .expect("process network rx comparison");
+        assert!(
+            process_network_spec
+                .roles
+                .contains(&MemberRole::OwnerClient)
+        );
+        assert!(
+            process_network_spec
+                .roles
+                .contains(&MemberRole::ExternalClient)
+        );
+        assert!(
+            process_network_spec
+                .roles
+                .contains(&MemberRole::SideTransferWorker)
+        );
+        assert_eq!(
+            kv_metric_promql_for_member(process_network_spec, "external_a"),
+            "client_network_mbps{node=\"external_a\",direction=\"tx\"}"
+        );
+        assert_eq!(
+            kv_metric_aggregate_promql_for_field(
+                process_network_rx.field,
+                process_network_rx.aggregate,
+                &[String::from("owner_a"), String::from("external_a")],
+            )
+            .unwrap(),
+            "sum(client_network_mbps{node=~\"^(?:owner_a|external_a)$\",direction=\"rx\"})"
+        );
+    }
+
+    #[test]
+    fn memory_segment_and_gpu_memory_cards_keep_capacity_and_process_memory_series() {
+        let memory_spec = kv_metric_spec_by_key("node_memory_usage_bytes").unwrap();
+        let memory_comparison = memory_spec.comparison.expect("memory total comparison");
+        assert_eq!(memory_spec.additional.len(), 1);
+        let memory_process_rss = memory_spec.additional[0];
+        assert_eq!(memory_process_rss.key, "process_rss");
+        assert!(
+            memory_process_rss
+                .roles
+                .unwrap()
+                .contains(&MemberRole::ExternalClient)
+        );
+        assert!(
+            memory_process_rss
+                .roles
+                .unwrap()
+                .contains(&MemberRole::SideTransferWorker)
+        );
+        assert_eq!(
+            kv_metric_promql_for_member(memory_spec, "owner_a"),
+            "node_memory_usage_bytes{node=\"owner_a\"}"
+        );
+        assert_eq!(
+            kv_metric_promql_for_field(memory_comparison.field, "owner_a"),
+            "node_memory_total_bytes{node=\"owner_a\"}"
+        );
+        assert_eq!(
+            kv_metric_aggregate_promql_for_field(
+                memory_comparison.field,
+                memory_comparison.aggregate,
+                &[String::from("owner_a"), String::from("owner_b")],
+            )
+            .unwrap(),
+            "sum(node_memory_total_bytes{node=~\"^(?:owner_a|owner_b)$\"})"
+        );
+        assert_eq!(
+            kv_metric_promql_for_field(memory_process_rss.field, "owner_a"),
+            "process_resident_memory_bytes{node=\"owner_a\"}"
+        );
+        assert_eq!(
+            kv_metric_aggregate_promql_for_field(
+                memory_process_rss.field,
+                memory_process_rss.aggregate,
+                &[String::from("owner_a"), String::from("ops_a")],
+            )
+            .unwrap(),
+            "sum(process_resident_memory_bytes{node=~\"^(?:owner_a|ops_a)$\"})"
+        );
+
+        let network_spec = kv_metric_spec_by_key("node_network_tx_mbps").unwrap();
+        let network_rx = network_spec.comparison.expect("network rx comparison");
+        assert_eq!(network_spec.label, "Node Network");
+        assert_eq!(network_spec.series_label, "TX");
+        assert_eq!(
+            kv_metric_promql_for_member(network_spec, "owner_a"),
+            "sum(rate(node_network_transmit_bytes_total{node=\"owner_a\"}[2m])) * 8 / 1000000"
+        );
+        assert_eq!(
+            kv_metric_promql_for_field(network_rx.field, "owner_a"),
+            "sum(rate(node_network_receive_bytes_total{node=\"owner_a\"}[2m])) * 8 / 1000000"
+        );
+        assert_eq!(
+            kv_metric_aggregate_promql_for_field(
+                network_rx.field,
+                network_rx.aggregate,
+                &[String::from("owner_a"), String::from("owner_b")],
+            )
+            .unwrap(),
+            "sum(rate(node_network_receive_bytes_total{node=~\"^(?:owner_a|owner_b)$\"}[2m])) * 8 / 1000000"
+        );
+
+        let segment_spec = kv_metric_spec_by_key("seg_used_bytes").unwrap();
+        let segment_comparison = segment_spec
+            .comparison
+            .expect("segment capacity comparison");
+        assert_eq!(
+            kv_metric_promql_for_member(segment_spec, "owner_a"),
+            "sum(kvcache_segment_used_bytes{node=\"owner_a\"})"
+        );
+        assert_eq!(
+            kv_metric_promql_for_field(segment_comparison.field, "owner_a"),
+            "sum(kvcache_segment_capacity_bytes{node=\"owner_a\"})"
+        );
+
+        let gpu_memory_spec = kv_metric_spec_by_key("gpu_memory_used").unwrap();
+        let gpu_memory_comparison = gpu_memory_spec
+            .comparison
+            .expect("gpu memory total comparison");
+        assert_eq!(
+            kv_metric_promql_for_member(gpu_memory_spec, "owner_a"),
+            "sum(gpu_memory_used_bytes{node=\"owner_a\"})"
+        );
+        assert_eq!(
+            kv_metric_promql_for_field(gpu_memory_comparison.field, "owner_a"),
+            "sum(gpu_memory_total_bytes{node=\"owner_a\"})"
+        );
+    }
+}
diff --git a/fluxon_rs/fluxon_cli/src/web_renderer.rs b/fluxon_rs/fluxon_cli/src/web_renderer.rs
index ec16ad7..76ec9ce 100644
--- a/fluxon_rs/fluxon_cli/src/web_renderer.rs
+++ b/fluxon_rs/fluxon_cli/src/web_renderer.rs
@@ -3086,6 +3086,7 @@ mod tests {
             node_memory_total_bytes: None,
             container_memory_usage_bytes: None,
             container_memory_limit_bytes: None,
+            gpus: Vec::new(),
             process_resident_memory_bytes: None,
             process_cpu_usage_percent: None,
             tokio_num_workers: None,
diff --git a/fluxon_rs/fluxon_cli/templates/monitor_table.html b/fluxon_rs/fluxon_cli/templates/monitor_table.html
index f804278..ac5c30b 100644
--- a/fluxon_rs/fluxon_cli/templates/monitor_table.html
+++ b/fluxon_rs/fluxon_cli/templates/monitor_table.html
@@ -42,17 +42,48 @@
   .metric_card_label { font-weight: 600; color: #0f172a; }
   .metric_card_value { font-family: ui-monospace, SFMono-Regular, Menlo, monospace; font-size: 12px; color: #334155; }
   .metric_chart { width: 100%; height: 96px; display: block; }
-  .metric_chart_path { fill: none; stroke: #0f766e; stroke-width: 2; }
+  .metric_chart_path { fill: none; stroke: var(--metric-color, #0f766e); stroke-width: 2; }
   .metric_chart_area { fill: rgba(15,118,110,0.10); }
+  .metric_chart_path.metric_chart_path_secondary { stroke: var(--metric-color, #2563eb); stroke-width: 2; }
+  .metric_chart_area.metric_chart_area_secondary { fill: rgba(37,99,235,0.08); }
+  .metric_chart_wrap { position: relative; width: 100%; height: 96px; cursor: crosshair; }
+  .metric_chart_legend { display: flex; gap: 10px; flex-wrap: wrap; margin-top: 4px; }
+  .metric_chart_legend_item { display: inline-flex; align-items: center; gap: 6px; color: #475569; font-size: 11px; }
+  .metric_chart_legend_swatch { width: 10px; height: 10px; border-radius: 999px; }
+  .metric_chart_legend_swatch_primary { background: #0f766e; }
+  .metric_chart_legend_swatch_secondary { background: #2563eb; }
+  .metric_chart_hover_line { visibility: hidden; stroke: #475569; stroke-width: 1; stroke-dasharray: 3 3; }
+  .metric_chart_hover_point_ring { visibility: hidden; fill: rgba(255,255,255,0.92); stroke: var(--metric-color, #0f766e); stroke-width: 2; }
+  .metric_chart_hover_point { visibility: hidden; fill: var(--metric-color, #0f766e); stroke: #fff; stroke-width: 1.5; }
+  .metric_chart_hover_point_ring.metric_chart_hover_point_ring_secondary { stroke: #2563eb; }
+  .metric_chart_hover_point.metric_chart_hover_point_secondary { fill: #2563eb; }
+  .metric_chart_tooltip { position: fixed; z-index: 10000; pointer-events: none; max-width: 320px; padding: 8px 10px; border: 1px solid #cbd5e1; border-radius: 8px; background: rgba(255,255,255,0.98); color: #0f172a; box-shadow: 0 8px 24px rgba(15,23,42,0.16); font-size: 12px; line-height: 1.35; }
+  .metric_chart_tooltip .mono { display: block; color: #334155; }
   .metric_chart_empty { display: grid; place-items: center; height: 96px; color: #94a3b8; font-size: 12px; border: 1px dashed #cbd5e1; border-radius: 8px; }
   .metric_warn_box { margin-top: 8px; display: grid; gap: 4px; }
   .member_metric_section { margin-top: 12px; display: grid; gap: 8px; }
+  .member_metric_sections { margin-top: 12px; display: grid; gap: 12px; }
+  .member_metric_block { border: 1px solid #e5e7eb; border-radius: 10px; background: #fff; padding: 12px; display: grid; gap: 8px; }
   .member_metric_head { display: flex; align-items: center; justify-content: space-between; gap: 8px; flex-wrap: wrap; }
   .member_metric_grid { display: grid; grid-template-columns: repeat(auto-fit, minmax(240px, 1fr)); gap: 12px; }
   .member_metric_card { border: 1px solid #e5e7eb; border-radius: 10px; background: #f8fafc; padding: 12px; display: grid; gap: 8px; }
   .member_metric_meta { display: grid; gap: 2px; }
   .member_metric_id { font-weight: 600; font-family: ui-monospace, SFMono-Regular, Menlo, monospace; }
   .member_metric_sub { color: #64748b; font-size: 12px; font-family: ui-monospace, SFMono-Regular, Menlo, monospace; }
+  .member_metric_title_row { display: flex; align-items: center; gap: 8px; flex-wrap: wrap; }
+  .owner_metric_grid { display: grid; gap: 12px; }
+  .owner_metric_card { border: 1px solid #e5e7eb; border-radius: 10px; background: #f8fafc; padding: 10px 12px; }
+  .owner_metric_card[open] { background: #fff; border-color: #94a3b8; }
+  .owner_metric_summary { cursor: pointer; }
+  .owner_metric_summary_inner { display: grid; grid-template-columns: minmax(220px, 0.9fr) minmax(260px, 1.1fr); gap: 12px; align-items: center; margin-top: 6px; }
+  .owner_metric_meta { display: grid; gap: 4px; }
+  .owner_metric_member_grid { display: grid; gap: 8px; margin-top: 10px; padding-top: 10px; border-top: 1px solid #e5e7eb; }
+  .owner_metric_member_row { display: grid; grid-template-columns: minmax(220px, 0.85fr) minmax(260px, 1.15fr); gap: 12px; align-items: center; padding: 6px 0; }
+  .member_metric_close_btn { border: 1px solid #cbd5e1; border-radius: 8px; background: #fff; color: #334155; padding: 4px 8px; cursor: pointer; }
+  @media (max-width: 760px) {
+    .owner_metric_summary_inner,
+    .owner_metric_member_row { grid-template-columns: 1fr; }
+  }
 </style>
 {% endblock %}
 
@@ -135,21 +166,14 @@ <h1>Cluster <span class="mono">{{ header.cluster_name }}</span> <span class="mut
         <div id="metric_panel_warn" class="metric_warn_box"></div>
         <div id="metric_grid" class="metric_grid"></div>
         <div id="member_metric_section" class="member_metric_section" style="display:none">
-          <div class="member_metric_head">
-            <div>
-              <b id="member_metric_title">Member Metric</b>
-              <div id="member_metric_subtitle" class="muted tiny"></div>
-            </div>
-            <button type="button" id="member_metric_toggle_btn">Show all</button>
-          </div>
-          <div id="member_metric_status" class="muted tiny"></div>
-          <div id="member_metric_warn" class="metric_warn_box"></div>
-          <div id="member_metric_grid" class="member_metric_grid"></div>
+          <div class="muted tiny">Selected metrics expand below. You can keep multiple metric drill-down blocks open at the same time.</div>
+          <div id="member_metric_sections" class="member_metric_sections"></div>
         </div>
       </details>
     {% endif %}
 
     {% if header.member_kind_query == "kv" %}
+      <div id="kv_server_refresh_top_root">
       <details class="card" open data-state-key="owner_rdma_control">
         <summary><b>Owner RDMA Control</b> <span class="muted">({{ owner_rdma_controls.len() }} owners)</span></summary>
         {% if owner_rdma_controls.is_empty() %}
@@ -320,6 +344,10 @@ <h1>Cluster <span class="mono">{{ header.cluster_name }}</span> <span class="mut
 	    </details>
     {% endif %}
 
+    {% if header.member_kind_query == "kv" %}
+      </div>
+    {% endif %}
+
 	  <div class="card row" data-state-key="table_controls">
 	    <div class="formrow">
 	      <label>Columns</label>
@@ -337,6 +365,7 @@ <h1>Cluster <span class="mono">{{ header.cluster_name }}</span> <span class="mut
 	        <label><input type="checkbox" class="col_toggle" value="p2p_listen_port" checked />p2p_listen_port</label>
           {% if header.member_kind_query == "kv" %}
 	        <label><input type="checkbox" class="col_toggle" value="rdma" checked />rdma</label>
+	        <label><input type="checkbox" class="col_toggle" value="gpu" checked />gpu</label>
           {% endif %}
           {% if header.member_kind_query != "fs" %}
 	          <label><input type="checkbox" class="col_toggle" value="cpu" checked />cpu</label>
@@ -367,6 +396,8 @@ <h1>Cluster <span class="mono">{{ header.cluster_name }}</span> <span class="mut
 	        <option value="rss">rss</option>
 	        <option value="tx">tx</option>
 	        <option value="rx">rx</option>
+	        <option value="gpu_mem">gpu_mem</option>
+	        <option value="gpu_util">gpu_util</option>
 	        <option value="put_rps">put_rps</option>
 	        <option value="get_rps">get_rps</option>
 	        <option value="put_avg">put_avg</option>
@@ -392,6 +423,8 @@ <h1>Cluster <span class="mono">{{ header.cluster_name }}</span> <span class="mut
 	        <option value="rss">rss</option>
 	        <option value="tx">tx</option>
 	        <option value="rx">rx</option>
+	        <option value="gpu_mem">gpu_mem</option>
+	        <option value="gpu_util">gpu_util</option>
 	        <option value="put_rps">put_rps</option>
 	        <option value="get_rps">get_rps</option>
 	        <option value="put_avg">put_avg</option>
@@ -417,6 +450,8 @@ <h1>Cluster <span class="mono">{{ header.cluster_name }}</span> <span class="mut
 	        <option value="rss">rss</option>
 	        <option value="tx">tx</option>
 	        <option value="rx">rx</option>
+	        <option value="gpu_mem">gpu_mem</option>
+	        <option value="gpu_util">gpu_util</option>
 	        <option value="put_rps">put_rps</option>
 	        <option value="get_rps">get_rps</option>
 	        <option value="put_avg">put_avg</option>
@@ -442,6 +477,8 @@ <h1>Cluster <span class="mono">{{ header.cluster_name }}</span> <span class="mut
 	        <option value="rss">rss</option>
 	        <option value="tx">tx</option>
 	        <option value="rx">rx</option>
+	        <option value="gpu_mem">gpu_mem</option>
+	        <option value="gpu_util">gpu_util</option>
 	        <option value="put_rps">put_rps</option>
 	        <option value="get_rps">get_rps</option>
 	        <option value="put_avg">put_avg</option>
@@ -458,6 +495,9 @@ <h1>Cluster <span class="mono">{{ header.cluster_name }}</span> <span class="mut
 	    <div id="filter_err" class="muted tiny" style="margin-top:6px"></div>
 	  </div>
 
+  {% if header.member_kind_query == "kv" %}
+    <div id="kv_server_refresh_table_root">
+  {% endif %}
 	  <div class="tablewrap">
 	    <table>
 	      <thead>
@@ -475,6 +515,7 @@ <h1>Cluster <span class="mono">{{ header.cluster_name }}</span> <span class="mut
 	          <th data-col="p2p_listen_port">p2p_listen_port</th>
           {% if header.member_kind_query == "kv" %}
 	          <th data-col="rdma">rdma</th>
+	          <th data-col="gpu">gpu</th>
           {% endif %}
 	          <th data-col="cpu">cpu</th>
 	          <th data-col="mem_used">mem_used</th>
@@ -518,6 +559,7 @@ <h1>Cluster <span class="mono">{{ header.cluster_name }}</span> <span class="mut
 	          <th data-col="p2p_listen_port"><input id="f_p2p_listen_port" type="text" placeholder="filter" /></th>
           {% if header.member_kind_query == "kv" %}
 	          <th data-col="rdma"></th>
+	          <th data-col="gpu"><input id="f_gpu" type="text" placeholder="filter" /></th>
           {% endif %}
 	          <th data-col="cpu"><input id="f_cpu" type="text" placeholder="filter" /></th>
 	          <th data-col="mem_used"><input id="f_mem_used" type="text" placeholder="filter" /></th>
@@ -546,6 +588,7 @@ <h1>Cluster <span class="mono">{{ header.cluster_name }}</span> <span class="mut
 	            data-shared-mem-dir="{{ row.shared_mem_dir_text }}"
 	            data-p2p-listen-port="{{ row.p2p_listen_port_text }}"
               data-rdma="{{ row.rdma_text }}"
+              data-gpu-text="{{ row.gpu_text }}"
 	            data-cpu-text="{{ row.cpu_text }}"
 	            data-mem-used-text="{{ row.mem_used_text }}"
 	            data-rss-text="{{ row.rss_text }}"
@@ -571,7 +614,9 @@ <h1>Cluster <span class="mono">{{ header.cluster_name }}</span> <span class="mut
             data-sort-put-avg="{{ row.put_avg_sort }}"
             data-sort-get-avg="{{ row.get_avg_sort }}"
             data-sort-seg-used="{{ row.seg_used_sort }}"
-            data-sort-seg-cap="{{ row.seg_cap_sort }}">
+            data-sort-seg-cap="{{ row.seg_cap_sort }}"
+            data-sort-gpu-mem="{{ row.gpu_memory_used_sort }}"
+            data-sort-gpu-util="{{ row.gpu_utilization_sort }}">
 	            <td data-col="node_key" class="mono">{{ row.node_key }}</td>
 	            <td data-col="member_id" class="mono">{{ row.member_id }}</td>
 	            <td data-col="logs" class="mono"><a href="{{ row.logs_href }}" target="_blank">log</a></td>
@@ -594,6 +639,7 @@ <h1>Cluster <span class="mono">{{ header.cluster_name }}</span> <span class="mut
                   <span class="mono">{{ row.rdma_text }}</span>
                 </div>
               </td>
+              <td data-col="gpu" class="mono">{{ row.gpu_text }}</td>
               {% endif %}
 	            <td data-col="cpu" class="mono">{{ row.cpu_text }}</td>
 	            <td data-col="mem_used" class="mono">{{ row.mem_used_text }}</td>
@@ -673,6 +719,9 @@ <h1>Cluster <span class="mono">{{ header.cluster_name }}</span> <span class="mut
       {% endfor %}
     </div>
   {% endif %}
+  {% if header.member_kind_query == "kv" %}
+    </div>
+  {% endif %}
 </div>
 
 {% if header.member_kind_query == "kv" %}
@@ -1016,7 +1065,7 @@ <h1>Cluster <span class="mono">{{ header.cluster_name }}</span> <span class="mut
 
   const ALL_COLS = [
     'node_key','member_id','role','pid','cmd','start_time','hostname','accessible_ip','shared_mem_dir','p2p_listen_port',
-    'rdma','cpu','mem_used','rss','tx','rx','put_rps','get_rps','put_avg','get_avg','seg_used','seg_cap',
+    'rdma','gpu','cpu','mem_used','rss','tx','rx','put_rps','get_rps','put_avg','get_avg','seg_used','seg_cap',
   ];
 
   function requireEl(id) {
@@ -1070,6 +1119,7 @@ <h1>Cluster <span class="mono">{{ header.cluster_name }}</span> <span class="mut
       accessible_ip: requireEl('f_accessible_ip')?.value || '',
       shared_mem_dir: requireEl('f_shared_mem_dir')?.value || '',
       p2p_listen_port: requireEl('f_p2p_listen_port')?.value || '',
+      gpu: requireEl('f_gpu')?.value || '',
       cpu: requireEl('f_cpu')?.value || '',
       mem_used: requireEl('f_mem_used')?.value || '',
       rss: requireEl('f_rss')?.value || '',
@@ -1127,6 +1177,7 @@ <h1>Cluster <span class="mono">{{ header.cluster_name }}</span> <span class="mut
     if (requireEl('f_accessible_ip')) requireEl('f_accessible_ip').value = spec.accessible_ip || '';
     if (requireEl('f_shared_mem_dir')) requireEl('f_shared_mem_dir').value = spec.shared_mem_dir || '';
     if (requireEl('f_p2p_listen_port')) requireEl('f_p2p_listen_port').value = spec.p2p_listen_port || '';
+    if (requireEl('f_gpu')) requireEl('f_gpu').value = spec.gpu || '';
     if (requireEl('f_cpu')) requireEl('f_cpu').value = spec.cpu || '';
     if (requireEl('f_mem_used')) requireEl('f_mem_used').value = spec.mem_used || '';
     if (requireEl('f_rss')) requireEl('f_rss').value = spec.rss || '';
@@ -1190,7 +1241,15 @@ <h1>Cluster <span class="mono">{{ header.cluster_name }}</span> <span class="mut
 
   function saveMetricStateToLocalStorage(state) {
     try {
-      localStorage.setItem(metricStorageKey, JSON.stringify(state || {}));
+      localStorage.setItem(metricStorageKey, JSON.stringify({
+        selectedMetricKeys: Array.isArray(state?.selectedMetricKeys) ? state.selectedMetricKeys : [],
+        selectedMetricKey: state?.selectedMetricKey || null,
+        window: state?.window || '15m',
+        showAllMembersByMetric: state?.showAllMembersByMetric || {},
+        expandedOwnersByMetric: state?.expandedOwnersByMetric || {},
+        showAllMembers: !!state?.showAllMembers,
+        expandedOwners: Array.isArray(state?.expandedOwners) ? state.expandedOwners : [],
+      }));
     } catch (e) {
       console.warn('metric localStorage save failed', e);
     }
@@ -1252,18 +1311,30 @@ <h1>Cluster <span class="mono">{{ header.cluster_name }}</span> <span class="mut
     });
   }
 
+  function captureDetailsState() {
+    const m = {};
+    document.querySelectorAll('#app details[data-state-key]').forEach((d) => {
+      const k = d.getAttribute('data-state-key');
+      if (!k) return;
+      m[k] = !!d.open;
+    });
+    return m;
+  }
+
+  function restoreDetailsState(details) {
+    document.querySelectorAll('#app details[data-state-key]').forEach((d) => {
+      const k = d.getAttribute('data-state-key');
+      if (!k) return;
+      if (Object.prototype.hasOwnProperty.call(details, k)) {
+        d.open = !!details[k];
+      }
+    });
+  }
+
   function captureState() {
     return {
       table: captureTableState(),
-      details: (() => {
-        const m = {};
-        document.querySelectorAll('#app details[data-state-key]').forEach((d) => {
-          const k = d.getAttribute('data-state-key');
-          if (!k) return;
-          m[k] = !!d.open;
-        });
-        return m;
-      })(),
+      details: captureDetailsState(),
       metric_dom: captureMetricDomState(),
     };
   }
@@ -1271,18 +1342,23 @@ <h1>Cluster <span class="mono">{{ header.cluster_name }}</span> <span class="mut
   function restoreState(state) {
     if (!state) return;
     restoreTableState(state.table);
-    const details = state.details || {};
-    document.querySelectorAll('#app details[data-state-key]').forEach((d) => {
-      const k = d.getAttribute('data-state-key');
-      if (!k) return;
-      if (Object.prototype.hasOwnProperty.call(details, k)) {
-        d.open = !!details[k];
-      }
-    });
+    restoreDetailsState(state.details || {});
     restoreMetricDomState(state.metric_dom);
     updateSortRowsVisibility();
   }
 
+  function captureKvRefreshState() {
+    return {
+      details: captureDetailsState(),
+    };
+  }
+
+  function restoreKvRefreshState(state) {
+    if (!state) return;
+    restoreDetailsState(state.details || {});
+    updateSortRowsVisibility();
+  }
+
   function captureMetricDomState() {
     if (memberKind !== 'kv') return null;
     return {
@@ -1290,13 +1366,7 @@ <h1>Cluster <span class="mono">{{ header.cluster_name }}</span> <span class="mut
       metric_panel_status_text: requireEl('metric_panel_status')?.textContent || '',
       metric_panel_warn_html: requireEl('metric_panel_warn')?.innerHTML || '',
       member_section_display: requireEl('member_metric_section')?.style.display || '',
-      member_title_text: requireEl('member_metric_title')?.textContent || '',
-      member_subtitle_text: requireEl('member_metric_subtitle')?.textContent || '',
-      member_status_text: requireEl('member_metric_status')?.textContent || '',
-      member_warn_html: requireEl('member_metric_warn')?.innerHTML || '',
-      member_grid_html: requireEl('member_metric_grid')?.innerHTML || '',
-      member_toggle_display: requireEl('member_metric_toggle_btn')?.style.display || '',
-      member_toggle_text: requireEl('member_metric_toggle_btn')?.textContent || '',
+      member_sections_html: requireEl('member_metric_sections')?.innerHTML || '',
     };
   }
 
@@ -1306,25 +1376,13 @@ <h1>Cluster <span class="mono">{{ header.cluster_name }}</span> <span class="mut
     const metricStatus = requireEl('metric_panel_status');
     const metricWarn = requireEl('metric_panel_warn');
     const memberSection = requireEl('member_metric_section');
-    const memberTitle = requireEl('member_metric_title');
-    const memberSubtitle = requireEl('member_metric_subtitle');
-    const memberStatus = requireEl('member_metric_status');
-    const memberWarn = requireEl('member_metric_warn');
-    const memberGrid = requireEl('member_metric_grid');
-    const memberToggleBtn = requireEl('member_metric_toggle_btn');
+    const memberSections = requireEl('member_metric_sections');
     if (metricGrid) metricGrid.innerHTML = state.metric_grid_html || '';
     if (metricStatus) metricStatus.textContent = state.metric_panel_status_text || '';
     if (metricWarn) metricWarn.innerHTML = state.metric_panel_warn_html || '';
     if (memberSection) memberSection.style.display = state.member_section_display || 'none';
-    if (memberTitle) memberTitle.textContent = state.member_title_text || 'Member Metric';
-    if (memberSubtitle) memberSubtitle.textContent = state.member_subtitle_text || '';
-    if (memberStatus) memberStatus.textContent = state.member_status_text || '';
-    if (memberWarn) memberWarn.innerHTML = state.member_warn_html || '';
-    if (memberGrid) memberGrid.innerHTML = state.member_grid_html || '';
-    if (memberToggleBtn) {
-      memberToggleBtn.style.display = state.member_toggle_display || 'none';
-      memberToggleBtn.textContent = state.member_toggle_text || 'Show all';
-    }
+    if (memberSections) memberSections.innerHTML = state.member_sections_html || '';
+    wireMetricChartHover(document);
   }
 
   function compareValues(avRaw, bvRaw) {
@@ -1389,6 +1447,7 @@ <h1>Cluster <span class="mono">{{ header.cluster_name }}</span> <span class="mut
         (getText(spec.accessible_ip) === '' || getText(r.getAttribute('data-accessible-ip')).includes(getText(spec.accessible_ip))) &&
         (getText(spec.shared_mem_dir) === '' || getText(r.getAttribute('data-shared-mem-dir')).includes(getText(spec.shared_mem_dir))) &&
         (getText(spec.p2p_listen_port) === '' || getText(r.getAttribute('data-p2p-listen-port')).includes(getText(spec.p2p_listen_port))) &&
+        (getText(spec.gpu) === '' || getText(r.getAttribute('data-gpu-text')).includes(getText(spec.gpu))) &&
         (getText(spec.cpu) === '' || getText(r.getAttribute('data-cpu-text')).includes(getText(spec.cpu))) &&
         (getText(spec.mem_used) === '' || getText(r.getAttribute('data-mem-used-text')).includes(getText(spec.mem_used))) &&
         (getText(spec.rss) === '' || getText(r.getAttribute('data-rss-text')).includes(getText(spec.rss))) &&
@@ -1418,7 +1477,7 @@ <h1>Cluster <span class="mono">{{ header.cluster_name }}</span> <span class="mut
   function clearFilter() {
     const ids = [
       'f_node_key','f_member_id','f_pid','f_cmd','f_start_time_min','f_start_time_max','f_hostname','f_accessible_ip','f_shared_mem_dir','f_p2p_listen_port',
-      'f_cpu','f_mem_used','f_rss','f_tx','f_rx','f_put_rps','f_get_rps','f_put_avg','f_get_avg','f_seg_used','f_seg_cap',
+      'f_gpu','f_cpu','f_mem_used','f_rss','f_tx','f_rx','f_put_rps','f_get_rps','f_put_avg','f_get_avg','f_seg_used','f_seg_cap',
     ];
     for (const id of ids) {
       const el = requireEl(id);
@@ -1445,7 +1504,7 @@ <h1>Cluster <span class="mono">{{ header.cluster_name }}</span> <span class="mut
     // Immediate UI response: filter runs on local data only.
     const inputIds = [
       'f_node_key','f_member_id','f_pid','f_cmd','f_start_time_min','f_start_time_max','f_hostname','f_accessible_ip','f_shared_mem_dir','f_p2p_listen_port',
-      'f_cpu','f_mem_used','f_rss','f_tx','f_rx','f_put_rps','f_get_rps','f_put_avg','f_get_avg','f_seg_used','f_seg_cap',
+      'f_gpu','f_cpu','f_mem_used','f_rss','f_tx','f_rx','f_put_rps','f_get_rps','f_put_avg','f_get_avg','f_seg_used','f_seg_cap',
     ];
     for (const id of inputIds) {
       const el = requireEl(id);
@@ -1514,54 +1573,286 @@ <h1>Cluster <span class="mono">{{ header.cluster_name }}</span> <span class="mut
       return text + names[idx] + suffix;
     }
     if (unit === 'percent') return n.toFixed(n >= 10 ? 1 : 2) + '%';
+    if (unit === 'celsius') return n.toFixed(n >= 10 ? 1 : 2) + 'C';
+    if (unit === 'mbps') return n.toFixed(n >= 100 ? 0 : (n >= 10 ? 1 : 2)) + ' Mbps';
     if (unit === 'rps') return n.toFixed(n >= 100 ? 0 : (n >= 10 ? 1 : 2)) + ' rps';
     if (unit === 'count') return n.toFixed(n >= 10 ? 0 : 2);
     return n.toFixed(n >= 10 ? 1 : 2);
   }
 
-  function buildSparklineSvg(series) {
-    if (!Array.isArray(series) || series.length === 0) return '<div class="metric_chart_empty">N/A</div>';
+  function escapeHtml(s) {
+    return String(s || '')
+      .replaceAll('&', '&amp;')
+      .replaceAll('<', '&lt;')
+      .replaceAll('>', '&gt;')
+      .replaceAll('"', '&quot;')
+      .replaceAll("'", '&#39;');
+  }
+
+  function metricChartTooltip() {
+    let el = document.getElementById('metric_chart_tooltip');
+    if (!el) {
+      el = document.createElement('div');
+      el.id = 'metric_chart_tooltip';
+      el.className = 'metric_chart_tooltip';
+      el.style.display = 'none';
+      document.body.appendChild(el);
+    }
+    return el;
+  }
+
+  function setMetricChartHoverVisible(el, visible) {
+    if (!el) return;
+    el.style.visibility = visible ? 'visible' : 'hidden';
+  }
+
+  function hideMetricChartTooltip() {
+    const tip = document.getElementById('metric_chart_tooltip');
+    if (tip) tip.style.display = 'none';
+    document.querySelectorAll('.metric_chart_hover_line,.metric_chart_hover_point,.metric_chart_hover_point_ring').forEach((el) => {
+      setMetricChartHoverVisible(el, false);
+    });
+  }
+
+  function formatMetricTs(ts) {
+    const n = Number(ts);
+    if (!Number.isFinite(n)) return '-';
+    const d = new Date(n * 1000);
+    if (Number.isNaN(d.getTime())) return String(ts);
+    return d.toLocaleString();
+  }
+
+  function positionMetricChartTooltip(tip, clientX, clientY) {
+    const margin = 12;
+    tip.style.display = '';
+    const rect = tip.getBoundingClientRect();
+    let left = clientX + margin;
+    let top = clientY + margin;
+    if (left + rect.width > window.innerWidth - margin) {
+      left = clientX - rect.width - margin;
+    }
+    if (top + rect.height > window.innerHeight - margin) {
+      top = clientY - rect.height - margin;
+    }
+    tip.style.left = Math.max(margin, left) + 'px';
+    tip.style.top = Math.max(margin, top) + 'px';
+  }
+
+  function sanitizeMetricSeries(series) {
+    if (!Array.isArray(series)) return [];
+    return series
+      .map((p) => [Number(Array.isArray(p) ? p[0] : NaN), Number(Array.isArray(p) ? p[1] : NaN)])
+      .filter((p) => Number.isFinite(p[0]) && Number.isFinite(p[1]));
+  }
+
+  const metricChartColors = ['#0f766e', '#2563eb', '#dc2626', '#7c3aed', '#d97706', '#0891b2'];
+
+  function buildMetricLineSeries(series, unit, label, comparisonSeries, comparisonUnit, comparisonLabel, additionalSeries) {
+    const lines = [{
+      label: label || 'Primary',
+      unit: unit || '',
+      series: sanitizeMetricSeries(series),
+      color: metricChartColors[0],
+      primary: true,
+    }];
+    const comparisonClean = sanitizeMetricSeries(comparisonSeries);
+    if (comparisonClean.length > 0) {
+      lines.push({
+        label: comparisonLabel || 'Comparison',
+        unit: comparisonUnit || unit || '',
+        series: comparisonClean,
+        color: metricChartColors[1],
+        primary: false,
+      });
+    }
+    const extras = Array.isArray(additionalSeries) ? additionalSeries : [];
+    extras.forEach((row) => {
+      const clean = sanitizeMetricSeries(row?.series || []);
+      if (clean.length === 0) return;
+      const metric = row?.metric || {};
+      lines.push({
+        label: metric.series_label || metric.label || metric.key || 'Series',
+        unit: metric.unit || unit || '',
+        series: clean,
+        color: metricChartColors[lines.length % metricChartColors.length],
+        primary: false,
+      });
+    });
+    return lines;
+  }
+
+  function metricSeriesLatestText(primaryLatest, primaryUnit, comparisonMetric, comparisonLatest, additionalSeries) {
+    const parts = [fmtMetricValue(primaryLatest, primaryUnit || '')];
+    if (comparisonMetric) {
+      parts.push(fmtMetricValue(comparisonLatest, comparisonMetric.unit || primaryUnit || ''));
+    }
+    const extras = Array.isArray(additionalSeries) ? additionalSeries : [];
+    extras.forEach((row) => {
+      parts.push(fmtMetricValue(row?.latest, row?.metric?.unit || primaryUnit || ''));
+    });
+    return escapeHtml(parts.join(' / '));
+  }
+
+  function wireMetricChartHover(root) {
+    const scope = root || document;
+    scope.querySelectorAll('.metric_chart_wrap[data-lines]').forEach((wrap) => {
+      if (wrap.__fluxonMetricHoverWired) return;
+      wrap.__fluxonMetricHoverWired = true;
+      const svg = wrap.querySelector('svg.metric_chart');
+      const hoverLine = wrap.querySelector('.metric_chart_hover_line');
+      if (!svg || !hoverLine) return;
+      let lines = [];
+      try {
+        lines = JSON.parse(wrap.getAttribute('data-lines') || '[]')
+          .map((line) => ({
+            label: String(line?.label || ''),
+            unit: String(line?.unit || ''),
+            color: String(line?.color || '#0f766e'),
+            series: sanitizeMetricSeries(line?.series || []),
+          }))
+          .filter((line) => line.series.length > 0);
+      } catch (_e) {
+        lines = [];
+      }
+      const primaryLine = lines[0] || null;
+      if (!primaryLine) return;
+      const hoverPoints = Array.from(wrap.querySelectorAll('.metric_chart_hover_points')).map((group) => ({
+        group,
+        ring: group.querySelector('.metric_chart_hover_point_ring'),
+        point: group.querySelector('.metric_chart_hover_point'),
+      }));
+
+      const width = Number(wrap.getAttribute('data-chart-width') || '220');
+      const height = Number(wrap.getAttribute('data-chart-height') || '96');
+      const min = Number(wrap.getAttribute('data-min'));
+      const max = Number(wrap.getAttribute('data-max'));
+      const padX = 4;
+      const padY = 6;
+      const xOf = (idx) => padX + (primaryLine.series.length <= 1 ? 0 : idx * (width - padX * 2) / (primaryLine.series.length - 1));
+      const yOf = (v) => {
+        const lo = Number.isFinite(min) ? min : 0;
+        const hi = Number.isFinite(max) && max !== lo ? max : lo + 1;
+        const ratio = (v - lo) / (hi - lo);
+        return height - padY - ratio * (height - padY * 2);
+      };
+
+      wrap.addEventListener('mousemove', (ev) => {
+        const rect = svg.getBoundingClientRect();
+        if (rect.width <= 0) return;
+        const rel = Math.min(Math.max(ev.clientX - rect.left, 0), rect.width);
+        const idx = primaryLine.series.length <= 1 ? 0 : Math.round(rel / rect.width * (primaryLine.series.length - 1));
+        const point = primaryLine.series[Math.min(Math.max(idx, 0), primaryLine.series.length - 1)];
+        if (!point) return;
+        const x = xOf(idx);
+        const y = yOf(point[1]);
+        hoverLine.setAttribute('x1', x.toFixed(2));
+        hoverLine.setAttribute('x2', x.toFixed(2));
+        hoverLine.setAttribute('y1', '0');
+        hoverLine.setAttribute('y2', String(height));
+        setMetricChartHoverVisible(hoverLine, true);
+        const valueHtml = [];
+        lines.forEach((line, lineIdx) => {
+          const lineIdxClamped = Math.min(Math.max(idx, 0), line.series.length - 1);
+          const linePoint = line.series[lineIdxClamped] || null;
+          const hover = hoverPoints[lineIdx] || null;
+          if (!linePoint || !hover?.ring || !hover?.point) {
+            if (hover?.ring) setMetricChartHoverVisible(hover.ring, false);
+            if (hover?.point) setMetricChartHoverVisible(hover.point, false);
+            return;
+          }
+          const lineY = yOf(linePoint[1]);
+          hover.ring.setAttribute('cx', x.toFixed(2));
+          hover.ring.setAttribute('cy', lineY.toFixed(2));
+          hover.point.setAttribute('cx', x.toFixed(2));
+          hover.point.setAttribute('cy', lineY.toFixed(2));
+          setMetricChartHoverVisible(hover.ring, true);
+          setMetricChartHoverVisible(hover.point, true);
+          valueHtml.push('<span class="mono">' + escapeHtml((line.label || 'Series') + ': ' + fmtMetricValue(linePoint[1], line.unit)) + '</span>');
+        });
+        const tip = metricChartTooltip();
+        tip.innerHTML =
+          '<b>' + escapeHtml(primaryLine.label || 'Metric') + '</b>' +
+          '<span class="mono">' + escapeHtml(formatMetricTs(point[0])) + '</span>' +
+          valueHtml.join('');
+        positionMetricChartTooltip(tip, ev.clientX, ev.clientY);
+      });
+      wrap.addEventListener('mouseleave', () => {
+        hideMetricChartTooltip();
+      });
+    });
+  }
+
+  function buildSparklineSvg(series, unit, label, comparisonSeries, comparisonUnit, comparisonLabel, additionalSeries) {
     const width = 220;
     const height = 96;
     const padX = 4;
     const padY = 6;
-    const vals = series.map((p) => Number(Array.isArray(p) ? p[1] : NaN)).filter((v) => Number.isFinite(v));
-    if (vals.length === 0) return '<div class="metric_chart_empty">N/A</div>';
-    let min = Math.min(...vals);
-    let max = Math.max(...vals);
-    if (min === max) {
-      min -= 1;
-      max += 1;
+    const lines = buildMetricLineSeries(series, unit, label, comparisonSeries, comparisonUnit, comparisonLabel, additionalSeries);
+    const primaryLine = lines[0] || null;
+    if (!primaryLine || primaryLine.series.length === 0) return '<div class="metric_chart_empty">N/A</div>';
+    const vals = lines.flatMap((line) => line.series.map((p) => p[1]));
+    const min = 0;
+    let max = Math.max(0, ...vals);
+    if (max === min) {
+      max = min + 1;
     }
-    const stepX = series.length <= 1 ? 0 : (width - padX * 2) / (series.length - 1);
     const yOf = (v) => {
       const ratio = (v - min) / (max - min);
       return height - padY - ratio * (height - padY * 2);
     };
-    let path = '';
-    let area = '';
-    series.forEach((point, idx) => {
-      const value = Number(point[1]);
-      const x = padX + idx * stepX;
-      const y = yOf(value);
-      path += (idx === 0 ? 'M' : 'L') + x.toFixed(2) + ' ' + y.toFixed(2) + ' ';
-      area += (idx === 0 ? 'M' : 'L') + x.toFixed(2) + ' ' + y.toFixed(2) + ' ';
-    });
-    const lastX = padX + (series.length - 1) * stepX;
-    area += 'L ' + lastX.toFixed(2) + ' ' + (height - padY).toFixed(2) + ' ';
-    area += 'L ' + padX.toFixed(2) + ' ' + (height - padY).toFixed(2) + ' Z';
+    function buildPathData(inputSeries) {
+      let path = '';
+      let area = '';
+      const stepX = inputSeries.length <= 1 ? 0 : (width - padX * 2) / (inputSeries.length - 1);
+      inputSeries.forEach((point, idx) => {
+        const value = point[1];
+        const x = padX + idx * stepX;
+        const y = yOf(value);
+        path += (idx === 0 ? 'M' : 'L') + x.toFixed(2) + ' ' + y.toFixed(2) + ' ';
+        area += (idx === 0 ? 'M' : 'L') + x.toFixed(2) + ' ' + y.toFixed(2) + ' ';
+      });
+      const lastX = padX + (inputSeries.length - 1) * stepX;
+      area += 'L ' + lastX.toFixed(2) + ' ' + (height - padY).toFixed(2) + ' ';
+      area += 'L ' + padX.toFixed(2) + ' ' + (height - padY).toFixed(2) + ' Z';
+      return { path, area };
+    }
+    const linePaths = lines.map((line) => ({ line, pathData: buildPathData(line.series) }));
+    const legendHtml = lines.length > 1
+      ? '<div class="metric_chart_legend">' +
+        lines.map((line) =>
+          '<span class="metric_chart_legend_item"><span class="metric_chart_legend_swatch" style="background:' + escapeHtml(line.color) + '"></span>' + escapeHtml(line.label || 'Series') + '</span>'
+        ).join('') +
+        '</div>'
+      : '';
+    const areaHtml = '<path class="metric_chart_area" d="' + linePaths[0].pathData.area + '"></path>';
+    const pathsHtml = linePaths.slice().reverse().map(({ line, pathData }, revIdx) => {
+      const className = revIdx === linePaths.length - 1 ? 'metric_chart_path' : 'metric_chart_path metric_chart_path_secondary';
+      return '<path class="' + className + '" style="--metric-color:' + escapeHtml(line.color) + '" d="' + pathData.path + '"></path>';
+    }).join('');
+    const hoverHtml = lines.map((line, idx) =>
+      '<g class="metric_chart_hover_points" style="--metric-color:' + escapeHtml(line.color) + '">' +
+      '<circle class="metric_chart_hover_point_ring' + (idx === 1 ? ' metric_chart_hover_point_ring_secondary' : '') + '" cx="0" cy="0" r="5.5"></circle>' +
+      '<circle class="metric_chart_hover_point' + (idx === 1 ? ' metric_chart_hover_point_secondary' : '') + '" cx="0" cy="0" r="3.5"></circle>' +
+      '</g>'
+    ).join('');
     return (
+      '<div class="metric_chart_wrap" data-min="' + min + '" data-max="' + max + '" data-chart-width="' + width + '" data-chart-height="' + height + '" data-lines="' + escapeHtml(JSON.stringify(lines)) + '">' +
       '<svg class="metric_chart" viewBox="0 0 ' + width + ' ' + height + '" preserveAspectRatio="none">' +
-      '<path class="metric_chart_area" d="' + area + '"></path>' +
-      '<path class="metric_chart_path" d="' + path + '"></path>' +
-      '</svg>'
+      areaHtml +
+      pathsHtml +
+      '<line class="metric_chart_hover_line" x1="0" x2="0" y1="0" y2="' + height + '"></line>' +
+      hoverHtml +
+      '</svg>' +
+      legendHtml +
+      '</div>'
     );
   }
 
   let metricPanelState = {
-    selectedMetricKey: null,
+    selectedMetricKeys: [],
     window: '15m',
-    showAllMembers: false,
+    showAllMembersByMetric: {},
+    expandedOwnersByMetric: {},
   };
 
   async function fetchJsonText(url) {
@@ -1620,23 +1911,142 @@ <h1>Cluster <span class="mono">{{ header.cluster_name }}</span> <span class="mut
 
   function metricCardHtml(card, isSelected) {
     const metric = card.metric || {};
+    const comparisonMetric = card.comparison_metric || null;
+    const latestText = metricSeriesLatestText(
+      card.latest,
+      metric.unit || '',
+      comparisonMetric,
+      card.comparison_latest,
+      card.additional_series || []
+    );
     return (
       '<div class="metric_card_head">' +
-      '<div class="metric_card_label">' + (metric.label || metric.key || 'metric') + '</div>' +
-      '<div class="metric_card_value">' + fmtMetricValue(card.latest, metric.unit || '') + '</div>' +
+      '<div class="metric_card_label">' + escapeHtml(metric.label || metric.key || 'metric') + '</div>' +
+      '<div class="metric_card_value">' + latestText + '</div>' +
       '</div>' +
-      buildSparklineSvg(card.aggregate_series || [])
+      buildSparklineSvg(
+        card.aggregate_series || [],
+        metric.unit || '',
+        metric.series_label || metric.label || metric.key || 'metric',
+        card.comparison_series || [],
+        comparisonMetric?.unit || metric.unit || '',
+        comparisonMetric?.series_label || comparisonMetric?.label || '',
+        card.additional_series || []
+      )
     );
   }
 
-  function memberMetricCardHtml(row, unit) {
+  function selectedMetricKeySet() {
+    return new Set(Array.isArray(metricPanelState.selectedMetricKeys) ? metricPanelState.selectedMetricKeys : []);
+  }
+
+  function isMetricSelected(metricKey) {
+    return metricKey !== '' && selectedMetricKeySet().has(metricKey);
+  }
+
+  function toggleSelectedMetric(metricKey) {
+    const next = selectedMetricKeySet();
+    if (next.has(metricKey)) {
+      next.delete(metricKey);
+      if (metricPanelState.showAllMembersByMetric && typeof metricPanelState.showAllMembersByMetric === 'object') {
+        delete metricPanelState.showAllMembersByMetric[metricKey];
+      }
+      if (metricPanelState.expandedOwnersByMetric && typeof metricPanelState.expandedOwnersByMetric === 'object') {
+        delete metricPanelState.expandedOwnersByMetric[metricKey];
+      }
+    } else {
+      next.add(metricKey);
+    }
+    metricPanelState.selectedMetricKeys = Array.from(next);
+    saveMetricStateToLocalStorage(metricPanelState);
+  }
+
+  function memberMetricCardHtml(row, metric, comparisonMetric) {
+    const valueText = metricSeriesLatestText(
+      row.latest,
+      metric.unit || '',
+      comparisonMetric,
+      row.comparison_latest,
+      row.additional_series || []
+    );
+    return (
+      '<div class="member_metric_meta">' +
+      '<div class="member_metric_id">' + escapeHtml(row.member_id) + '</div>' +
+      '<div class="member_metric_sub">' + escapeHtml(row.role) + ' | ' + escapeHtml(row.node_key) + '</div>' +
+      '<div class="metric_card_value">' + valueText + '</div>' +
+      '</div>' +
+      buildSparklineSvg(
+        row.series || [],
+        metric.unit || '',
+        metric.series_label || metric.label || row.member_id || '',
+        row.comparison_series || [],
+        comparisonMetric?.unit || metric.unit || '',
+        comparisonMetric?.series_label || comparisonMetric?.label || '',
+        row.additional_series || []
+      )
+    );
+  }
+
+  function ownerMetricMemberRowHtml(row, metric, comparisonMetric) {
+    const valueText = metricSeriesLatestText(
+      row.latest,
+      metric.unit || '',
+      comparisonMetric,
+      row.comparison_latest,
+      row.additional_series || []
+    );
     return (
+      '<div class="owner_metric_member_row">' +
       '<div class="member_metric_meta">' +
-      '<div class="member_metric_id">' + row.member_id + '</div>' +
-      '<div class="member_metric_sub">' + row.role + ' | ' + row.node_key + '</div>' +
-      '<div class="metric_card_value">' + fmtMetricValue(row.latest, unit || '') + '</div>' +
+      '<div class="member_metric_id">' + escapeHtml(row.member_id) + '</div>' +
+      '<div class="member_metric_sub">' + escapeHtml(row.role) + ' | ' + escapeHtml(row.node_key) + '</div>' +
+      '<div class="metric_card_value">' + valueText + '</div>' +
       '</div>' +
-      buildSparklineSvg(row.series || [])
+      buildSparklineSvg(
+        row.series || [],
+        metric.unit || '',
+        metric.series_label || metric.label || row.member_id || '',
+        row.comparison_series || [],
+        comparisonMetric?.unit || metric.unit || '',
+        comparisonMetric?.series_label || comparisonMetric?.label || '',
+        row.additional_series || []
+      ) +
+      '</div>'
+    );
+  }
+
+  function ownerMetricCardHtml(owner, metric, comparisonMetric) {
+    const members = Array.isArray(owner.members) ? owner.members : [];
+    const memberHtml = members.length === 0
+      ? '<div class="metric_chart_empty">No member series</div>'
+      : members.map((row) => ownerMetricMemberRowHtml(row, metric, comparisonMetric)).join('');
+    const valueText = metricSeriesLatestText(
+      owner.latest,
+      metric.unit || '',
+      comparisonMetric,
+      owner.comparison_latest,
+      owner.additional_series || []
+    );
+    return (
+      '<summary class="owner_metric_summary">' +
+      '<div class="owner_metric_summary_inner">' +
+      '<div class="owner_metric_meta">' +
+      '<div class="member_metric_id">' + escapeHtml(owner.owner_id || '') + '</div>' +
+      '<div class="member_metric_sub">' + escapeHtml(owner.node_key || '') + ' | ' + members.length + ' members</div>' +
+      '<div class="metric_card_value">' + valueText + '</div>' +
+      '</div>' +
+      buildSparklineSvg(
+        owner.series || [],
+        metric.unit || '',
+        metric.series_label || metric.label || owner.owner_id || '',
+        owner.comparison_series || [],
+        comparisonMetric?.unit || metric.unit || '',
+        comparisonMetric?.series_label || comparisonMetric?.label || '',
+        owner.additional_series || []
+      ) +
+      '</div>' +
+      '</summary>' +
+      '<div class="owner_metric_member_grid">' + memberHtml + '</div>'
     );
   }
 
@@ -1661,70 +2071,180 @@ <h1>Cluster <span class="mono">{{ header.cluster_name }}</span> <span class="mut
         const metric = card.metric || {};
         const metricKey = metric.key || '';
         box.type = 'button';
-        box.className = 'metric_card' + (metricPanelState.selectedMetricKey === metricKey ? ' metric_card_selected' : '');
+        box.className = 'metric_card' + (isMetricSelected(metricKey) ? ' metric_card_selected' : '');
         box.setAttribute('data-metric-key', metricKey);
-        const nextHtml = metricCardHtml(card, metricPanelState.selectedMetricKey === metricKey);
+        const nextHtml = metricCardHtml(card, isMetricSelected(metricKey));
         if (box.__fluxonMetricHtml !== nextHtml) {
           box.innerHTML = nextHtml;
           box.__fluxonMetricHtml = nextHtml;
         }
+        wireMetricChartHover(box);
         box.onclick = () => {
-          metricPanelState.selectedMetricKey = metricKey || null;
-          metricPanelState.showAllMembers = false;
-          saveMetricStateToLocalStorage(metricPanelState);
+          toggleSelectedMetric(metricKey);
           renderMetricCards(data);
-          loadMemberMetric(metricPanelState.selectedMetricKey);
+          loadSelectedMemberMetrics();
         };
       }
     );
   }
 
-  function visibleMemberRows(members) {
-    if (metricPanelState.showAllMembers) return members;
-    return members.slice(0, 12);
+  function expandedOwnerSet(metricKey) {
+    const raw = metricPanelState.expandedOwnersByMetric && metricPanelState.expandedOwnersByMetric[metricKey];
+    return new Set(Array.isArray(raw) ? raw : []);
+  }
+
+  function setOwnerExpanded(metricKey, ownerId, expanded) {
+    const current = expandedOwnerSet(metricKey);
+    if (expanded) {
+      current.add(ownerId);
+    } else {
+      current.delete(ownerId);
+    }
+    if (!metricPanelState.expandedOwnersByMetric || typeof metricPanelState.expandedOwnersByMetric !== 'object') {
+      metricPanelState.expandedOwnersByMetric = {};
+    }
+    metricPanelState.expandedOwnersByMetric[metricKey] = Array.from(current).sort();
+    saveMetricStateToLocalStorage(metricPanelState);
+  }
+
+  function showAllOwnersForMetric(metricKey) {
+    return !!(metricPanelState.showAllMembersByMetric && metricPanelState.showAllMembersByMetric[metricKey]);
+  }
+
+  function setShowAllOwnersForMetric(metricKey, showAll) {
+    if (!metricPanelState.showAllMembersByMetric || typeof metricPanelState.showAllMembersByMetric !== 'object') {
+      metricPanelState.showAllMembersByMetric = {};
+    }
+    metricPanelState.showAllMembersByMetric[metricKey] = !!showAll;
+    saveMetricStateToLocalStorage(metricPanelState);
+  }
+
+  function visibleOwnerRows(metricKey, owners) {
+    if (showAllOwnersForMetric(metricKey)) return owners;
+    return owners.slice(0, 12);
   }
 
-  function renderMemberMetric(data) {
+  function metricDrilldownBlockHtml(metricKey) {
+    return (
+      '<div class="member_metric_block" data-metric-block="' + escapeHtml(metricKey) + '">' +
+      '<div class="member_metric_head">' +
+      '<div>' +
+      '<div class="member_metric_title_row">' +
+      '<b class="member_metric_title">Owner Metric</b>' +
+      '<button type="button" class="member_metric_close_btn" data-member-metric-close="' + escapeHtml(metricKey) + '">Close</button>' +
+      '</div>' +
+      '<div class="member_metric_subtitle muted tiny"></div>' +
+      '</div>' +
+      '<button type="button" class="member_metric_toggle_btn">Show all owners</button>' +
+      '</div>' +
+      '<div class="member_metric_status muted tiny"></div>' +
+      '<div class="member_metric_warn metric_warn_box"></div>' +
+      '<div class="member_metric_grid owner_metric_grid"></div>' +
+      '</div>'
+    );
+  }
+
+  function bindMemberMetricBlockButtons(block, metricKey) {
+    const closeBtn = block.querySelector('[data-member-metric-close]');
+    if (closeBtn && !closeBtn.__fluxonMetricCloseBound) {
+      closeBtn.__fluxonMetricCloseBound = true;
+      closeBtn.addEventListener('click', () => {
+        const next = selectedMetricKeySet();
+        next.delete(metricKey);
+        metricPanelState.selectedMetricKeys = Array.from(next);
+        if (metricPanelState.showAllMembersByMetric && typeof metricPanelState.showAllMembersByMetric === 'object') {
+          delete metricPanelState.showAllMembersByMetric[metricKey];
+        }
+        if (metricPanelState.expandedOwnersByMetric && typeof metricPanelState.expandedOwnersByMetric === 'object') {
+          delete metricPanelState.expandedOwnersByMetric[metricKey];
+        }
+        saveMetricStateToLocalStorage(metricPanelState);
+        renderMetricCards(metricPanelState.lastPanelData || {});
+        loadSelectedMemberMetrics();
+      });
+    }
+    const toggleBtn = block.querySelector('.member_metric_toggle_btn');
+    if (toggleBtn && !toggleBtn.__fluxonMetricToggleBound) {
+      toggleBtn.__fluxonMetricToggleBound = true;
+      toggleBtn.addEventListener('click', () => {
+        setShowAllOwnersForMetric(metricKey, !showAllOwnersForMetric(metricKey));
+        const cached = metricPanelState.memberMetricDataByKey && metricPanelState.memberMetricDataByKey[metricKey];
+        if (cached) {
+          renderMemberMetric(metricKey, cached);
+        } else {
+          loadMemberMetric(metricKey);
+        }
+      });
+    }
+  }
+
+  function renderMemberMetric(metricKey, data) {
     const section = requireEl('member_metric_section');
-    const title = requireEl('member_metric_title');
-    const subtitle = requireEl('member_metric_subtitle');
-    const status = requireEl('member_metric_status');
-    const grid = requireEl('member_metric_grid');
-    const toggleBtn = requireEl('member_metric_toggle_btn');
-    if (!section || !title || !subtitle || !status || !grid || !toggleBtn) return;
-    const members = Array.isArray(data?.members) ? data.members : [];
+    const blocks = requireEl('member_metric_sections');
+    if (!section || !blocks) return;
+    let block = blocks.querySelector('[data-patch-key="' + CSS.escape(metricKey) + '"]');
+    if (!(block instanceof HTMLElement)) {
+      block = document.createElement('div');
+      block.setAttribute('data-patch-key', metricKey);
+      blocks.appendChild(block);
+    }
+    if (block.__fluxonMemberBlockHtml !== metricDrilldownBlockHtml(metricKey)) {
+      const nextHtml = metricDrilldownBlockHtml(metricKey);
+      block.innerHTML = nextHtml;
+      block.__fluxonMemberBlockHtml = nextHtml;
+    }
+    bindMemberMetricBlockButtons(block, metricKey);
+    const title = block.querySelector('.member_metric_title');
+    const subtitle = block.querySelector('.member_metric_subtitle');
+    const status = block.querySelector('.member_metric_status');
+    const warn = block.querySelector('.member_metric_warn');
+    const grid = block.querySelector('.member_metric_grid');
+    const toggleBtn = block.querySelector('.member_metric_toggle_btn');
+    if (!title || !subtitle || !status || !warn || !grid || !toggleBtn) return;
+    const owners = Array.isArray(data?.owners) ? data.owners : [];
     const metric = data?.metric || {};
+    const comparisonMetric = data?.comparison_metric || null;
     section.style.display = '';
-    title.textContent = metric.label || metric.key || 'Member Metric';
-    subtitle.textContent = (data?.range?.window || metricPanelState.window) + ' | ' + (members.length + ' members');
-    renderMetricWarnings('member_metric_warn', data?.warnings || []);
-    if (members.length === 0) {
-      status.textContent = 'No members';
-      grid.innerHTML = '<div class="metric_chart_empty">No member series</div>';
+    title.textContent = metric.label || metric.key || 'Owner Metric';
+    subtitle.textContent = (data?.range?.window || metricPanelState.window) + ' | ' + (owners.length + ' owners');
+    const warnHtml = Array.isArray(data?.warnings) && data.warnings.length > 0
+      ? data.warnings.slice(0, 6).map((w) => '<div class="warn tiny">' + String(w).replaceAll('<', '&lt;') + '</div>').join('')
+      : '';
+    warn.innerHTML = warnHtml;
+    if (owners.length === 0) {
+      status.textContent = 'No owners';
+      grid.innerHTML = '<div class="metric_chart_empty">No owner series</div>';
       toggleBtn.style.display = 'none';
       return;
     }
     status.textContent = '';
-    const rows = visibleMemberRows(members);
+    const rows = visibleOwnerRows(metricKey, owners);
+    const expanded = expandedOwnerSet(metricKey);
     patchChildrenByKey(
       grid,
       rows,
-      (row) => [row.member_id || '', row.role || '', row.node_key || ''].join('|'),
-      () => document.createElement('div'),
-      (card, row, _idx, key) => {
-        card.className = 'member_metric_card';
-        card.setAttribute('data-member-id', row.member_id || '');
-        card.setAttribute('data-member-key', key);
-        const nextHtml = memberMetricCardHtml(row, metric.unit || '');
+      (row) => row.owner_id || '',
+      () => document.createElement('details'),
+      (card, row) => {
+        const ownerId = row.owner_id || '';
+        card.className = 'owner_metric_card';
+        card.setAttribute('data-owner-id', ownerId);
+        const shouldOpen = expanded.has(ownerId);
+        card.open = shouldOpen;
+        const nextHtml = ownerMetricCardHtml(row, metric, comparisonMetric);
         if (card.__fluxonMemberMetricHtml !== nextHtml) {
           card.innerHTML = nextHtml;
           card.__fluxonMemberMetricHtml = nextHtml;
         }
+        card.ontoggle = () => {
+          setOwnerExpanded(metricKey, ownerId, card.open);
+        };
+        wireMetricChartHover(card);
       }
     );
-    if (members.length > 12) {
+    if (owners.length > 12) {
       toggleBtn.style.display = '';
-      toggleBtn.textContent = metricPanelState.showAllMembers ? 'Show less' : 'Show all';
+      toggleBtn.textContent = showAllOwnersForMetric(metricKey) ? 'Show less' : 'Show all owners';
     } else {
       toggleBtn.style.display = 'none';
     }
@@ -1732,15 +2252,35 @@ <h1>Cluster <span class="mono">{{ header.cluster_name }}</span> <span class="mut
 
   async function loadMemberMetric(metricKey) {
     const section = requireEl('member_metric_section');
-    const status = requireEl('member_metric_status');
-    const grid = requireEl('member_metric_grid');
-    if (!metricKey || !section || !status || !grid) {
+    const blocks = requireEl('member_metric_sections');
+    if (!metricKey || !section || !blocks) {
       if (section) section.style.display = 'none';
       return;
     }
+    if (!metricPanelState.memberMetricDataByKey || typeof metricPanelState.memberMetricDataByKey !== 'object') {
+      metricPanelState.memberMetricDataByKey = {};
+    }
+    let block = blocks.querySelector('[data-patch-key="' + CSS.escape(metricKey) + '"]');
+    if (!(block instanceof HTMLElement)) {
+      block = document.createElement('div');
+      block.setAttribute('data-patch-key', metricKey);
+      blocks.appendChild(block);
+    }
+    const nextHtml = metricDrilldownBlockHtml(metricKey);
+    if (block.__fluxonMemberBlockHtml !== nextHtml) {
+      block.innerHTML = nextHtml;
+      block.__fluxonMemberBlockHtml = nextHtml;
+    }
+    bindMemberMetricBlockButtons(block, metricKey);
+    const status = block.querySelector('.member_metric_status');
+    const grid = block.querySelector('.member_metric_grid');
+    const warn = block.querySelector('.member_metric_warn');
+    if (!status || !grid || !warn) return;
     const hasExisting = String(grid.innerHTML || '').trim() !== '';
     section.style.display = '';
-    status.textContent = hasExisting ? 'Refreshing member series...' : 'Loading member series...';
+    if (!hasExisting) {
+      status.textContent = 'Loading owner series...';
+    }
     try {
       const params = new URLSearchParams();
       params.set('cluster_name', clusterName);
@@ -1749,11 +2289,36 @@ <h1>Cluster <span class="mono">{{ header.cluster_name }}</span> <span class="mut
       for (const role of currentMetricRoles()) {
         params.append('member_roles', role);
       }
-      const data = await fetchJsonText('/api/kv_metric_members?' + params.toString());
-      renderMemberMetric(data);
+      const data = await fetchJsonText('/api/kv_metric_owners?' + params.toString());
+      metricPanelState.memberMetricDataByKey[metricKey] = data;
+      renderMemberMetric(metricKey, data);
     } catch (e) {
       status.textContent = String(e);
-      renderMetricWarnings('member_metric_warn', []);
+      warn.innerHTML = '';
+    }
+  }
+
+  async function loadSelectedMemberMetrics() {
+    const section = requireEl('member_metric_section');
+    const blocks = requireEl('member_metric_sections');
+    const selectedKeys = Array.isArray(metricPanelState.selectedMetricKeys) ? metricPanelState.selectedMetricKeys : [];
+    if (!section || !blocks) return;
+    if (selectedKeys.length === 0) {
+      section.style.display = 'none';
+      blocks.innerHTML = '';
+      return;
+    }
+    section.style.display = '';
+    const keySet = new Set(selectedKeys);
+    Array.from(blocks.children).forEach((child) => {
+      if (!(child instanceof HTMLElement)) return;
+      const key = child.getAttribute('data-patch-key') || '';
+      if (!keySet.has(key)) {
+        child.remove();
+      }
+    });
+    for (const metricKey of selectedKeys) {
+      await loadMemberMetric(metricKey);
     }
   }
 
@@ -1762,7 +2327,9 @@ <h1>Cluster <span class="mono">{{ header.cluster_name }}</span> <span class="mut
     const status = requireEl('metric_panel_status');
     if (!grid || !status || memberKind !== 'kv') return;
     const hasExisting = String(grid.innerHTML || '').trim() !== '';
-    status.textContent = hasExisting ? 'Refreshing metric panel...' : 'Loading metric panel...';
+    if (!hasExisting) {
+      status.textContent = 'Loading metric panel...';
+    }
     try {
       const params = new URLSearchParams();
       params.set('cluster_name', clusterName);
@@ -1773,13 +2340,9 @@ <h1>Cluster <span class="mono">{{ header.cluster_name }}</span> <span class="mut
       const data = await fetchJsonText('/api/kv_metric_panel?' + params.toString());
       status.textContent = '';
       renderMetricWarnings('metric_panel_warn', data?.warnings || []);
+      metricPanelState.lastPanelData = data;
       renderMetricCards(data);
-      if (metricPanelState.selectedMetricKey) {
-        await loadMemberMetric(metricPanelState.selectedMetricKey);
-      } else {
-        const section = requireEl('member_metric_section');
-        if (section) section.style.display = 'none';
-      }
+      await loadSelectedMemberMetrics();
     } catch (e) {
       status.textContent = String(e);
       renderMetricWarnings('metric_panel_warn', []);
@@ -1794,6 +2357,21 @@ <h1>Cluster <span class="mono">{{ header.cluster_name }}</span> <span class="mut
   if (metricSaved) {
     metricPanelState = Object.assign(metricPanelState, metricSaved || {});
   }
+  if (!Array.isArray(metricPanelState.selectedMetricKeys)) {
+    metricPanelState.selectedMetricKeys = metricPanelState.selectedMetricKey ? [metricPanelState.selectedMetricKey] : [];
+  }
+  if (!metricPanelState.showAllMembersByMetric || typeof metricPanelState.showAllMembersByMetric !== 'object') {
+    const fallbackSelected = metricPanelState.selectedMetricKeys[0];
+    metricPanelState.showAllMembersByMetric = fallbackSelected && metricPanelState.showAllMembers ? { [fallbackSelected]: !!metricPanelState.showAllMembers } : {};
+  }
+  if (!metricPanelState.expandedOwnersByMetric || typeof metricPanelState.expandedOwnersByMetric !== 'object') {
+    const fallbackSelected = metricPanelState.selectedMetricKeys[0];
+    metricPanelState.expandedOwnersByMetric = fallbackSelected && Array.isArray(metricPanelState.expandedOwners)
+      ? { [fallbackSelected]: metricPanelState.expandedOwners.slice() }
+      : {};
+  }
+  metricPanelState.memberMetricDataByKey = {};
+  metricPanelState.lastPanelData = null;
   function syncMetricWindowSelect() {
     const el = requireEl('metric_window_select');
     if (el) {
@@ -1826,45 +2404,141 @@ <h1>Cluster <span class="mono">{{ header.cluster_name }}</span> <span class="mut
         loadMetricPanel();
       };
     }
-    const memberMetricToggleBtn = requireEl('member_metric_toggle_btn');
-    if (memberMetricToggleBtn) {
-      memberMetricToggleBtn.onclick = () => {
-        metricPanelState.showAllMembers = !metricPanelState.showAllMembers;
-        saveMetricStateToLocalStorage(metricPanelState);
-        if (metricPanelState.selectedMetricKey) {
-          loadMemberMetric(metricPanelState.selectedMetricKey);
+  }
+  wireMetricUiHandlers();
+
+  function setRefreshCountdown(v) {
+    const el = requireEl('refresh-in');
+    if (el) {
+      el.textContent = String(v);
+    }
+  }
+
+  function isInteractiveElement(el) {
+    return (
+      el instanceof HTMLInputElement ||
+      el instanceof HTMLTextAreaElement ||
+      el instanceof HTMLSelectElement ||
+      el instanceof HTMLButtonElement ||
+      el instanceof HTMLAnchorElement ||
+      !!el?.isContentEditable
+    );
+  }
+
+  function shouldSuspendKvRefresh() {
+    const active = document.activeElement;
+    if (!(active instanceof Element) || !isInteractiveElement(active)) {
+      return false;
+    }
+    return !!(
+      active.closest('#kv_server_refresh_top_root') ||
+      active.closest('#kv_server_refresh_table_root')
+    );
+  }
+
+  function replaceRefreshRootFromDoc(doc, rootId) {
+    const current = document.getElementById(rootId);
+    const next = doc.getElementById(rootId);
+    if (!current || !next) return false;
+    const nextHtml = next.innerHTML;
+    if (current.__fluxonRefreshHtml === nextHtml) {
+      return false;
+    }
+    current.innerHTML = nextHtml;
+    current.__fluxonRefreshHtml = nextHtml;
+    return true;
+  }
+
+  async function refreshKvServerRootsOnce() {
+    const state = captureKvRefreshState();
+    const scrollX = window.scrollX;
+    const scrollY = window.scrollY;
+    const resp = await fetch(window.location.href, { cache: 'no-store' });
+    if (!resp.ok) {
+      throw new Error('HTTP ' + resp.status + ' ' + resp.statusText);
+    }
+    const text = await resp.text();
+    const doc = new DOMParser().parseFromString(text, 'text/html');
+    const changedTop = replaceRefreshRootFromDoc(doc, 'kv_server_refresh_top_root');
+    const changedTable = replaceRefreshRootFromDoc(doc, 'kv_server_refresh_table_root');
+    if (!changedTop && !changedTable) {
+      return;
+    }
+    restoreKvRefreshState(state);
+    applyFilter();
+    applyLocalTimes();
+    window.scrollTo(scrollX, scrollY);
+  }
+
+  async function refreshKvViewOnce(inFlightRef) {
+    if (inFlightRef.inFlight) return;
+    inFlightRef.inFlight = true;
+    try {
+      const results = await Promise.allSettled([
+        refreshKvServerRootsOnce(),
+        loadMetricPanel(),
+      ]);
+      results.forEach((result) => {
+        if (result.status === 'rejected') {
+          console.warn('kv_auto_refresh failed:', result.reason);
         }
-      };
+      });
+    } finally {
+      inFlightRef.inFlight = false;
     }
   }
-  wireMetricUiHandlers();
 
-  // English note: Replace-SSR Contract v1.
-  // - `#app` is the only replaced container.
-  // - Hooks must be defined here (not in `#app`) so they survive `#app` replacement.
-  // - Tool JS is injected by fluxon_cli server right before `</body>`.
-  window.fluxon_cli_auto_refresh_hooks = {
-    captureState: () => captureState(),
-    restoreState: (state) => restoreState(state),
-    afterReplace: () => {
-      syncMetricWindowSelect();
-      wireUiHandlers();
-      wireMetricUiHandlers();
-      applyFilter();
-      applyLocalTimes();
-      if (memberKind === 'kv') {
-        loadMetricPanel();
+  function startKvAutoRefresh() {
+    let remaining = refreshSecs;
+    const inFlightRef = { inFlight: false };
+    setRefreshCountdown(remaining);
+    setInterval(async () => {
+      if (remaining > 0) {
+        remaining -= 1;
       }
-    },
-  };
-  window.fluxon_cli_auto_refresh_cfg = {
-    // Keep it explicit to avoid hidden defaults. Must match tool constant.
-    mode: 'replace_app',
-    refreshSecs: refreshSecs,
-    url: window.location.href,
-    appId: 'app',
-    countdownId: 'refresh-in',
-  };
+      if (remaining === 0) {
+        if (shouldSuspendKvRefresh()) {
+          remaining = 1;
+          setRefreshCountdown(remaining);
+          return;
+        }
+        await refreshKvViewOnce(inFlightRef);
+        remaining = refreshSecs;
+      }
+      setRefreshCountdown(remaining);
+    }, 1000);
+  }
+
+  if (memberKind === 'kv') {
+    startKvAutoRefresh();
+  } else {
+    // English note: Replace-SSR Contract v1.
+    // - `#app` is the only replaced container.
+    // - Hooks must be defined here (not in `#app`) so they survive `#app` replacement.
+    // - Tool JS is injected by fluxon_cli server right before `</body>`.
+    window.fluxon_cli_auto_refresh_hooks = {
+      captureState: () => captureState(),
+      restoreState: (state) => restoreState(state),
+      afterReplace: () => {
+        syncMetricWindowSelect();
+        wireUiHandlers();
+        wireMetricUiHandlers();
+        applyFilter();
+        applyLocalTimes();
+        if (memberKind === 'kv') {
+          loadMetricPanel();
+        }
+      },
+    };
+    window.fluxon_cli_auto_refresh_cfg = {
+      // Keep it explicit to avoid hidden defaults. Must match tool constant.
+      mode: 'replace_app',
+      refreshSecs: refreshSecs,
+      url: window.location.href,
+      appId: 'app',
+      countdownId: 'refresh-in',
+    };
+  }
 })();
 </script>
 {% endblock %}
diff --git a/fluxon_rs/fluxon_kv/src/client_seg_pool/mod.rs b/fluxon_rs/fluxon_kv/src/client_seg_pool/mod.rs
index 1aa6954..8c7cc78 100644
--- a/fluxon_rs/fluxon_kv/src/client_seg_pool/mod.rs
+++ b/fluxon_rs/fluxon_kv/src/client_seg_pool/mod.rs
@@ -237,10 +237,7 @@ impl ClientSegPool {
         std::path::Path::new(share_mem_path).join(SIDE_TRANSFER_PEERS_DIRNAME)
     }
 
-    pub fn side_transfer_peer_file_path(
-        share_mem_path: &str,
-        side_id: &str,
-    ) -> std::path::PathBuf {
+    pub fn side_transfer_peer_file_path(share_mem_path: &str, side_id: &str) -> std::path::PathBuf {
         Self::side_transfer_peers_dir(share_mem_path).join(format!("{side_id}.json"))
     }
 
@@ -399,17 +396,13 @@ impl ClientSegPool {
                 crate::rpcresp_kvresult_convert::msg_and_error::SharedMemError::MappingFailed {
                     path: String::new(),
                     len: map_len as u64,
-                    detail: "share_mem_path is empty; explicit configuration required"
-                        .to_string(),
+                    detail: "share_mem_path is empty; explicit configuration required".to_string(),
                 },
             ));
         }
 
         let base_path = &share_mem_path;
-        tracing::info!(
-            "Using share_mem_path: {} for memory-mapped file",
-            base_path
-        );
+        tracing::info!("Using share_mem_path: {} for memory-mapped file", base_path);
         std::fs::create_dir_all(base_path).map_err(|e| {
             KvError::SharedMem(
                 crate::rpcresp_kvresult_convert::msg_and_error::SharedMemError::MappingFailed {
diff --git a/fluxon_rs/fluxon_kv/src/config.rs b/fluxon_rs/fluxon_kv/src/config.rs
index f9c7691..1577651 100644
--- a/fluxon_rs/fluxon_kv/src/config.rs
+++ b/fluxon_rs/fluxon_kv/src/config.rs
@@ -733,7 +733,7 @@ pub struct ClientConfig {
     pub pprof_duration_seconds: Option<u64>,
     pub redis_compat_listen_addr: Option<std::net::SocketAddr>,
     pub fluxonkv_spec: FluxonKvSpec,
-    pub share_mem_path: String, // Mandatory shared bundle path
+    pub share_mem_path: String,           // Mandatory shared bundle path
     pub large_file_paths: LargeFilePaths, // Mandatory large-file roots for logs and caches
     pub test_spec_config: TestSpecConfig,
 }
@@ -1170,13 +1170,15 @@ impl ClientConfigYaml {
         } else {
             let Some(large_file_paths_yaml) = self.fluxonkv_spec.large_file_paths.as_ref() else {
                 return Err(ConfigError::InvalidClientConfig {
-                    detail: "fluxonkv_spec.large_file_paths is required for owner mode"
-                        .to_string(),
+                    detail: "fluxonkv_spec.large_file_paths is required for owner mode".to_string(),
                 }
                 .into_kverror());
             };
             LargeFilePaths {
-                paths: verify_non_empty_root_path_list(&large_file_paths_yaml.0, "large_file_paths")?,
+                paths: verify_non_empty_root_path_list(
+                    &large_file_paths_yaml.0,
+                    "large_file_paths",
+                )?,
             }
         };
 
@@ -1647,7 +1649,9 @@ fluxonkv_spec:
         .unwrap();
         let err = cfg.verify().unwrap_err();
         let text = format!("{err}");
-        assert!(text.contains("fluxonkv_spec.large_file_paths is forbidden in zero-contribution mode"));
+        assert!(
+            text.contains("fluxonkv_spec.large_file_paths is forbidden in zero-contribution mode")
+        );
     }
 
     #[test]
@@ -1667,7 +1671,9 @@ fluxonkv_spec:
         let logs_dir = large_file_paths.kv_logs_dir("test_cluster").unwrap();
         assert_eq!(
             logs_dir,
-            first_root.join("child").join("test_cluster_cluster_kv_logs")
+            first_root
+                .join("child")
+                .join("test_cluster_cluster_kv_logs")
         );
         assert!(logs_dir.exists());
 
diff --git a/fluxon_rs/fluxon_kv/src/external_client_api/mod.rs b/fluxon_rs/fluxon_kv/src/external_client_api/mod.rs
index 9cb291f..b7715dd 100644
--- a/fluxon_rs/fluxon_kv/src/external_client_api/mod.rs
+++ b/fluxon_rs/fluxon_kv/src/external_client_api/mod.rs
@@ -865,8 +865,7 @@ impl ExternalInner {
             return Ok(false);
         }
 
-        self.finish_owner_recover(&share_mem_path, payload)
-            .await?;
+        self.finish_owner_recover(&share_mem_path, payload).await?;
         Ok(true)
     }
 
diff --git a/fluxon_rs/fluxon_kv/src/kv_test.rs b/fluxon_rs/fluxon_kv/src/kv_test.rs
index 5f0a9e2..910aac8 100644
--- a/fluxon_rs/fluxon_kv/src/kv_test.rs
+++ b/fluxon_rs/fluxon_kv/src/kv_test.rs
@@ -11,8 +11,9 @@
 
 use crate::cluster_manager::ClusterManagerRdmaControlInit;
 use crate::config::{
-    ClientConfig, ContributeToClusterPoolSize, FluxonKvSpec, LargeFilePaths, MasterConfig, MonitoringConfig,
-    ProtocolConfig, ProtocolType, TestSpecConfig, TestSpecTransportMode, TransferEngineType,
+    ClientConfig, ContributeToClusterPoolSize, FluxonKvSpec, LargeFilePaths, MasterConfig,
+    MonitoringConfig, ProtocolConfig, ProtocolType, TestSpecConfig, TestSpecTransportMode,
+    TransferEngineType,
 };
 use crate::run_master_with_test_overrides;
 use crate::{ClientRunTestOverrides, MasterRunTestOverrides, run_client_with_test_overrides};
@@ -802,7 +803,6 @@ impl KvTestRoundOptions {
             kv_test_run_scope()
         )
     }
-
 }
 
 #[derive(Clone, Debug)]
@@ -842,8 +842,7 @@ fn default_client_large_file_paths(
     instance_key: &str,
     contribute_to_cluster_pool_size: &ContributeToClusterPoolSize,
 ) -> LargeFilePaths {
-    if contribute_to_cluster_pool_size.dram == 0
-        && contribute_to_cluster_pool_size.vram.is_empty()
+    if contribute_to_cluster_pool_size.dram == 0 && contribute_to_cluster_pool_size.vram.is_empty()
     {
         return LargeFilePaths { paths: Vec::new() };
     }
@@ -1381,7 +1380,10 @@ async fn key_meta_cache_check(
         }
     }
 
-    tracing::info!("🔍 Starting PUT and GET in parallel: {}", parallel_unique_key);
+    tracing::info!(
+        "🔍 Starting PUT and GET in parallel: {}",
+        parallel_unique_key
+    );
     for i in 0..10 {
         let (put_client, other_client) = if i % 2 == 0 {
             (client, client2)
@@ -1420,7 +1422,9 @@ async fn key_meta_cache_check(
         }
 
         assert!(
-            put_client.client_kv_api().has_cached_key(parallel_unique_key),
+            put_client
+                .client_kv_api()
+                .has_cached_key(parallel_unique_key),
             "put client should have immediate local cache metadata for key {} after put time {}",
             parallel_unique_key,
             i
diff --git a/fluxon_rs/fluxon_kv/src/lib.rs b/fluxon_rs/fluxon_kv/src/lib.rs
index edaa386..1fc9283 100644
--- a/fluxon_rs/fluxon_kv/src/lib.rs
+++ b/fluxon_rs/fluxon_kv/src/lib.rs
@@ -2736,8 +2736,8 @@ mod tests {
             large_file_paths: crate::config::LargeFilePaths {
                 paths: vec![owner_large_root.to_string_lossy().into_owned()],
             },
-            protocol_version:
-                fluxon_util::git_version_build_record::get_current_git_commitid().unwrap(),
+            protocol_version: fluxon_util::git_version_build_record::get_current_git_commitid()
+                .unwrap(),
             write_ts: Some(chrono::Utc::now().timestamp_micros()),
         };
         let shared_meta_json = serde_json::to_string(&shared_meta).unwrap();
diff --git a/fluxon_rs/fluxon_kv/src/master_lease_manager/lease_manager_test.rs b/fluxon_rs/fluxon_kv/src/master_lease_manager/lease_manager_test.rs
index 5c20cc1..5d344c9 100755
--- a/fluxon_rs/fluxon_kv/src/master_lease_manager/lease_manager_test.rs
+++ b/fluxon_rs/fluxon_kv/src/master_lease_manager/lease_manager_test.rs
@@ -22,7 +22,8 @@ async fn test1_lease_expire_removes_keys() {
     unsafe {
         std::env::set_var("FLUXON_LOG", "debug");
     }
-    let (master_fw, client_fw) = start_master_and_client("lease_master_t1", "lease_client_t1").await;
+    let (master_fw, client_fw) =
+        start_master_and_client("lease_master_t1", "lease_client_t1").await;
     let client_view = client_fw.client_kv_api_view();
     wait_master_ready(&client_view).await;
 
@@ -82,7 +83,8 @@ async fn test2_rebind_to_new_lease_preserves_until_new_expire() {
     unsafe {
         std::env::set_var("FLUXON_LOG", "debug");
     }
-    let (master_fw, client_fw) = start_master_and_client("lease_master_t2", "lease_client_t2").await;
+    let (master_fw, client_fw) =
+        start_master_and_client("lease_master_t2", "lease_client_t2").await;
     let client_view = client_fw.client_kv_api_view();
     wait_master_ready(&client_view).await;
 
@@ -161,7 +163,8 @@ async fn test3_keepalive() {
     unsafe {
         std::env::set_var("FLUXON_LOG", "debug");
     }
-    let (master_fw, client_fw) = start_master_and_client("lease_master_t3", "lease_client_t3").await;
+    let (master_fw, client_fw) =
+        start_master_and_client("lease_master_t3", "lease_client_t3").await;
     let client_view = client_fw.client_kv_api_view();
     wait_master_ready(&client_view).await;
 
@@ -236,7 +239,8 @@ async fn test4_delete_under_lease_then_get_fails() {
     unsafe {
         std::env::set_var("FLUXON_LOG", "debug");
     }
-    let (master_fw, client_fw) = start_master_and_client("lease_master_t4", "lease_client_t4").await;
+    let (master_fw, client_fw) =
+        start_master_and_client("lease_master_t4", "lease_client_t4").await;
     let client_view = client_fw.client_kv_api_view();
     wait_master_ready(&client_view).await;
 
diff --git a/fluxon_rs/fluxon_kv/src/metric_reporter/mod.rs b/fluxon_rs/fluxon_kv/src/metric_reporter/mod.rs
index 88fea03..81cbb4a 100644
--- a/fluxon_rs/fluxon_kv/src/metric_reporter/mod.rs
+++ b/fluxon_rs/fluxon_kv/src/metric_reporter/mod.rs
@@ -702,26 +702,29 @@ impl MetricReporter {
         let view = self.view().clone();
         let member = view.cluster_manager().get_self_info();
         let member_role = member.node_role();
-        let enable_system_metrics = match member_role {
-            NodeRole::Master | NodeRole::Client => true,
-            NodeRole::External => false,
+        let (enable_node_metrics, enable_process_metrics) = match member_role {
+            NodeRole::Master | NodeRole::Client => (true, true),
+            NodeRole::External => (false, true),
             NodeRole::Unknown => {
                 // English note:
-                // - Machine-level metrics (host cpu/mem + process cpu/rss) are sampled periodically and can be
-                //   expensive if every external process emits them.
-                // - The system expects only owner/master to report machine/system metrics; unknown role is
-                //   treated as "do not sample" to avoid accidental high-cardinality duplication.
+                // - Node-level metrics must be emitted by owner/master only to avoid duplicate host samples.
+                // - Unknown roles are treated as "do not sample" because their metric ownership is unclear.
                 warn!(
-                    "kv metrics actor: system metrics sampling disabled due to unknown role: member_id={}",
+                    "kv metrics actor: periodic metric sampling disabled due to unknown role: member_id={}",
                     member.id
                 );
-                false
+                (false, false)
             }
         };
         let (node_id, node_role) = resolve_node_labels(&member);
         let prom = self.prom_remote_write_actor_handle().clone();
-        let (handle, owned) =
-            KvMetricsActorOwned::new(node_id, node_role, prom, enable_system_metrics);
+        let (handle, owned) = KvMetricsActorOwned::new(
+            node_id,
+            node_role,
+            prom,
+            enable_node_metrics,
+            enable_process_metrics,
+        );
         // English note:
         // - This handle is best-effort (try_send) and must not impact hot paths.
         // - We attach it to both MetricsHandle (operation-level metrics) and ClusterManager so that
diff --git a/fluxon_rs/fluxon_kv/src/metrics.rs b/fluxon_rs/fluxon_kv/src/metrics.rs
index 88f1b9c..d0ef2b5 100644
--- a/fluxon_rs/fluxon_kv/src/metrics.rs
+++ b/fluxon_rs/fluxon_kv/src/metrics.rs
@@ -4,7 +4,7 @@ use crossbeam::queue::SegQueue;
 use dashmap::DashMap;
 use fluxon_observability::kv_metrics_actor::{
     KvOpEndBytesPulse as ObserveOpEndBytesPulse, KvOpMetric, KvOpMetricGet, KvOpMetricPut,
-    ObserveDirection, ObserveFsIoOp, ObserveHandle, ObserveOp,
+    ObserveCacheEvent, ObserveDirection, ObserveFsIoOp, ObserveHandle, ObserveOp,
 };
 use fluxon_observability::types::FsMountKind;
 use std::borrow::Cow;
@@ -635,8 +635,22 @@ impl MetricsHandle {
     ) {
     }
 
-    pub fn record_cache_hit(&self, _node: &str, _role: &str) {}
-    pub fn record_cache_miss(&self, _node: &str, _role: &str) {}
+    pub fn record_cache_hit(&self, _node: &str, _role: &str) {
+        let Some(observe) = self.observe() else {
+            return;
+        };
+        observe.try_submit(ObserveOp::RecordCacheEvent {
+            event: ObserveCacheEvent::Hit,
+        });
+    }
+    pub fn record_cache_miss(&self, _node: &str, _role: &str) {
+        let Some(observe) = self.observe() else {
+            return;
+        };
+        observe.try_submit(ObserveOp::RecordCacheEvent {
+            event: ObserveCacheEvent::Miss,
+        });
+    }
     pub fn set_cache_bytes(&self, _node: &str, _role: &str, _total_bytes: i64) {}
     pub fn observe_cache_value_size(&self, _node: &str, _role: &str, _size_bytes: u64) {}
 }
diff --git a/fluxon_rs/fluxon_observability/src/keys.rs b/fluxon_rs/fluxon_observability/src/keys.rs
index 88b5db0..8d68924 100644
--- a/fluxon_rs/fluxon_observability/src/keys.rs
+++ b/fluxon_rs/fluxon_observability/src/keys.rs
@@ -24,6 +24,8 @@ pub const PROM_LABEL_RDMA_PORT: &str = "rdma_port";
 pub const PROM_LABEL_RDMA_NETDEV: &str = "rdma_netdev";
 pub const PROM_LABEL_RDMA_PCI_BDF: &str = "rdma_pci_bdf";
 pub const PROM_LABEL_RDMA_TRANSFER_STATE: &str = "rdma_transfer_state";
+pub const PROM_LABEL_GPU_INDEX: &str = "gpu_index";
+pub const PROM_LABEL_GPU_NAME: &str = "gpu_name";
 
 // ---------------- KV peer network observe schema ----------------
 //
@@ -48,9 +50,25 @@ pub const PROM_VALUE_KV_COMPONENT_LOCAL_IPC: &str = "local_ipc";
 // These gauges are emitted by long-running Fluxon processes via the observe actor.
 // Keep names stable once published.
 pub const PROM_METRIC_PROCESS_CPU_USAGE_PERCENT: &str = "process_cpu_usage_percent";
+pub const PROM_METRIC_CLIENT_NETWORK_MBPS: &str = "client_network_mbps";
 pub const PROM_METRIC_CONTAINER_MEMORY_USAGE_BYTES: &str = "container_memory_usage_bytes";
 pub const PROM_METRIC_CONTAINER_MEMORY_LIMIT_BYTES: &str = "container_memory_limit_bytes";
 
+// ---------------- GPU observe schema ----------------
+//
+// These gauges are intentionally node-scoped and low-cardinality. They mirror the lightweight
+// `nvidia-smi --query-gpu ...` and `nvidia-smi pmon -c 1` probes used for operations triage.
+// Do not add per-process GPU labels here; process IDs are high-cardinality and churn quickly.
+pub const PROM_METRIC_GPU_MEMORY_USED_BYTES: &str = "gpu_memory_used_bytes";
+pub const PROM_METRIC_GPU_MEMORY_TOTAL_BYTES: &str = "gpu_memory_total_bytes";
+pub const PROM_METRIC_GPU_UTILIZATION_PERCENT: &str = "gpu_utilization_percent";
+pub const PROM_METRIC_GPU_TEMPERATURE_CELSIUS: &str = "gpu_temperature_celsius";
+pub const PROM_METRIC_GPU_PROCESS_COUNT: &str = "gpu_process_count";
+pub const PROM_METRIC_GPU_PROCESS_SM_UTILIZATION_PERCENT: &str =
+    "gpu_process_sm_utilization_percent";
+pub const PROM_METRIC_GPU_PROCESS_MEMORY_UTILIZATION_PERCENT: &str =
+    "gpu_process_memory_utilization_percent";
+
 // ---------------- Tokio runtime observe schema (stable runtime metrics) ----------------
 //
 // These gauges intentionally use only stable Tokio runtime metrics APIs.
@@ -168,6 +186,11 @@ pub const PROM_METRIC_SHM_FILE_ALLOCATED_BYTES: &str = "shm_file_allocated_bytes
 // Use `rate(...[30s])` to get ops/s in the topology UI.
 pub const PROM_LABEL_FS_IO_OP: &str = "fs_io_op";
 pub const PROM_METRIC_FS_IO_OPS_TOTAL: &str = "fs_io_ops_total";
+pub const PROM_METRIC_KV_CACHE_EVENTS_TOTAL: &str = "kv_cache_events_total";
+pub const PROM_LABEL_CACHE_EVENT: &str = "cache_event";
+pub const PROM_METRIC_KV_OP_END_EVENT_RPS: &str = "kv_op_end_event_rps";
+pub const PROM_METRIC_KV_OP_END_BYTES_PER_SEC: &str = "kv_op_end_bytes_per_sec";
+pub const PROM_METRIC_KV_GET_CACHE_HIT_RATE_PERCENT: &str = "kv_get_cache_hit_rate_percent";
 
 // ---------------- MQ observe schema (labels + metric names) ----------------
 //
diff --git a/fluxon_rs/fluxon_observability/src/kv_metrics_actor.rs b/fluxon_rs/fluxon_observability/src/kv_metrics_actor.rs
index 5690367..31500a6 100644
--- a/fluxon_rs/fluxon_observability/src/kv_metrics_actor.rs
+++ b/fluxon_rs/fluxon_observability/src/kv_metrics_actor.rs
@@ -14,15 +14,22 @@ use fluxon_util::prom_remote_write::{
 };
 
 use crate::keys::{
-    PROM_LABEL_COMPONENT, PROM_LABEL_FS_IO_OP, PROM_LABEL_FS_MOUNT_KIND,
-    PROM_LABEL_FS_MOUNTPOINT_DIR_ABS, PROM_LABEL_FS_TARGET_DIR_ABS, PROM_LABEL_METRIC,
-    PROM_LABEL_NODE, PROM_LABEL_PEER, PROM_LABEL_RDMA_DEVICE, PROM_LABEL_RDMA_NETDEV,
-    PROM_LABEL_RDMA_PCI_BDF, PROM_LABEL_RDMA_PORT, PROM_LABEL_RDMA_TRANSFER_STATE, PROM_LABEL_ROLE,
-    PROM_LABEL_STAT, PROM_LABEL_TCP_THREAD_LANE, PROM_METRIC_CONTAINER_MEMORY_LIMIT_BYTES,
+    PROM_LABEL_CACHE_EVENT, PROM_LABEL_COMPONENT, PROM_LABEL_FS_IO_OP, PROM_LABEL_FS_MOUNT_KIND,
+    PROM_LABEL_FS_MOUNTPOINT_DIR_ABS, PROM_LABEL_FS_TARGET_DIR_ABS, PROM_LABEL_GPU_INDEX,
+    PROM_LABEL_GPU_NAME, PROM_LABEL_METRIC, PROM_LABEL_NODE, PROM_LABEL_PEER,
+    PROM_LABEL_RDMA_DEVICE, PROM_LABEL_RDMA_NETDEV, PROM_LABEL_RDMA_PCI_BDF, PROM_LABEL_RDMA_PORT,
+    PROM_LABEL_RDMA_TRANSFER_STATE, PROM_LABEL_ROLE, PROM_LABEL_STAT, PROM_LABEL_TCP_THREAD_LANE,
+    PROM_METRIC_CLIENT_NETWORK_MBPS, PROM_METRIC_CONTAINER_MEMORY_LIMIT_BYTES,
     PROM_METRIC_CONTAINER_MEMORY_USAGE_BYTES, PROM_METRIC_FS_IO_OPS_TOTAL,
     PROM_METRIC_FS_MOUNT_FS_TOTAL_BYTES, PROM_METRIC_FS_MOUNT_FS_USED_BYTES,
-    PROM_METRIC_KV_PEER_NETWORK_BYTES_TOTAL, PROM_METRIC_P2P_RECV_TRANSPORT_BYTES_TOTAL,
-    PROM_METRIC_P2P_RECV_TRANSPORT_MESSAGES_TOTAL, PROM_METRIC_P2P_RPC_COMPLETION_BYTES_TOTAL,
+    PROM_METRIC_GPU_MEMORY_TOTAL_BYTES, PROM_METRIC_GPU_MEMORY_USED_BYTES,
+    PROM_METRIC_GPU_PROCESS_COUNT, PROM_METRIC_GPU_PROCESS_MEMORY_UTILIZATION_PERCENT,
+    PROM_METRIC_GPU_PROCESS_SM_UTILIZATION_PERCENT, PROM_METRIC_GPU_TEMPERATURE_CELSIUS,
+    PROM_METRIC_GPU_UTILIZATION_PERCENT, PROM_METRIC_KV_CACHE_EVENTS_TOTAL,
+    PROM_METRIC_KV_GET_CACHE_HIT_RATE_PERCENT, PROM_METRIC_KV_OP_END_BYTES_PER_SEC,
+    PROM_METRIC_KV_OP_END_EVENT_RPS, PROM_METRIC_KV_PEER_NETWORK_BYTES_TOTAL,
+    PROM_METRIC_P2P_RECV_TRANSPORT_BYTES_TOTAL, PROM_METRIC_P2P_RECV_TRANSPORT_MESSAGES_TOTAL,
+    PROM_METRIC_P2P_RPC_COMPLETION_BYTES_TOTAL,
     PROM_METRIC_P2P_RPC_COMPLETION_LATENCY_SAMPLE_COUNT,
     PROM_METRIC_P2P_RPC_COMPLETION_LATENCY_STAT_US, PROM_METRIC_P2P_RPC_COMPLETION_MESSAGES_TOTAL,
     PROM_METRIC_PROCESS_CPU_USAGE_PERCENT, PROM_METRIC_RDMA_PORT_ACTIVE_MTU_BYTES,
@@ -186,6 +193,21 @@ impl ObserveFsIoOp {
     }
 }
 
+#[derive(Clone, Copy, Debug, PartialEq, Eq)]
+pub enum ObserveCacheEvent {
+    Hit,
+    Miss,
+}
+
+impl ObserveCacheEvent {
+    pub const fn as_label(self) -> &'static str {
+        match self {
+            ObserveCacheEvent::Hit => "hit",
+            ObserveCacheEvent::Miss => "miss",
+        }
+    }
+}
+
 #[derive(Clone, Debug)]
 pub struct ObserveNodeOverride {
     pub node: String,
@@ -842,6 +864,9 @@ pub enum ObserveOp {
         direction: ObserveDirection,
         bytes: u64,
     },
+    RecordCacheEvent {
+        event: ObserveCacheEvent,
+    },
     RecordFsIoOps {
         op: ObserveFsIoOp,
         ops: u64,
@@ -1136,6 +1161,11 @@ pub struct KvMetricsActorOwned {
     // Metrics (Prom collectors)
     operation_stat_gauge: GaugeVec,
     client_network_bytes_counter: CounterVec,
+    client_network_mbps_gauge: GaugeVec,
+    cache_events_counter: CounterVec,
+    kv_op_end_event_rps_gauge: GaugeVec,
+    kv_op_end_bytes_per_sec_gauge: GaugeVec,
+    kv_get_cache_hit_rate_percent_gauge: GaugeVec,
     kv_peer_network_bytes_counter: CounterVec,
     tcp_thread_latency_stat_gauge: GaugeVec,
     tcp_thread_latency_sample_count_gauge: GaugeVec,
@@ -1153,6 +1183,13 @@ pub struct KvMetricsActorOwned {
     node_memory_total_gauge: GaugeVec,
     container_memory_usage_gauge: GaugeVec,
     container_memory_limit_gauge: GaugeVec,
+    gpu_memory_used_gauge: GaugeVec,
+    gpu_memory_total_gauge: GaugeVec,
+    gpu_utilization_gauge: GaugeVec,
+    gpu_temperature_gauge: GaugeVec,
+    gpu_process_count_gauge: GaugeVec,
+    gpu_process_sm_utilization_gauge: GaugeVec,
+    gpu_process_memory_utilization_gauge: GaugeVec,
     process_resident_memory_gauge: GaugeVec,
     process_cpu_usage_gauge: GaugeVec,
     tokio_num_workers_gauge: GaugeVec,
@@ -1200,13 +1237,16 @@ pub struct KvMetricsActorOwned {
     pending_op_end_pulses: Vec<KvOpEndBytesPulse>,
     pending_tcp_thread_latency_samples: Vec<ObserveTcpThreadLatencySample>,
     pending_p2p_rpc_completion_latency_samples: Vec<ObserveP2pRpcCompletionLatencySample>,
+    pending_client_network_tx_bytes: u64,
+    pending_client_network_rx_bytes: u64,
     received_kv_op_metric_count: u64,
     received_op_end_pulse_count: u64,
     received_tcp_thread_latency_sample_count: u64,
     received_p2p_rpc_completion_latency_sample_count: u64,
     flush_count: u64,
 
-    enable_system_metrics: bool,
+    enable_node_metrics: bool,
+    enable_process_metrics: bool,
 }
 
 fn register_collector(registry: &Registry, collector: Box<dyn Collector>) {
@@ -1222,7 +1262,8 @@ impl KvMetricsActorOwned {
         node_id: String,
         node_role: String,
         prom: PromRemoteWriteHandle,
-        enable_system_metrics: bool,
+        enable_node_metrics: bool,
+        enable_process_metrics: bool,
     ) -> (ObserveHandle, Self) {
         let (tx, rx) = mpsc::channel(MAX_PENDING_EVENTS);
         let tcp_thread_transport_accumulator =
@@ -1257,6 +1298,51 @@ impl KvMetricsActorOwned {
         )
         .expect("client network bytes counter");
 
+        let client_network_mbps_gauge = GaugeVec::new(
+            Opts::new(
+                PROM_METRIC_CLIENT_NETWORK_MBPS,
+                "Windowed client network bandwidth in Mbps by node, role, and direction",
+            ),
+            &[PROM_LABEL_NODE, PROM_LABEL_ROLE, "direction"],
+        )
+        .expect("client network mbps gauge");
+
+        let cache_events_counter = CounterVec::new(
+            Opts::new(
+                PROM_METRIC_KV_CACHE_EVENTS_TOTAL,
+                "Total KV cache hit/miss events by node and role",
+            ),
+            &[PROM_LABEL_NODE, PROM_LABEL_ROLE, PROM_LABEL_CACHE_EVENT],
+        )
+        .expect("kv cache events counter");
+
+        let kv_op_end_event_rps_gauge = GaugeVec::new(
+            Opts::new(
+                PROM_METRIC_KV_OP_END_EVENT_RPS,
+                "Windowed KV op-end events per second by node, role, op, and status",
+            ),
+            &[PROM_LABEL_NODE, PROM_LABEL_ROLE, "op", "status"],
+        )
+        .expect("kv op end event rps gauge");
+
+        let kv_op_end_bytes_per_sec_gauge = GaugeVec::new(
+            Opts::new(
+                PROM_METRIC_KV_OP_END_BYTES_PER_SEC,
+                "Windowed KV op-end bytes per second by node, role, op, and status",
+            ),
+            &[PROM_LABEL_NODE, PROM_LABEL_ROLE, "op", "status"],
+        )
+        .expect("kv op end bytes per sec gauge");
+
+        let kv_get_cache_hit_rate_percent_gauge = GaugeVec::new(
+            Opts::new(
+                PROM_METRIC_KV_GET_CACHE_HIT_RATE_PERCENT,
+                "Windowed KV get cache hit rate percent by node and role",
+            ),
+            &[PROM_LABEL_NODE, PROM_LABEL_ROLE],
+        )
+        .expect("kv get cache hit rate percent gauge");
+
         let kv_peer_network_bytes_counter = CounterVec::new(
             Opts::new(
                 PROM_METRIC_KV_PEER_NETWORK_BYTES_TOTAL,
@@ -1452,6 +1538,76 @@ impl KvMetricsActorOwned {
         )
         .expect("container memory limit gauge");
 
+        let gpu_labels = &[
+            PROM_LABEL_NODE,
+            PROM_LABEL_ROLE,
+            PROM_LABEL_GPU_INDEX,
+            PROM_LABEL_GPU_NAME,
+        ];
+
+        let gpu_memory_used_gauge = GaugeVec::new(
+            Opts::new(
+                PROM_METRIC_GPU_MEMORY_USED_BYTES,
+                "GPU memory used in bytes from nvidia-smi",
+            ),
+            gpu_labels,
+        )
+        .expect("gpu memory used gauge");
+
+        let gpu_memory_total_gauge = GaugeVec::new(
+            Opts::new(
+                PROM_METRIC_GPU_MEMORY_TOTAL_BYTES,
+                "GPU memory total in bytes from nvidia-smi",
+            ),
+            gpu_labels,
+        )
+        .expect("gpu memory total gauge");
+
+        let gpu_utilization_gauge = GaugeVec::new(
+            Opts::new(
+                PROM_METRIC_GPU_UTILIZATION_PERCENT,
+                "GPU utilization percentage from nvidia-smi",
+            ),
+            gpu_labels,
+        )
+        .expect("gpu utilization gauge");
+
+        let gpu_temperature_gauge = GaugeVec::new(
+            Opts::new(
+                PROM_METRIC_GPU_TEMPERATURE_CELSIUS,
+                "GPU temperature in Celsius from nvidia-smi",
+            ),
+            gpu_labels,
+        )
+        .expect("gpu temperature gauge");
+
+        let gpu_process_count_gauge = GaugeVec::new(
+            Opts::new(
+                PROM_METRIC_GPU_PROCESS_COUNT,
+                "GPU process count from nvidia-smi pmon",
+            ),
+            gpu_labels,
+        )
+        .expect("gpu process count gauge");
+
+        let gpu_process_sm_utilization_gauge = GaugeVec::new(
+            Opts::new(
+                PROM_METRIC_GPU_PROCESS_SM_UTILIZATION_PERCENT,
+                "Sum of per-process SM utilization percentages from nvidia-smi pmon",
+            ),
+            gpu_labels,
+        )
+        .expect("gpu process sm utilization gauge");
+
+        let gpu_process_memory_utilization_gauge = GaugeVec::new(
+            Opts::new(
+                PROM_METRIC_GPU_PROCESS_MEMORY_UTILIZATION_PERCENT,
+                "Sum of per-process memory utilization percentages from nvidia-smi pmon",
+            ),
+            gpu_labels,
+        )
+        .expect("gpu process memory utilization gauge");
+
         let process_resident_memory_gauge = GaugeVec::new(
             Opts::new(
                 "process_resident_memory_bytes",
@@ -1773,6 +1929,14 @@ impl KvMetricsActorOwned {
 
         register_collector(&registry, Box::new(operation_stat_gauge.clone()));
         register_collector(&registry, Box::new(client_network_bytes_counter.clone()));
+        register_collector(&registry, Box::new(client_network_mbps_gauge.clone()));
+        register_collector(&registry, Box::new(cache_events_counter.clone()));
+        register_collector(&registry, Box::new(kv_op_end_event_rps_gauge.clone()));
+        register_collector(&registry, Box::new(kv_op_end_bytes_per_sec_gauge.clone()));
+        register_collector(
+            &registry,
+            Box::new(kv_get_cache_hit_rate_percent_gauge.clone()),
+        );
         register_collector(&registry, Box::new(kv_peer_network_bytes_counter.clone()));
         register_collector(&registry, Box::new(tcp_thread_latency_stat_gauge.clone()));
         register_collector(
@@ -1817,6 +1981,19 @@ impl KvMetricsActorOwned {
         register_collector(&registry, Box::new(node_memory_total_gauge.clone()));
         register_collector(&registry, Box::new(container_memory_usage_gauge.clone()));
         register_collector(&registry, Box::new(container_memory_limit_gauge.clone()));
+        register_collector(&registry, Box::new(gpu_memory_used_gauge.clone()));
+        register_collector(&registry, Box::new(gpu_memory_total_gauge.clone()));
+        register_collector(&registry, Box::new(gpu_utilization_gauge.clone()));
+        register_collector(&registry, Box::new(gpu_temperature_gauge.clone()));
+        register_collector(&registry, Box::new(gpu_process_count_gauge.clone()));
+        register_collector(
+            &registry,
+            Box::new(gpu_process_sm_utilization_gauge.clone()),
+        );
+        register_collector(
+            &registry,
+            Box::new(gpu_process_memory_utilization_gauge.clone()),
+        );
         register_collector(&registry, Box::new(process_resident_memory_gauge.clone()));
         register_collector(&registry, Box::new(process_cpu_usage_gauge.clone()));
         register_collector(&registry, Box::new(tokio_num_workers_gauge.clone()));
@@ -1877,6 +2054,11 @@ impl KvMetricsActorOwned {
             registry,
             operation_stat_gauge,
             client_network_bytes_counter,
+            client_network_mbps_gauge,
+            cache_events_counter,
+            kv_op_end_event_rps_gauge,
+            kv_op_end_bytes_per_sec_gauge,
+            kv_get_cache_hit_rate_percent_gauge,
             kv_peer_network_bytes_counter,
             tcp_thread_latency_stat_gauge,
             tcp_thread_latency_sample_count_gauge,
@@ -1894,6 +2076,13 @@ impl KvMetricsActorOwned {
             node_memory_total_gauge,
             container_memory_usage_gauge,
             container_memory_limit_gauge,
+            gpu_memory_used_gauge,
+            gpu_memory_total_gauge,
+            gpu_utilization_gauge,
+            gpu_temperature_gauge,
+            gpu_process_count_gauge,
+            gpu_process_sm_utilization_gauge,
+            gpu_process_memory_utilization_gauge,
             process_resident_memory_gauge,
             process_cpu_usage_gauge,
             tokio_num_workers_gauge,
@@ -1935,12 +2124,15 @@ impl KvMetricsActorOwned {
             pending_op_end_pulses: Vec::new(),
             pending_tcp_thread_latency_samples: Vec::new(),
             pending_p2p_rpc_completion_latency_samples: Vec::new(),
+            pending_client_network_tx_bytes: 0,
+            pending_client_network_rx_bytes: 0,
             received_kv_op_metric_count: 0,
             received_op_end_pulse_count: 0,
             received_tcp_thread_latency_sample_count: 0,
             received_p2p_rpc_completion_latency_sample_count: 0,
             flush_count: 0,
-            enable_system_metrics,
+            enable_node_metrics,
+            enable_process_metrics,
         };
 
         (handle, owned)
@@ -2102,6 +2294,25 @@ impl KvMetricsActorOwned {
                         direction.as_label(),
                     ])
                     .inc_by(bytes as f64);
+                match direction {
+                    ObserveDirection::Tx => {
+                        self.pending_client_network_tx_bytes =
+                            self.pending_client_network_tx_bytes.saturating_add(bytes);
+                    }
+                    ObserveDirection::Rx => {
+                        self.pending_client_network_rx_bytes =
+                            self.pending_client_network_rx_bytes.saturating_add(bytes);
+                    }
+                }
+            }
+            ObserveOp::RecordCacheEvent { event } => {
+                self.cache_events_counter
+                    .with_label_values(&[
+                        self.node_id.as_str(),
+                        self.node_role.as_str(),
+                        event.as_label(),
+                    ])
+                    .inc();
             }
             ObserveOp::RecordFsIoOps { op, ops } => {
                 if ops == 0 {
@@ -2229,8 +2440,8 @@ impl KvMetricsActorOwned {
         }
     }
 
-    fn tick_sample_system_metrics(&self) {
-        if !self.enable_system_metrics {
+    fn tick_sample_metrics(&self) {
+        if !self.enable_node_metrics && !self.enable_process_metrics {
             return;
         }
 
@@ -2256,29 +2467,37 @@ impl KvMetricsActorOwned {
                 .store(now as u64, Ordering::SeqCst);
         }
 
-        if let Err(err) = sample_cpu_usage_percent(self, node, role) {
-            warn!("failed to sample cpu usage: {err}");
-        }
-        if let Err(err) = sample_cpu_logical_cores(self, node, role) {
-            warn!("failed to sample cpu logical cores: {err}");
-        }
-        if let Err(err) = sample_host_memory_bytes(self, node, role) {
-            warn!("failed to sample host memory: {err}");
-        }
-        if let Err(err) = sample_container_memory_bytes(self, node, role) {
-            warn!("failed to sample container memory: {err}");
-        }
-        if let Err(err) = sample_process_cpu_usage_percent(self, node, role) {
-            warn!("failed to sample process cpu usage: {err}");
-        }
-        if let Err(err) = sample_process_rss_bytes(self, node, role) {
-            warn!("failed to sample process rss: {err}");
-        }
-        if let Err(err) = sample_tokio_runtime_metrics(self, node, role) {
-            warn!("failed to sample tokio runtime metrics: {err}");
+        if self.enable_node_metrics {
+            if let Err(err) = sample_cpu_usage_percent(self, node, role) {
+                warn!("failed to sample cpu usage: {err}");
+            }
+            if let Err(err) = sample_cpu_logical_cores(self, node, role) {
+                warn!("failed to sample cpu logical cores: {err}");
+            }
+            if let Err(err) = sample_host_memory_bytes(self, node, role) {
+                warn!("failed to sample host memory: {err}");
+            }
+            if let Err(err) = sample_container_memory_bytes(self, node, role) {
+                warn!("failed to sample container memory: {err}");
+            }
+            if let Err(err) = sample_gpu_metrics(self, node, role) {
+                debug!("failed to sample gpu metrics: {err}");
+            }
+            if let Err(err) = sample_network_bytes_by_interface(self, node) {
+                debug!("/proc/net/dev not available: {err}");
+            }
         }
-        if let Err(err) = sample_network_bytes_by_interface(self, node) {
-            debug!("/proc/net/dev not available: {err}");
+
+        if self.enable_process_metrics {
+            if let Err(err) = sample_process_cpu_usage_percent(self, node, role) {
+                warn!("failed to sample process cpu usage: {err}");
+            }
+            if let Err(err) = sample_process_rss_bytes(self, node, role) {
+                warn!("failed to sample process rss: {err}");
+            }
+            if let Err(err) = sample_tokio_runtime_metrics(self, node, role) {
+                warn!("failed to sample tokio runtime metrics: {err}");
+            }
         }
     }
 
@@ -2422,6 +2641,72 @@ impl KvMetricsActorOwned {
         summaries
     }
 
+    fn tick_compute_and_set_kv_op_window_rates(
+        &self,
+        pulses: &[KvOpEndBytesPulse],
+        flush_interval: Duration,
+    ) {
+        self.kv_op_end_event_rps_gauge.reset();
+        self.kv_op_end_bytes_per_sec_gauge.reset();
+        self.kv_get_cache_hit_rate_percent_gauge.reset();
+
+        let window_secs = flush_interval.as_secs_f64().max(1.0);
+        let mut buckets: HashMap<(&'static str, &'static str), (u64, u64)> = HashMap::new();
+        for pulse in pulses {
+            let entry = buckets.entry((pulse.op, pulse.status)).or_insert((0, 0));
+            entry.0 = entry.0.saturating_add(1);
+            entry.1 = entry.1.saturating_add(pulse.bytes);
+        }
+
+        let node = self.node_id.as_str();
+        let role = self.node_role.as_str();
+        let mut get_hit_events = 0u64;
+        let mut get_success_events = 0u64;
+        for ((op, status), (event_count, total_bytes)) in buckets {
+            let event_rps = event_count as f64 / window_secs;
+            let bytes_per_sec = total_bytes as f64 / window_secs;
+            self.kv_op_end_event_rps_gauge
+                .with_label_values(&[node, role, op, status])
+                .set(event_rps);
+            self.kv_op_end_bytes_per_sec_gauge
+                .with_label_values(&[node, role, op, status])
+                .set(bytes_per_sec);
+            if op == "get" && status == "hit" {
+                get_hit_events = event_count;
+            }
+            if op == "get" && status == "success" {
+                get_success_events = event_count;
+            }
+        }
+
+        let total_get_events = get_hit_events.saturating_add(get_success_events);
+        let hit_rate_percent = if total_get_events == 0 {
+            0.0
+        } else {
+            100.0 * (get_hit_events as f64) / (total_get_events as f64)
+        };
+        self.kv_get_cache_hit_rate_percent_gauge
+            .with_label_values(&[node, role])
+            .set(hit_rate_percent);
+    }
+
+    fn tick_compute_and_set_client_network_mbps(&mut self, flush_interval: Duration) {
+        self.client_network_mbps_gauge.reset();
+        let window_secs = flush_interval.as_secs_f64().max(1.0);
+        let tx_mbps = self.pending_client_network_tx_bytes as f64 * 8.0 / window_secs / 1_000_000.0;
+        let rx_mbps = self.pending_client_network_rx_bytes as f64 * 8.0 / window_secs / 1_000_000.0;
+        let node = self.node_id.as_str();
+        let role = self.node_role.as_str();
+        self.client_network_mbps_gauge
+            .with_label_values(&[node, role, "tx"])
+            .set(tx_mbps);
+        self.client_network_mbps_gauge
+            .with_label_values(&[node, role, "rx"])
+            .set(rx_mbps);
+        self.pending_client_network_tx_bytes = 0;
+        self.pending_client_network_rx_bytes = 0;
+    }
+
     fn tick_compute_and_set_tcp_thread_latency_stats(
         &self,
         samples: &[ObserveTcpThreadLatencySample],
@@ -2806,9 +3091,14 @@ impl KvMetricsActorOwned {
                         p2p_rpc_completion_counter_summaries.len();
                     self.shm_file_size_bytes_gauge.reset();
                     self.shm_file_allocated_bytes_gauge.reset();
-                    self.tick_sample_system_metrics();
+                    self.tick_sample_metrics();
                     let operation_summaries =
                         self.tick_compute_and_set_operation_stats(&self.pending_kv_op_metrics);
+                    self.tick_compute_and_set_kv_op_window_rates(
+                        &self.pending_op_end_pulses,
+                        flush_interval,
+                    );
+                    self.tick_compute_and_set_client_network_mbps(flush_interval);
                     let tcp_thread_latency_summaries = self.tick_compute_and_set_tcp_thread_latency_stats(
                         &self.pending_tcp_thread_latency_samples,
                     );
@@ -3194,6 +3484,170 @@ fn sample_container_memory_bytes(
     Ok(())
 }
 
+#[derive(Debug, Clone)]
+struct GpuQuerySample {
+    index: String,
+    name: String,
+    memory_used_bytes: f64,
+    memory_total_bytes: f64,
+    utilization_percent: f64,
+    temperature_celsius: f64,
+}
+
+#[derive(Debug, Clone, Default)]
+struct GpuPmonSample {
+    process_count: u64,
+    sm_utilization_percent_sum: f64,
+    memory_utilization_percent_sum: f64,
+}
+
+fn sample_gpu_metrics(actor: &KvMetricsActorOwned, node: &str, role: &str) -> anyhow::Result<()> {
+    actor.gpu_memory_used_gauge.reset();
+    actor.gpu_memory_total_gauge.reset();
+    actor.gpu_utilization_gauge.reset();
+    actor.gpu_temperature_gauge.reset();
+    actor.gpu_process_count_gauge.reset();
+    actor.gpu_process_sm_utilization_gauge.reset();
+    actor.gpu_process_memory_utilization_gauge.reset();
+
+    let gpu_samples = read_nvidia_smi_gpu_query()?;
+    let pmon_samples = read_nvidia_smi_pmon().unwrap_or_default();
+
+    for sample in gpu_samples {
+        let pmon = pmon_samples.get(&sample.index).cloned().unwrap_or_default();
+        let labels = [node, role, sample.index.as_str(), sample.name.as_str()];
+        actor
+            .gpu_memory_used_gauge
+            .with_label_values(&labels)
+            .set(sample.memory_used_bytes);
+        actor
+            .gpu_memory_total_gauge
+            .with_label_values(&labels)
+            .set(sample.memory_total_bytes);
+        actor
+            .gpu_utilization_gauge
+            .with_label_values(&labels)
+            .set(sample.utilization_percent);
+        actor
+            .gpu_temperature_gauge
+            .with_label_values(&labels)
+            .set(sample.temperature_celsius);
+        actor
+            .gpu_process_count_gauge
+            .with_label_values(&labels)
+            .set(pmon.process_count as f64);
+        actor
+            .gpu_process_sm_utilization_gauge
+            .with_label_values(&labels)
+            .set(pmon.sm_utilization_percent_sum);
+        actor
+            .gpu_process_memory_utilization_gauge
+            .with_label_values(&labels)
+            .set(pmon.memory_utilization_percent_sum);
+    }
+
+    Ok(())
+}
+
+fn read_nvidia_smi_gpu_query() -> anyhow::Result<Vec<GpuQuerySample>> {
+    use anyhow::Context;
+    let output = std::process::Command::new("nvidia-smi")
+        .arg("--query-gpu=index,name,memory.used,memory.total,utilization.gpu,temperature.gpu")
+        .arg("--format=csv,noheader,nounits")
+        .output()
+        .context("run nvidia-smi gpu query")?;
+    if !output.status.success() {
+        anyhow::bail!(
+            "nvidia-smi gpu query exited with status={} stderr={}",
+            output.status,
+            String::from_utf8_lossy(&output.stderr).trim()
+        );
+    }
+    let stdout = String::from_utf8(output.stdout).context("nvidia-smi gpu query stdout utf8")?;
+    let mut out = Vec::new();
+    for (line_idx, line) in stdout.lines().enumerate() {
+        let line = line.trim();
+        if line.is_empty() {
+            continue;
+        }
+        let cols: Vec<&str> = line.split(',').map(|s| s.trim()).collect();
+        if cols.len() != 6 {
+            anyhow::bail!(
+                "unexpected nvidia-smi gpu query line {}: {}",
+                line_idx + 1,
+                line
+            );
+        }
+        let memory_used_mib = parse_nvidia_number(cols[2])
+            .with_context(|| format!("parse gpu memory.used line {}", line_idx + 1))?;
+        let memory_total_mib = parse_nvidia_number(cols[3])
+            .with_context(|| format!("parse gpu memory.total line {}", line_idx + 1))?;
+        let utilization_percent = parse_nvidia_number(cols[4])
+            .with_context(|| format!("parse gpu utilization line {}", line_idx + 1))?;
+        let temperature_celsius = parse_nvidia_number(cols[5])
+            .with_context(|| format!("parse gpu temperature line {}", line_idx + 1))?;
+        out.push(GpuQuerySample {
+            index: cols[0].to_string(),
+            name: cols[1].to_string(),
+            memory_used_bytes: memory_used_mib * 1024.0 * 1024.0,
+            memory_total_bytes: memory_total_mib * 1024.0 * 1024.0,
+            utilization_percent,
+            temperature_celsius,
+        });
+    }
+    Ok(out)
+}
+
+fn read_nvidia_smi_pmon() -> anyhow::Result<HashMap<String, GpuPmonSample>> {
+    use anyhow::Context;
+    let output = std::process::Command::new("nvidia-smi")
+        .arg("pmon")
+        .arg("-c")
+        .arg("1")
+        .output()
+        .context("run nvidia-smi pmon")?;
+    if !output.status.success() {
+        anyhow::bail!(
+            "nvidia-smi pmon exited with status={} stderr={}",
+            output.status,
+            String::from_utf8_lossy(&output.stderr).trim()
+        );
+    }
+    let stdout = String::from_utf8(output.stdout).context("nvidia-smi pmon stdout utf8")?;
+    let mut out: HashMap<String, GpuPmonSample> = HashMap::new();
+    for line in stdout.lines() {
+        let line = line.trim();
+        if line.is_empty() || line.starts_with('#') {
+            continue;
+        }
+        let cols: Vec<&str> = line.split_whitespace().collect();
+        if cols.len() < 5 {
+            continue;
+        }
+        let gpu = cols[0].trim();
+        let pid = cols[1].trim();
+        if gpu == "-" || pid == "-" {
+            continue;
+        }
+        let sm = parse_nvidia_number(cols[3]).unwrap_or(0.0);
+        let mem = parse_nvidia_number(cols[4]).unwrap_or(0.0);
+        let entry = out.entry(gpu.to_string()).or_default();
+        entry.process_count = entry.process_count.saturating_add(1);
+        entry.sm_utilization_percent_sum += sm;
+        entry.memory_utilization_percent_sum += mem;
+    }
+    Ok(out)
+}
+
+fn parse_nvidia_number(s: &str) -> anyhow::Result<f64> {
+    let t = s.trim();
+    if t.is_empty() || t == "-" || t.eq_ignore_ascii_case("[not supported]") {
+        anyhow::bail!("not a numeric nvidia-smi field: {:?}", s);
+    }
+    let t = t.trim_end_matches('%').trim();
+    Ok(t.parse::<f64>()?)
+}
+
 fn read_self_container_memory_sample() -> anyhow::Result<CgroupMemorySample> {
     let proc_cgroups = read_proc_self_cgroup()?;
     let mountinfo = read_proc_self_mountinfo()?;
diff --git a/fluxon_test_stack/start_test_bed.py b/fluxon_test_stack/start_test_bed.py
index 2b13d22..b471ff3 100644
--- a/fluxon_test_stack/start_test_bed.py
+++ b/fluxon_test_stack/start_test_bed.py
@@ -172,7 +172,11 @@ def main() -> None:
         )
     cluster_nodes = _parse_cluster_nodes(deployconf)
     cluster_name = _parse_cluster_name(deployconf)
-    local_node_cfg = _resolve_local_node_cfg(cluster_nodes)
+    controller_url = _require_str(config.get("controller_url"), "controller_url").rstrip("/")
+    local_node_cfg = _resolve_local_node_cfg(
+        cluster_nodes,
+        controller_url=controller_url,
+    )
     local_node_name = _require_str(local_node_cfg.get("hostname"), "local_node_cfg.hostname")
     bootstrap_mode = args.bootstrap_mode
     bootstrap_bare_services = _parse_bootstrap_bare_services(deployconf)
@@ -191,7 +195,6 @@ def main() -> None:
         config.get("deploy_workloads"),
         field_name="deploy_workloads",
     )
-    controller_url = _require_str(config.get("controller_url"), "controller_url").rstrip("/")
     _install_controller_basic_auth(
         config.get("controller_basic_auth"),
         field_name="controller_basic_auth",
@@ -268,7 +271,7 @@ def main() -> None:
     # - It must not prune desired files or inspect cluster membership directly.
     # - Coverage bare is config-derived, not controller-readiness-derived.
     # - This entry intentionally does not run takeover rescue or fallback loops.
-    release_manifest_sha256 = _read_local_release_manifest_sha256(
+    release_manifest_sha256 = _read_release_manifest_sha256(
         deployconf=deployconf,
         local_node_cfg=local_node_cfg,
     )
@@ -656,13 +659,20 @@ def _stop_local_controller_handover_selections(
                 flush=True,
             )
             try:
-                _run_local_stop(
-                    local_node_cfg=local_node_cfg,
-                    service_name=service_name,
-                )
+                if _cluster_node_is_local(local_node_cfg):
+                    _run_local_stop(
+                        local_node_cfg=local_node_cfg,
+                        service_name=service_name,
+                    )
+                else:
+                    _run_remote_stop(
+                        node_name=local_node_name,
+                        node_cfg=local_node_cfg,
+                        service_name=service_name,
+                    )
             except Exception as exc:
                 raise RuntimeError(
-                    "local controller handover stop failed via generated bare stop script: "
+                    "controller handover stop failed via generated bare stop script: "
                     f"node={local_node_name} selection={selection_name} service={service_name}"
                 ) from exc
             stopped_service_names.append(service_name)
@@ -1151,6 +1161,34 @@ def _read_local_release_manifest_sha256(
     return hashlib.sha256(manifest_path.read_bytes()).hexdigest()
 
 
+def _read_release_manifest_sha256(
+    *,
+    deployconf: dict[str, Any],
+    local_node_cfg: dict[str, Any],
+) -> str:
+    global_envs = deployconf.get("global_envs")
+    if not isinstance(global_envs, dict):
+        raise ValueError("deployconf.global_envs must be a mapping")
+    release_manifest_name = _require_str(
+        global_envs.get("FLUXON_RELEASE_SHA256_FILE"),
+        "global_envs.FLUXON_RELEASE_SHA256_FILE",
+    )
+    hostworkdir = _require_str(local_node_cfg.get("hostworkdir"), "local_node_cfg.hostworkdir")
+    manifest_path = Path(hostworkdir) / "fluxon_release" / release_manifest_name
+    if _cluster_node_is_local(local_node_cfg):
+        if not manifest_path.exists():
+            raise ValueError(f"Missing local release manifest for payload fingerprint: {manifest_path}")
+        return hashlib.sha256(manifest_path.read_bytes()).hexdigest()
+    raw_bytes = _read_remote_file_bytes_if_exists(
+        node_name=_require_str(local_node_cfg.get("hostname"), "local_node_cfg.hostname"),
+        node_cfg=local_node_cfg,
+        path=manifest_path,
+    )
+    if raw_bytes is None:
+        raise ValueError(f"Missing remote release manifest for payload fingerprint: {manifest_path}")
+    return hashlib.sha256(raw_bytes).hexdigest()
+
+
 def _with_release_manifest_sha256_env(
     *,
     deployconf: dict[str, Any],
@@ -1830,7 +1868,11 @@ def _parse_name_list(raw: Any, *, field_name: str) -> list[str]:
     return _require_list_of_str(raw, field_name)
 
 
-def _resolve_local_node_cfg(cluster_nodes: dict[str, dict[str, Any]]) -> dict[str, Any]:
+def _resolve_local_node_cfg(
+    cluster_nodes: dict[str, dict[str, Any]],
+    *,
+    controller_url: str,
+) -> dict[str, Any]:
     local_nodes = [node_cfg for node_cfg in cluster_nodes.values() if _cluster_node_is_local(node_cfg)]
     if local_nodes:
         local_hostname = subprocess.check_output(["hostname"], text=True).strip()
@@ -1842,13 +1884,53 @@ def _resolve_local_node_cfg(cluster_nodes: dict[str, dict[str, Any]]) -> dict[st
         if local_controller_nodes:
             return local_controller_nodes[0]
         return local_nodes[0]
+    controller_node_cfg = _resolve_controller_node_cfg(
+        cluster_nodes=cluster_nodes,
+        controller_url=controller_url,
+    )
+    if controller_node_cfg is not None:
+        return controller_node_cfg
     local_hostname = subprocess.check_output(["hostname"], text=True).strip()
     node_cfg = cluster_nodes.get(local_hostname)
     if node_cfg is None:
-        raise ValueError(f"Current hostname is not present in deployconf.cluster_nodes: {local_hostname}")
+        raise ValueError(
+            "Current hostname is not present in deployconf.cluster_nodes and controller_url "
+            f"did not resolve to a cluster node: hostname={local_hostname} controller_url={controller_url}"
+        )
     return node_cfg
 
 
+def _resolve_controller_node_cfg(
+    *,
+    cluster_nodes: dict[str, dict[str, Any]],
+    controller_url: str,
+) -> dict[str, Any] | None:
+    parsed = urllib.parse.urlparse(controller_url)
+    controller_host = parsed.hostname
+    if controller_host is None:
+        return None
+    matched: list[dict[str, Any]] = []
+    for node_name, node_cfg in cluster_nodes.items():
+        node_hostnames = {
+            str(node_name),
+            _require_str(node_cfg.get("hostname"), f"cluster_nodes[{node_name}].hostname"),
+            _cluster_node_ssh_host(node_cfg, node_name=node_name),
+        }
+        ip_raw = node_cfg.get("ip")
+        if isinstance(ip_raw, str) and ip_raw.strip():
+            node_hostnames.add(ip_raw.strip())
+        if controller_host in node_hostnames:
+            matched.append(node_cfg)
+    if not matched:
+        return None
+    if len(matched) > 1:
+        raise ValueError(
+            "controller_url host matches multiple cluster nodes; controller endpoint must resolve uniquely: "
+            f"controller_url={controller_url} matched={[item.get('hostname') for item in matched]}"
+        )
+    return matched[0]
+
+
 def _cluster_node_is_local(node_cfg: dict[str, Any]) -> bool:
     execution_mode = _require_str(node_cfg.get("execution_mode", "ssh"), "cluster_nodes[].execution_mode")
     return execution_mode == "local"
@@ -2749,8 +2831,17 @@ def _validate_release_generation_prerequisites(
     local_release_dir = Path(local_hostworkdir) / "fluxon_release"
     for filename in required_release_files:
         path = local_release_dir / filename
-        if not path.exists():
-            raise ValueError(f"Missing required local release artifact: {path}")
+        if _cluster_node_is_local(local_node_cfg):
+            if not path.exists():
+                raise ValueError(f"Missing required local release artifact: {path}")
+            continue
+        raw_bytes = _read_remote_file_bytes_if_exists(
+            node_name=_require_str(local_node_cfg.get("hostname"), "local_node_cfg.hostname"),
+            node_cfg=local_node_cfg,
+            path=path,
+        )
+        if raw_bytes is None:
+            raise ValueError(f"Missing required remote release artifact: {path}")
 
 
 def _validate_bare_bootstrap_prerequisites(
@@ -2762,11 +2853,19 @@ def _validate_bare_bootstrap_prerequisites(
     coverage_bootstrap_services: list[str],
 ) -> None:
     local_hostworkdir = _require_str(local_node_cfg.get("hostworkdir"), "local_node_cfg.hostworkdir")
-    local_node_name = _require_str(local_node_cfg.get("hostname"), "local_node_cfg.hostname")
     local_release_dir = Path(local_hostworkdir) / "fluxon_release"
     local_etcdctl = local_release_dir / "ext_images" / "etcd" / "etcdctl"
-    if not local_etcdctl.exists():
-        raise ValueError(f"Missing required local etcdctl for test bed checks: {local_etcdctl}")
+    if _cluster_node_is_local(local_node_cfg):
+        if not local_etcdctl.exists():
+            raise ValueError(f"Missing required local etcdctl for test bed checks: {local_etcdctl}")
+    else:
+        raw_bytes = _read_remote_file_bytes_if_exists(
+            node_name=_require_str(local_node_cfg.get("hostname"), "local_node_cfg.hostname"),
+            node_cfg=local_node_cfg,
+            path=local_etcdctl,
+        )
+        if raw_bytes is None:
+            raise ValueError(f"Missing required remote etcdctl for test bed checks: {local_etcdctl}")
     bare_target_services = _collect_bare_target_services(
         deployconf=deployconf,
         fixed_bootstrap_batches=fixed_bootstrap_batches,
@@ -3537,6 +3636,52 @@ def _print_bare_wave_summary(*, wave_idx: int, results: list[dict[str, Any]]) ->
                 print(f"      status_error={status_error}")
 
 
+def _stop_legacy_plain_services_for_atomic_selection(
+    *,
+    deployconf: dict[str, Any],
+    node_name: str,
+    node_cfg: dict[str, Any],
+    selection_name: str,
+    expected_service_names: list[str],
+) -> list[str]:
+    atomic_groups = deployconf.get("atomic_groups")
+    if not isinstance(atomic_groups, dict):
+        raise ValueError("deployconf.atomic_groups must be a mapping")
+    if selection_name not in atomic_groups:
+        return []
+
+    stopped_service_names: list[str] = []
+    seen_service_names: set[str] = set()
+    for service_name in expected_service_names:
+        if service_name in seen_service_names:
+            continue
+        seen_service_names.add(service_name)
+        print(
+            "[startbare.atomic_prelaunch_plain_stop] "
+            f"node={node_name} selection={selection_name} service={service_name}",
+            flush=True,
+        )
+        try:
+            if _cluster_node_is_local(node_cfg):
+                _run_local_stop(
+                    local_node_cfg=node_cfg,
+                    service_name=service_name,
+                )
+            else:
+                _run_remote_stop(
+                    node_name=node_name,
+                    node_cfg=node_cfg,
+                    service_name=service_name,
+                )
+        except Exception as exc:
+            raise RuntimeError(
+                "atomic bare bootstrap failed to stop legacy plain service before launch: "
+                f"node={node_name} selection={selection_name} service={service_name}"
+            ) from exc
+        stopped_service_names.append(service_name)
+    return stopped_service_names
+
+
 def _run_bare_waves(
     *,
     workdir: Path,
@@ -3582,6 +3727,13 @@ def _run_bare_waves(
                 selection_name=selection_name,
                 node_name=node_name,
             )
+            _stop_legacy_plain_services_for_atomic_selection(
+                deployconf=deployconf,
+                node_name=node_name,
+                node_cfg=node_cfg,
+                selection_name=selection_name,
+                expected_service_names=expected_service_names,
+            )
             bootstrap_log_path = _bare_wave_bootstrap_log_path(
                 workdir=workdir,
                 wave_idx=wave_idx,

From 6512e759175f09c2b54e745a3b31c5b1890304e3 Mon Sep 17 00:00:00 2001
From: ActivePeter <1020401660@qq.com>
Date: Tue, 30 Jun 2026 23:52:48 +0800
Subject: [PATCH 2/2] test

---
 fluxon_rs/fluxon_ops/src/lib.rs | 64 +++++++++++++++++++++++++++++----
 1 file changed, 57 insertions(+), 7 deletions(-)

diff --git a/fluxon_rs/fluxon_ops/src/lib.rs b/fluxon_rs/fluxon_ops/src/lib.rs
index 29d9434..7279e57 100644
--- a/fluxon_rs/fluxon_ops/src/lib.rs
+++ b/fluxon_rs/fluxon_ops/src/lib.rs
@@ -6183,18 +6183,24 @@ impl DesiredStore {
         Ok(())
     }
 
-    async fn remove_apply(&self, apply_id: &str) -> anyhow::Result<Vec<DesiredWorkload>> {
+    async fn remove_apply(&self, apply_id: &str) -> anyhow::Result<bool> {
         let apply_id = validate_apply_id_for_file(apply_id)?;
 
         // Serialize persistence so on-disk desired is never interleaved by concurrent HTTP requests.
         let _guard = self.persist_guard.lock().await;
 
         let apply_path = desired_apply_record_file_path(&self.applies_dir, &apply_id)?;
-        if tokio::fs::metadata(&apply_path).await.is_err() {
-            anyhow::bail!(
-                "apply record not found under desired/applies: apply_id={}",
-                apply_id
-            );
+        match tokio::fs::metadata(&apply_path).await {
+            Ok(_) => {}
+            Err(e) => {
+                if e.kind() == std::io::ErrorKind::NotFound {
+                    return Ok(false);
+                }
+                return Err(anyhow::Error::new(e).context(format!(
+                    "stat desired apply record file: {}",
+                    apply_path.display()
+                )));
+            }
         }
 
         let removed: Vec<DesiredWorkload> = {
@@ -6244,7 +6250,7 @@ impl DesiredStore {
             }
         }
 
-        Ok(removed)
+        Ok(true)
     }
 }
 
@@ -15139,6 +15145,50 @@ mod tests {
         );
     }
 
+    #[tokio::test]
+    async fn desired_store_remove_apply_is_idempotent_after_record_disappears() {
+        let td = tempfile::tempdir().unwrap();
+        let desired = DesiredStore::load(td.path().to_path_buf()).await.unwrap();
+        let apply_id = "apply-idempotent";
+        let ts_ms = now_ts_ms();
+        let rec = DeployApplyRecord {
+            id: apply_id.to_string(),
+            ts_ms,
+            deployment_yaml: "apiVersion: apps/v1\nkind: Deployment\nmetadata:\n  name: demo\nspec:\n  targets: [node-a]\n  exec_argv: [/bin/true]\n".to_string(),
+            namespace: None,
+            deployment_yaml_sha256: "sha256-demo".to_string(),
+            lifecycle_phase: Some(ApplyLifecyclePhase::DeleteNotifying),
+            lifecycle_phase_updated_ts_ms: Some(ts_ms),
+        };
+        desired.persist_apply_record(&rec).await.unwrap();
+        desired
+            .upsert_many(vec![DesiredWorkload {
+                kind: WorkloadKind::Deployment,
+                name: "demo".to_string(),
+                logical_selection: "demo".to_string(),
+                service_name: "demo".to_string(),
+                atomic_group: None,
+                namespace: None,
+                targets: vec!["node-a".to_string()],
+                apply_id: Some(apply_id.to_string()),
+                exec_argv: vec!["/bin/true".to_string()],
+                exec_cwd: None,
+                updated_ts_ms: ts_ms,
+            }])
+            .await
+            .unwrap();
+
+        assert!(desired.apply_record_exists(apply_id).unwrap());
+        assert_eq!(desired.snapshot_apply_workloads(apply_id).len(), 1);
+        assert!(desired.remove_apply(apply_id).await.unwrap());
+        assert!(!desired.apply_record_exists(apply_id).unwrap());
+        assert!(desired.snapshot_apply_workloads(apply_id).is_empty());
+
+        assert!(!desired.remove_apply(apply_id).await.unwrap());
+        assert!(!desired.apply_record_exists(apply_id).unwrap());
+        assert!(desired.snapshot_apply_workloads(apply_id).is_empty());
+    }
+
     #[test]
     fn read_workload_log_forward_cursor_rolls_into_next_shard() {
         let td = tempfile::tempdir().unwrap();