From 6b69d58d7571343385dc10a5091bfcad0e28a4e7 Mon Sep 17 00:00:00 2001
From: Radin Hamidi Rad <radin.h@gmail.com>
Date: Fri, 22 May 2026 18:16:45 -0400
Subject: [PATCH] leaderboard: port to Pyserini-2cr-inspired layout with
 in-place reproduce panels
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

Rewrite the home matrix and per-X pages (datasets/methods/models/retrievers)
on a new `.lb-*` table layout: sticky two-row thead + sticky axis cols,
segmented metric control (Both/nDCG/Recall), grouped dataset multi-select
dropdown, two-level dataset/metric header, expandable rows with tabbed
reproduce panels (one per dataset) that render the three-step pipeline
(reformulate → retrieve → evaluate) inline. Clicking a row replaces a
navigation to `/runs/[id]` with copy-ready commands in place.

- Add `src/lib/reproduce.ts` to centralize the three-step command generation
  shared by every expand panel.
- Single-scrollbar layout: `Default.astro` body is fixed-viewport flex
  column, table card fills the remaining space, only the inner table
  scrolls. Sticky thead anchors to the scroll container's top.
- Shared `Header.astro` / `Footer.astro` widened to `w-[90%]` so the
  leaderboard can use the full viewport.
- Remove unused `InteractiveTable.astro`, `FilterChips.astro`,
  `MatrixCell.astro` and the `.qg-table-card` / `.qg-axis-*` /
  `.qg-cell-best` / `.qg-itable` CSS blocks they backed.

Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>
---
 .gitignore                                    |   4 +-
 .../site/src/components/FilterChips.astro     | 133 ----
 .../src/components/InteractiveTable.astro     | 198 ------
 .../site/src/components/MatrixCell.astro      |  51 --
 .../site/src/layouts/Default.astro            |   4 +-
 reproducibility/site/src/lib/reproduce.ts     | 127 ++++
 .../site/src/pages/datasets/[id].astro        | 412 +++++++++---
 reproducibility/site/src/pages/index.astro    | 631 +++++++++++++++---
 .../site/src/pages/methods/[id].astro         | 572 ++++++++++++++--
 .../site/src/pages/models/[id].astro          | 559 ++++++++++++++--
 .../site/src/pages/retrievers/[id].astro      | 561 ++++++++++++++--
 reproducibility/site/src/styles/global.css    | 527 ++++++++++++---
 web/shared/components/Footer.astro            |   2 +-
 web/shared/components/Header.astro            |   2 +-
 14 files changed, 2897 insertions(+), 886 deletions(-)
 delete mode 100644 reproducibility/site/src/components/FilterChips.astro
 delete mode 100644 reproducibility/site/src/components/InteractiveTable.astro
 delete mode 100644 reproducibility/site/src/components/MatrixCell.astro
 create mode 100644 reproducibility/site/src/lib/reproduce.ts
diff --git a/.gitignore b/.gitignore
index b403297..609f10c 100644
--- a/.gitignore
+++ b/.gitignore
@@ -171,4 +171,6 @@ new_baselines.py
 outputs/
 docs/leaderboard-demo.html
 
-test_examples.jsonl
\ No newline at end of file
+test_examples.jsonl
+# local mockups, design scratchpads — not for the repo
+tmp/
diff --git a/reproducibility/site/src/components/FilterChips.astro b/reproducibility/site/src/components/FilterChips.astro
deleted file mode 100644
index a9aa251..0000000
--- a/reproducibility/site/src/components/FilterChips.astro
+++ /dev/null
@@ -1,133 +0,0 @@
----
-/**
- * Chip-style filter bar for any leaderboard table.
- *
- * Each group corresponds to a column on the table's <tr data-*> attributes
- * (e.g. data-method, data-model). Clicking a chip hides rows whose attribute
- * doesn't match, by toggling the .qg-chip-hidden class and dispatching
- * "qg-itable-reapply" on the nearest .qg-itable wrapper so InteractiveTable
- * re-syncs its row-visibility + shown-count.
- *
- * The optional `metric` group is special: it swaps .qg-cell-primary /
- * .qg-cell-secondary visibility and the matching column-label spans across
- * the whole page, then re-keys cells' data-sort-value to the now-visible
- * metric so sort follows what's on screen.
- */
-interface ChipValue {
-  value: string;
-  label: string;
-}
-interface ChipGroup {
-  /** "method" | "model" | "retriever" | "metric"; matches <tr data-{key}> */
-  key: string;
-  /** Visible header text. */
-  label: string;
-  /** First item is shown as the active default. For `metric`, use
-   *  [{value:"primary", label:"nDCG@10"}, {value:"secondary", label:"Recall"}]. */
-  values: ChipValue[];
-}
-interface Props {
-  /** id of the table to filter (used to scope row queries to this table). */
-  tableId: string;
-  groups: ChipGroup[];
-}
-const { tableId, groups } = Astro.props;
----
-
-<section class="flex flex-wrap gap-x-6 gap-y-3 text-sm" data-qg-filters data-table={tableId}>
-  {groups.map((g) => (
-    <div class="flex flex-wrap items-center gap-2">
-      <span class="text-qg-fg-muted">{g.label}:</span>
-      <div data-group={g.key} class="flex flex-wrap gap-1.5">
-        {g.values.map((v, i) => (
-          <button
-            type="button"
-            data-value={v.value}
-            class:list={["qg-chip", i === 0 && "qg-chip-active"]}
-          >
-            {v.label}
-          </button>
-        ))}
-      </div>
-    </div>
-  ))}
-</section>
-
-<style>
-  .qg-chip {
-    @apply rounded-full border border-qg-border bg-qg-bg-soft px-3 py-1 text-xs font-medium text-qg-fg-muted hover:border-qg-accent;
-  }
-  .qg-chip-active {
-    @apply border-qg-accent bg-qg-accent text-white hover:border-qg-accent;
-  }
-</style>
-
-<script>
-  document.querySelectorAll<HTMLElement>("[data-qg-filters]").forEach((bar) => {
-    if (bar.dataset.qgWired === "1") return;
-    bar.dataset.qgWired = "1";
-
-    const tableId = bar.dataset.table!;
-    const table = document.getElementById(tableId);
-    if (!table) return;
-    const tbody = table.querySelector("tbody");
-    if (!tbody) return;
-    const itableRoot = table.closest(".qg-itable") as HTMLElement | null;
-
-    const state: Record<string, string> = {};
-    bar.querySelectorAll<HTMLElement>("[data-group]").forEach((g) => {
-      const key = g.dataset.group!;
-      const active = g.querySelector<HTMLButtonElement>(".qg-chip-active");
-      state[key] = active?.dataset.value ?? "";
-    });
-
-    function applyRowFilters() {
-      tbody!.querySelectorAll<HTMLTableRowElement>("tr").forEach((tr) => {
-        let hide = false;
-        for (const [key, val] of Object.entries(state)) {
-          if (key === "metric" || !val) continue;
-          if (tr.dataset[key] !== val) {
-            hide = true;
-            break;
-          }
-        }
-        tr.classList.toggle("qg-chip-hidden", hide);
-      });
-      itableRoot?.dispatchEvent(new CustomEvent("qg-itable-reapply"));
-    }
-
-    function applyMetricMode() {
-      const primaryShown = state.metric !== "secondary";
-      // Scope the column-label + cell span toggles to *this* table only — if
-      // multiple tables coexist on a page, each bar controls only its own.
-      table!.querySelectorAll(".qg-col-label-primary").forEach((el) => el.classList.toggle("hidden", !primaryShown));
-      table!.querySelectorAll(".qg-col-label-secondary").forEach((el) => el.classList.toggle("hidden", primaryShown));
-      table!.querySelectorAll(".qg-cell-primary").forEach((el) => el.classList.toggle("hidden", !primaryShown));
-      table!.querySelectorAll(".qg-cell-secondary").forEach((el) => el.classList.toggle("hidden", primaryShown));
-      // Re-key sort value so a subsequent header click sorts by the now-visible metric.
-      table!.querySelectorAll<HTMLTableCellElement>("td[data-primary-value]").forEach((td) => {
-        const v = primaryShown ? td.dataset.primaryValue : td.dataset.secondaryValue;
-        td.dataset.sortValue = v ?? "";
-      });
-      // If a sort is active, re-fire it on the now-visible metric values.
-      itableRoot?.dispatchEvent(new CustomEvent("qg-itable-resort"));
-    }
-
-    bar.querySelectorAll<HTMLElement>("[data-group]").forEach((g) => {
-      const key = g.dataset.group!;
-      g.querySelectorAll<HTMLButtonElement>("button").forEach((btn) => {
-        btn.addEventListener("click", () => {
-          g.querySelectorAll("button").forEach((b) => b.classList.remove("qg-chip-active"));
-          btn.classList.add("qg-chip-active");
-          state[key] = btn.dataset.value ?? "";
-          if (key === "metric") applyMetricMode();
-          else applyRowFilters();
-        });
-      });
-    });
-
-    // Initial apply so any non-default starting chips take effect.
-    applyMetricMode();
-    applyRowFilters();
-  });
-</script>
diff --git a/reproducibility/site/src/components/InteractiveTable.astro b/reproducibility/site/src/components/InteractiveTable.astro
deleted file mode 100644
index 03dc988..0000000
--- a/reproducibility/site/src/components/InteractiveTable.astro
+++ /dev/null
@@ -1,198 +0,0 @@
----
-/**
- * Wraps a server-rendered <table> with a global search input + click-to-sort
- * column headers. Vanilla JS — no framework island.
- *
- * Conventions inside the wrapped table:
- *   - Every <th> in <thead> is sortable. Add data-sort-skip on a <th> to skip it.
- *   - Each <td> can have data-sort-value="<number-or-string>" to override the
- *     visible text for sorting (useful for cells containing links or formatted
- *     numbers). When absent, the cell's textContent is used.
- *   - Each <tr> in <tbody> is searched against the input by concatenated
- *     textContent (case-insensitive).
- */
-
-interface Props {
-  /** Search placeholder text. */
-  searchPlaceholder?: string;
-  /** Initial sort: { columnIndex, direction } */
-  initialSort?: { column: number; direction: "asc" | "desc" };
-}
-
-const { searchPlaceholder = "Search rows…", initialSort } = Astro.props;
-const initialSortAttr = initialSort
-  ? `${initialSort.column}:${initialSort.direction}`
-  : "";
----
-
-<div class="qg-itable" data-initial-sort={initialSortAttr}>
-  <div class="mb-3 flex flex-wrap items-center gap-3 text-sm">
-    <div class="relative">
-      <svg
-        aria-hidden="true"
-        class="pointer-events-none absolute left-3 top-1/2 h-4 w-4 -translate-y-1/2 text-qg-fg-muted"
-        viewBox="0 0 24 24"
-        fill="none"
-        stroke="currentColor"
-        stroke-width="2"
-        stroke-linecap="round"
-        stroke-linejoin="round"
-      >
-        <circle cx="11" cy="11" r="8"></circle>
-        <path d="m21 21-4.3-4.3"></path>
-      </svg>
-      <input
-        type="search"
-        class="qg-itable-search w-72 rounded-lg border border-qg-border bg-qg-bg pl-9 pr-3 py-2 text-sm focus:border-qg-accent focus:outline-none focus:ring-1 focus:ring-qg-accent"
-        placeholder={searchPlaceholder}
-        autocomplete="off"
-      />
-    </div>
-    <span class="text-xs text-qg-fg-muted">
-      <span class="qg-itable-shown">0</span> / <span class="qg-itable-total">0</span> rows
-    </span>
-  </div>
-  <slot />
-</div>
-
-<style is:global>
-  .qg-itable table thead th {
-    cursor: pointer;
-    user-select: none;
-  }
-  .qg-itable table thead th[data-sort-skip] {
-    cursor: default;
-  }
-</style>
-
-<script>
-  function wireInteractiveTable(root: HTMLElement) {
-    if (root.dataset.qgWired === "1") return;
-    root.dataset.qgWired = "1";
-
-    const table = root.querySelector("table");
-    if (!table) return;
-    const tbody = table.querySelector("tbody");
-    if (!tbody) return;
-    const headers = Array.from(table.querySelectorAll("thead th"));
-    const allRows = Array.from(tbody.querySelectorAll<HTMLTableRowElement>("tr"));
-    const shownCounter = root.querySelector(".qg-itable-shown");
-    const totalCounter = root.querySelector(".qg-itable-total");
-    const search = root.querySelector<HTMLInputElement>(".qg-itable-search");
-
-    if (totalCounter) totalCounter.textContent = String(allRows.length);
-
-    // Cache only the searchable text per row. Sort values are read live
-    // from the DOM on each setSort() so dynamic updates (e.g. the home
-    // page's metric toggle rewriting data-sort-value when switching
-    // between nDCG and recall) take effect immediately.
-    const meta = allRows.map((tr) => ({
-      tr,
-      searchText: tr.textContent?.toLowerCase() ?? "",
-    }));
-
-    function cellSortValue(tr: HTMLTableRowElement, colIdx: number): { raw: string; num: number | null } {
-      const c = tr.cells[colIdx];
-      const raw = c?.dataset?.sortValue ?? c?.textContent ?? "";
-      const n = parseFloat(raw);
-      return { raw, num: Number.isFinite(n) ? n : null };
-    }
-
-    let currentSort: { column: number; direction: "asc" | "desc" } | null = null;
-
-    function addArrows() {
-      headers.forEach((th) => {
-        if (th.querySelector(".qg-sort-arrow")) return;
-        if ((th as HTMLElement).dataset.sortSkip !== undefined) return;
-        const span = document.createElement("span");
-        span.className = "qg-sort-arrow";
-        span.textContent = "↕";
-        // Multi-line headers (e.g. dataset name on top, metric label below)
-        // can declare a .qg-sort-arrow-slot inline with the title so the
-        // arrow stays on the same line instead of dropping below the stack.
-        const slot = th.querySelector(".qg-sort-arrow-slot");
-        if (slot) {
-          slot.appendChild(span);
-        } else {
-          th.appendChild(span);
-        }
-      });
-    }
-
-    function setSort(colIdx: number, dir: "asc" | "desc") {
-      currentSort = { column: colIdx, direction: dir };
-      headers.forEach((th, i) => {
-        const arrow = th.querySelector<HTMLElement>(".qg-sort-arrow");
-        if (i === colIdx) {
-          (th as HTMLElement).dataset.sortDir = dir;
-          if (arrow) arrow.textContent = dir === "asc" ? "↑" : "↓";
-        } else {
-          delete (th as HTMLElement).dataset.sortDir;
-          if (arrow) arrow.textContent = "↕";
-        }
-      });
-      const sorted = [...meta].sort((a, b) => {
-        const av = cellSortValue(a.tr, colIdx);
-        const bv = cellSortValue(b.tr, colIdx);
-        if (av.num !== null && bv.num !== null) {
-          return dir === "asc" ? av.num - bv.num : bv.num - av.num;
-        }
-        return dir === "asc"
-          ? av.raw.localeCompare(bv.raw)
-          : bv.raw.localeCompare(av.raw);
-      });
-      const frag = document.createDocumentFragment();
-      sorted.forEach((m) => frag.appendChild(m.tr));
-      tbody.appendChild(frag);
-      // After moving rows, re-apply search so chip-hidden / search-filtered
-      // rows stay hidden (display state lives on the inline style of each tr
-      // but appendChild doesn't preserve it implicitly across all browsers).
-      applySearch();
-    }
-
-    function applySearch() {
-      const q = (search?.value ?? "").trim().toLowerCase();
-      let shown = 0;
-      for (const m of meta) {
-        // Rows hidden by an external filter (e.g. the home page's chip
-        // selection) carry .qg-chip-hidden — respect that as a hard veto.
-        const chipHidden = m.tr.classList.contains("qg-chip-hidden");
-        const matchesSearch = !q || m.searchText.includes(q);
-        const ok = matchesSearch && !chipHidden;
-        m.tr.style.display = ok ? "" : "none";
-        if (ok) shown++;
-      }
-      if (shownCounter) shownCounter.textContent = String(shown);
-    }
-
-    addArrows();
-    headers.forEach((th, i) => {
-      if ((th as HTMLElement).dataset.sortSkip !== undefined) return;
-      th.addEventListener("click", () => {
-        const nextDir =
-          currentSort?.column === i && currentSort.direction === "asc" ? "desc" : "asc";
-        setSort(i, nextDir);
-      });
-    });
-    search?.addEventListener("input", applySearch);
-    // External code can fire this event after toggling .qg-chip-hidden on
-    // rows to re-sync row visibility + the shown-count badge.
-    root.addEventListener("qg-itable-reapply", () => applySearch());
-    // After an external metric-toggle rekeys data-sort-value, re-fire the
-    // current sort so row order matches what the user is now looking at.
-    root.addEventListener("qg-itable-resort", () => {
-      if (currentSort) setSort(currentSort.column, currentSort.direction);
-    });
-
-    // Initial state.
-    applySearch();
-    const initial = root.dataset.initialSort;
-    if (initial) {
-      const [colStr, dir] = initial.split(":");
-      const col = parseInt(colStr, 10);
-      if (!Number.isNaN(col)) setSort(col, (dir as "asc" | "desc") ?? "asc");
-    }
-  }
-
-  document.querySelectorAll<HTMLElement>(".qg-itable").forEach(wireInteractiveTable);
-</script>
diff --git a/reproducibility/site/src/components/MatrixCell.astro b/reproducibility/site/src/components/MatrixCell.astro
deleted file mode 100644
index 8dbd542..0000000
--- a/reproducibility/site/src/components/MatrixCell.astro
+++ /dev/null
@@ -1,51 +0,0 @@
----
-/**
- * One cell in any of the leaderboard tables.
- *
- * Always renders two metric spans (primary + secondary) layered on top of
- * each other; FilterChips' metric-toggle flips visibility via the global
- * .qg-cell-primary / .qg-cell-secondary classes. The cell exposes
- * data-primary-value and data-secondary-value so InteractiveTable's sort
- * picks up whichever metric is currently visible. Missing values render
- * as a muted em-dash so layout stays stable when one metric is absent.
- */
-interface Cell {
-  value: number;
-  best: boolean;
-}
-interface Props {
-  primary?: Cell;
-  secondary?: Cell | null;
-  runId?: string | null;
-  digits?: number;
-}
-const { primary, secondary, runId, digits = 4 } = Astro.props;
-const primaryValue = primary?.value ?? "";
-const secondaryValue = secondary?.value ?? "";
-const hasPrimary = primary !== undefined;
-const hasSecondary = secondary != null && secondary !== undefined;
-const linkable = runId && (hasPrimary || hasSecondary);
-const primaryText = hasPrimary ? primary!.value.toFixed(digits) : "—";
-const secondaryText = hasSecondary ? secondary!.value.toFixed(digits) : "—";
-const primaryClass = `qg-cell-primary${primary?.best ? " qg-cell-best" : ""}`;
-const secondaryClass = `qg-cell-secondary hidden${secondary?.best ? " qg-cell-best" : ""}`;
----
-
-<td
-  class="qg-mono px-3 py-2 text-right tabular-nums"
-  data-sort-value={primaryValue}
-  data-primary-value={primaryValue}
-  data-secondary-value={secondaryValue}
->
-  {linkable ? (
-    <a class="hover:text-qg-accent hover:underline" href={`/runs/${runId}`} title="View run + reproduce">
-      <span class={primaryClass}>{primaryText}</span>
-      <span class={secondaryClass}>{secondaryText}</span>
-    </a>
-  ) : (
-    <>
-      <span class={primaryClass}>{primaryText}</span>
-      <span class={secondaryClass}>{secondaryText}</span>
-    </>
-  )}
-</td>
diff --git a/reproducibility/site/src/layouts/Default.astro b/reproducibility/site/src/layouts/Default.astro
index d425a5a..9a306c9 100644
--- a/reproducibility/site/src/layouts/Default.astro
+++ b/reproducibility/site/src/layouts/Default.astro
@@ -36,13 +36,13 @@ const navLinks = [
 
     <GoogleAnalytics />
   </head>
-  <body class="min-h-screen bg-qg-bg text-qg-fg">
+  <body class="flex h-screen flex-col overflow-hidden bg-qg-bg text-qg-fg">
     <Header
       title="QueryGym Leaderboard"
       tagline="SIGIR 2026 Reproducibility — Query Reformulation × LLMs × Datasets"
       links={navLinks}
     />
-    <main class="mx-auto max-w-6xl px-4 py-8 md:py-12">
+    <main class="mx-auto flex w-[90%] min-h-0 flex-1 flex-col overflow-y-auto px-4 pt-3 pb-3">
       <slot />
     </main>
     <Footer />
diff --git a/reproducibility/site/src/lib/reproduce.ts b/reproducibility/site/src/lib/reproduce.ts
new file mode 100644
index 0000000..ba77217
--- /dev/null
+++ b/reproducibility/site/src/lib/reproduce.ts
@@ -0,0 +1,127 @@
+/**
+ * Build the three-step reproduce commands (reformulate → retrieve → evaluate)
+ * from a run summary. Shared by the home-matrix expand panel and the
+ * `/runs/[run_id]` detail page so the commands stay in sync.
+ */
+
+export interface RunLike {
+  run_id?: string;
+  dataset_id: string;
+  method_id: string;
+  model: string;
+  retriever_id?: string;
+  metrics?: Record<string, number>;
+  config?: {
+    method_params?: Record<string, unknown>;
+    llm_config?: { temperature?: number; max_tokens?: number; [k: string]: unknown };
+    dataset_config?: { topics?: string; index?: string; [k: string]: unknown };
+    retrieval?: {
+      paradigm?: string;
+      retriever_id?: string;
+      params?: Record<string, unknown>;
+    };
+  };
+}
+
+export interface ReproduceCmds {
+  reformulate: string;
+  retrieve: string | null;
+  evaluate: string;
+  paradigm: string;
+  qrels: string;
+}
+
+// method_params we surface in the reproduce snippet — strip locally-pathy keys
+// that won't apply on a fresh checkout.
+const PARAM_KEYS_TO_DROP = new Set([
+  "judge_rel_mode",
+  "collection_path",
+  "train_queries_path",
+  "train_qrels_path",
+  "dataset_type",
+]);
+
+export function buildReproduceCmds(run: RunLike): ReproduceCmds {
+  const cfg = run.config ?? {};
+  const retrieval = cfg.retrieval ?? {};
+  const dsCfg = cfg.dataset_config ?? {};
+  const llm = cfg.llm_config ?? {};
+  const methodParams = (cfg.method_params ?? {}) as Record<string, unknown>;
+
+  const cleanParams: Record<string, unknown> = {};
+  for (const [k, v] of Object.entries(methodParams)) {
+    if (!PARAM_KEYS_TO_DROP.has(k)) cleanParams[k] = v;
+  }
+  const paramsJson = Object.keys(cleanParams).length
+    ? JSON.stringify(cleanParams)
+    : null;
+
+  const reformulate = `python examples/querygym_pyserini/pipeline.py \\
+    --dataset ${run.dataset_id} \\
+    --method ${run.method_id} \\
+    --model ${run.model} \\
+    --steps reformulate \\
+    --temperature ${llm.temperature ?? 1.0} \\
+    --max-tokens ${llm.max_tokens ?? 128} \\${paramsJson ? `
+    --method-params '${paramsJson}' \\` : ""}
+    --output-dir outputs/reproduce`;
+
+  const paradigm = retrieval.paradigm ?? "";
+  const params = (retrieval.params ?? {}) as Record<string, unknown>;
+  // BEIR BM25 indexes carry a `.flat` suffix; SPLADE/BGE variants drop it.
+  const baseIndex = String(dsCfg.index ?? "").replace(/\.flat$/, "");
+
+  let retrieve: string | null = null;
+  if (paradigm === "lexical") {
+    retrieve = `python -m pyserini.search.lucene \\
+  --threads 16 --batch-size 128 \\
+  --index ${dsCfg.index ?? "<pyserini-index>"} \\
+  --topics outputs/reproduce/queries/reformulated_queries.tsv \\
+  --bm25 --k1 ${params.k1 ?? 0.9} --b ${params.b ?? 0.4} \\
+  --output run.txt \\
+  --hits 1000`;
+  } else if (paradigm === "learned_sparse") {
+    retrieve = `python -m pyserini.search.lucene \\
+  --threads 16 --batch-size 128 \\
+  --index ${baseIndex || "<pyserini-index>"}.splade-pp-ed \\
+  --topics outputs/reproduce/queries/reformulated_queries.tsv \\
+  --encoder ${params.model ?? "naver/splade-cocondenser-ensembledistil"} \\
+  --output run.txt \\
+  --hits 1000 --impact`;
+  } else if (paradigm === "dense") {
+    retrieve = `python -m pyserini.search.faiss \\
+  --threads 16 --batch-size 128 \\
+  --index ${baseIndex || "<pyserini-index>"}.bge-base-en-v1.5 \\
+  --topics outputs/reproduce/queries/reformulated_queries.tsv \\
+  --encoder ${params.encoder ?? "BAAI/bge-base-en-v1.5"} \\
+  --output run.txt \\
+  --hits 1000`;
+  }
+
+  const trecMetrics = Object.keys(run.metrics ?? {})
+    .map((m) => m.replace(/_/g, "."))
+    .join(" -m ");
+  const qrels = dsCfg.topics ?? "<qrels>";
+  const evaluate = `python -m pyserini.eval.trec_eval -c -m ${trecMetrics || "ndcg_cut.10"} \\
+  ${qrels} run.txt`;
+
+  return { reformulate, retrieve, evaluate, paradigm, qrels };
+}
+
+/** Pretty hint for the retrieve step header. */
+export function retrieveHint(retrieverDisplay: string, paradigm: string): string {
+  return `pyserini · ${retrieverDisplay}${paradigm ? ` (${paradigm})` : ""}`;
+}
+
+/** Pretty hint for the evaluate step header. */
+export function evaluateHint(metricKeys: string[]): string {
+  if (!metricKeys.length) return "trec_eval";
+  const pretty = metricKeys.map((k) =>
+    k === "ndcg_cut_10" ? "nDCG@10"
+    : k === "recall_100" ? "R@100"
+    : k === "recall_1000" ? "R@1k"
+    : k === "map" ? "MAP"
+    : k
+  );
+  return `trec_eval · ${pretty.join(" + ")}`;
+}
diff --git a/reproducibility/site/src/pages/datasets/[id].astro b/reproducibility/site/src/pages/datasets/[id].astro
index ae78727..936d1d4 100644
--- a/reproducibility/site/src/pages/datasets/[id].astro
+++ b/reproducibility/site/src/pages/datasets/[id].astro
@@ -1,9 +1,9 @@
 ---
 import Default from "../../layouts/Default.astro";
 import EmptyState from "../../components/EmptyState.astro";
-import InteractiveTable from "../../components/InteractiveTable.astro";
-import FilterChips from "../../components/FilterChips.astro";
 import datasetsList from "../../data/datasets.json";
+import runs from "../../data/runs.json";
+import { buildReproduceCmds, retrieveHint, evaluateHint, type RunLike } from "../../lib/reproduce";
 
 const shards = import.meta.glob<{ default: any }>(
   "../../data/views/dataset-*.json",
@@ -26,113 +26,341 @@ const METRIC_LABEL: Record<string, string> = {
   map:         "MAP",
 };
 
+const SHORT: Record<string, string> = {
+  "msmarco-v1-passage.trecdl2019": "DL 2019",
+  "msmarco-v1-passage.trecdl2020": "DL 2020",
+  "msmarco-v1-passage.dlhard":     "DL-HARD",
+  "beir-v1.0.0-scifact":           "SciFact",
+  "beir-v1.0.0-arguana":           "ArguAna",
+  "beir-v1.0.0-trec-covid":        "COVID",
+  "beir-v1.0.0-fiqa":              "FiQA",
+  "beir-v1.0.0-dbpedia-entity":    "DBPedia",
+  "beir-v1.0.0-trec-news":         "News",
+};
+
 const { id } = Astro.params;
 const view = shardFor(id!);
 const datasetMeta = datasetsList.find((d: any) => d.id === id);
-const runs = (view?.runs ?? []) as any[];
+const dataRows = (view?.runs ?? []) as any[];
 const metricCols: string[] = view?.metric_columns ?? [];
 
-const tableId = "qg-dataset-table";
+const title = SHORT[id!] ?? datasetMeta?.name ?? id ?? "Dataset";
 
 const uniq = (xs: any[], key: string, displayKey?: string) => {
   const m = new Map<string, string>();
   for (const r of xs) m.set(r[key], r[displayKey ?? key] ?? r[key]);
   return Array.from(m.entries()).sort((a, b) => a[0].localeCompare(b[0]));
 };
-const methodChoices = uniq(runs, "method_id", "method_display");
-const modelChoices = uniq(runs, "model", "model_display");
-const retrieverChoices = uniq(runs, "retriever_id", "retriever_display");
+const methodChoices = uniq(dataRows, "method_id", "method_display");
+const modelChoices = uniq(dataRows, "model", "model_display");
+const retrieverChoices = uniq(dataRows, "retriever_id", "retriever_display");
+
+const runsMap = runs as Record<string, any>;
+type Step = { num: number; title: string; hint: string; code: string };
+const reproCache: Record<string, Step[]> = {};
+function stepsFor(runId: string): Step[] | null {
+  if (!runId) return null;
+  if (reproCache[runId]) return reproCache[runId];
+  const r = runsMap[runId] as RunLike | undefined;
+  if (!r) return null;
+  const cmds = buildReproduceCmds(r);
+  const retrieverDisp = (r as any).retriever_display ?? (r as any).retriever_id ?? "";
+  const steps: Step[] = [
+    { num: 1, title: "reformulate", hint: "querygym → reformulated_queries.tsv", code: cmds.reformulate },
+  ];
+  if (cmds.retrieve) {
+    steps.push({ num: 2, title: "retrieve", hint: retrieveHint(retrieverDisp, cmds.paradigm), code: cmds.retrieve });
+  }
+  steps.push({
+    num: cmds.retrieve ? 3 : 2,
+    title: "evaluate",
+    hint: evaluateHint(Object.keys(r.metrics ?? {})),
+    code: cmds.evaluate,
+  });
+  reproCache[runId] = steps;
+  return steps;
+}
+
+const colCount = 4 + metricCols.length;
 ---
 
-<Default
-  title={datasetMeta?.name ?? id}
-  description={`Per-method leaderboard for ${id}.`}
->
-  <a href="/datasets/" class="text-sm text-qg-fg-muted hover:text-qg-fg">← All datasets</a>
-  <h1 class="mt-2 text-2xl font-bold md:text-3xl">
-    {datasetMeta?.name ?? id}
-  </h1>
-  <div class="mt-1 qg-mono text-sm text-qg-fg-muted">{id}</div>
-
-  {runs.length === 0 ? (
-    <div class="mt-8">
-      <EmptyState
-        title="No runs for this dataset yet"
-        body="Submit one — your numbers will land here on merge."
-      />
-    </div>
+<Default title={title} description={`Per-dataset leaderboard for ${id}.`}>
+  {dataRows.length === 0 ? (
+    <>
+      <a href="/datasets/" class="text-xs text-qg-fg-muted hover:text-qg-fg">← All datasets</a>
+      <div class="mt-6">
+        <EmptyState title="No runs for this dataset yet" body="Submit one — your numbers will land here on merge." />
+      </div>
+    </>
   ) : (
-    <div class="mt-6">
-      <div class="qg-filter-card">
-        <FilterChips
-          tableId={tableId}
-          groups={[
-            { key: "method", label: "Method",
-              values: [{ value: "", label: "All" }, ...methodChoices.map(([v, l]) => ({ value: v, label: l }))] },
-            { key: "model", label: "Model",
-              values: [{ value: "", label: "All" }, ...modelChoices.map(([v, l]) => ({ value: v, label: l }))] },
-            { key: "retriever", label: "Retriever",
-              values: [{ value: "", label: "All" }, ...retrieverChoices.map(([v, l]) => ({ value: v, label: l }))] },
-          ]}
-        />
+    <>
+      <header class="mb-3">
+        <div class="mb-2 flex items-baseline gap-3">
+          <a href="/datasets/" class="text-xs text-qg-fg-muted hover:text-qg-fg">← Datasets</a>
+          <h2 class="text-xl font-semibold text-qg-fg md:text-2xl">{title}</h2>
+          <span class="qg-mono text-xs text-qg-fg-muted">{id}</span>
+          <div class="h-px flex-1 bg-qg-border"></div>
+          <span class="text-[11px] uppercase tracking-wider text-qg-fg-muted">
+            All results produced by
+            <span class="qg-mono font-semibold text-qg-accent">QueryGym</span>
+            · fully reproducible!
+          </span>
+        </div>
+        <p class="max-w-4xl text-xs leading-relaxed text-qg-fg-muted">
+          {dataRows.length} (method × LLM × retriever) configurations evaluated on this dataset.
+          <br />
+          Click any row or the <strong class="text-qg-fg">+</strong> button to expand. The three steps
+          (reformulate → retrieve → evaluate) for that run appear inline.
+        </p>
+      </header>
+
+      <div class="lb-filter-card" data-lb-filters>
+        <div class="lb-filter-row">
+          <div class="lb-filter-group" data-group="retriever">
+            <span class="lb-filter-label">Retriever</span>
+            <button class="lb-chip active" data-value="">All</button>
+            {retrieverChoices.map(([v, l]) => (
+              <button class="lb-chip" data-value={v}>{l}</button>
+            ))}
+          </div>
+          <div class="lb-filter-group" data-group="model">
+            <span class="lb-filter-label">Model</span>
+            <button class="lb-chip active" data-value="">All</button>
+            {modelChoices.map(([v, l]) => (
+              <button class="lb-chip" data-value={v}>{l}</button>
+            ))}
+          </div>
+          <div class="lb-filter-group" data-group="method">
+            <span class="lb-filter-label">Method</span>
+            <button class="lb-chip active" data-value="">All</button>
+            {methodChoices.map(([v, l]) => (
+              <button class="lb-chip" data-value={v}>{l}</button>
+            ))}
+          </div>
+        </div>
+        <div class="lb-filter-row">
+          <div class="lb-search-wrap">
+            <div class="lb-search-input">
+              <svg width="14" height="14" viewBox="0 0 24 24" fill="none" stroke="currentColor" stroke-width="2"><circle cx="11" cy="11" r="7"/><path d="m20 20-3.5-3.5"/></svg>
+              <input id="lb-search" placeholder="Filter by method, model, retriever…" autocomplete="off" />
+            </div>
+            <span class="lb-row-count"><span id="lb-shown">{dataRows.length}</span> / {dataRows.length} runs</span>
+          </div>
+          <span class="lb-best-legend" style="margin-left:auto"><span class="dot"></span> best in column</span>
+        </div>
       </div>
 
-      <InteractiveTable searchPlaceholder="Filter by method, model, retriever…">
-        <div class="qg-table-card">
-          <div class="qg-table-scroll">
-            <table
-              id={tableId}
-              class="w-full text-sm"
-              style="--qg-axis-w-1: 120px; --qg-axis-w-2: 180px;"
-            >
-              <thead class="text-xs uppercase tracking-wide text-qg-fg-muted">
-                <tr class="text-left">
-                  <th class="qg-axis-1 px-3 py-2 whitespace-nowrap">Method</th>
-                  <th class="qg-axis-2 px-3 py-2 whitespace-nowrap">Model</th>
-                  <th class="qg-axis-3 px-3 py-2 whitespace-nowrap">Retriever</th>
-                  {metricCols.map((m) => (
-                    <th class="qg-mono px-3 py-2 text-right text-xs whitespace-nowrap">
-                      {METRIC_LABEL[m] ?? m}
-                    </th>
-                  ))}
-                </tr>
-              </thead>
-              <tbody>
-                {runs.map((r: any) => (
-                  <tr
-                    class="border-b border-qg-border/60 hover:bg-qg-bg-soft"
-                    data-method={r.method_id}
-                    data-model={r.model}
-                    data-retriever={r.retriever_id}
-                  >
-                    <td class="qg-axis-1 px-3 py-2 font-medium">{r.method_display ?? r.method_id}</td>
-                    <td class="qg-axis-2 px-3 py-2 qg-mono text-xs" data-sort-value={r.model_display ?? r.model}>{r.model_display ?? r.model}</td>
-                    <td class="qg-axis-3 px-3 py-2 text-xs">{r.retriever_display ?? r.retriever_id}</td>
-                    {metricCols.map((m) => {
-                      const v = r.metrics?.[m];
-                      const isBest = !!r.best_for?.[m];
-                      const runId = r.run_ids?.[m] ?? r.run_id;
-                      return (
-                        <td class="qg-mono px-3 py-2 text-right tabular-nums" data-sort-value={v ?? ""}>
-                          {v == null ? (
-                            <span class="text-qg-fg-muted">—</span>
-                          ) : runId ? (
-                            <a class="hover:text-qg-accent hover:underline" href={`/runs/${runId}`} title="View run + reproduce">
-                              <span class={isBest ? "qg-cell-best" : ""}>{v.toFixed(4)}</span>
-                            </a>
-                          ) : (
-                            <span class={isBest ? "qg-cell-best" : ""}>{v.toFixed(4)}</span>
-                          )}
-                        </td>
-                      );
-                    })}
-                  </tr>
+      <div class="lb-table-card">
+        <div class="lb-table-scroll">
+          <table id="lb-matrix" class="lb">
+            <thead>
+              <tr class="top">
+                <th class="ax ax-1"></th>
+                <th class="ax ax-2">Method</th>
+                <th class="ax ax-3">LLM</th>
+                <th class="ax ax-4">Retriever</th>
+                {metricCols.map((m, i) => (
+                  <th class:list={["metric", i === 0 && "first"]} data-sort-col={i}>
+                    <span class="name">{METRIC_LABEL[m] ?? m}<span class="arrow"></span></span>
+                  </th>
                 ))}
-              </tbody>
-            </table>
-          </div>
+              </tr>
+            </thead>
+            <tbody>
+              {dataRows.map((r: any, i: number) => {
+                const steps = stepsFor(r.run_id);
+                return (
+                  <>
+                    <tr
+                      class="data"
+                      data-idx={i}
+                      data-method={r.method_id}
+                      data-model={r.model}
+                      data-retriever={r.retriever_id}
+                    >
+                      <td class="ax ax-1"><button class="lb-exp-btn" aria-label="expand"></button></td>
+                      <td class="ax ax-2"><span class="lb-method-name">{r.method_display ?? r.method_id}</span></td>
+                      <td class="ax ax-3 qg-mono" style="font-size:11.5px">{r.model_display ?? r.model}</td>
+                      <td class="ax ax-4">{r.retriever_display ?? r.retriever_id}</td>
+                      {metricCols.map((m, mi) => {
+                        const v = r.metrics?.[m];
+                        const isBest = !!r.best_for?.[m];
+                        return (
+                          <td
+                            class:list={["lb-metric-cell", isBest && "best", mi === 0 && "first"]}
+                            data-sort-value={v ?? ""}
+                          ><span class="primary">{v == null ? "—" : v.toFixed(4)}</span></td>
+                        );
+                      })}
+                    </tr>
+                    <tr class="lb-exp-row">
+                      <td colspan={colCount}>
+                        <div class="lb-exp-wrap"><div class="lb-exp-inner">
+                          <div class="lb-exp-panel">
+                            <div class="lb-exp-meta">
+                              <span class="pill"><strong>method</strong>{r.method_display ?? r.method_id}</span>
+                              <span class="pill"><strong>llm</strong>{r.model_display ?? r.model}</span>
+                              <span class="pill"><strong>retriever</strong>{r.retriever_display ?? r.retriever_id}</span>
+                              <span class="pill"><strong>dataset</strong>{title}</span>
+                            </div>
+                            {steps ? (
+                              <>
+                                {steps.map((st) => (
+                                  <div class="lb-step">
+                                    <div class="lb-step-head">
+                                      <div class="title">
+                                        <span class="num">{st.num}</span>
+                                        {st.title}
+                                        <span class="hint">{st.hint}</span>
+                                      </div>
+                                      <button class="lb-copy-btn" data-copy>copy</button>
+                                    </div>
+                                    <pre>{st.code}</pre>
+                                  </div>
+                                ))}
+                                <div class="lb-exp-footer">
+                                  <span>Run id <span class="qg-mono">{r.run_id}</span></span>
+                                  <span>·</span>
+                                  <a href={`/runs/${r.run_id}`}>open full run detail →</a>
+                                </div>
+                              </>
+                            ) : (
+                              <div class="text-sm text-qg-fg-muted">No run config available.</div>
+                            )}
+                          </div>
+                        </div></div>
+                      </td>
+                    </tr>
+                  </>
+                );
+              })}
+            </tbody>
+          </table>
         </div>
-      </InteractiveTable>
-    </div>
+      </div>
+    </>
   )}
 </Default>
+
+<script>
+  const scrollEl = document.querySelector<HTMLElement>(".lb-table-scroll");
+  function updateVp() {
+    if (scrollEl) scrollEl.style.setProperty("--lb-vp-w", scrollEl.clientWidth + "px");
+  }
+  updateVp();
+  window.addEventListener("resize", updateVp);
+
+  const filterRoot = document.querySelector<HTMLElement>("[data-lb-filters]");
+  const table = document.getElementById("lb-matrix") as HTMLTableElement | null;
+  const tbody = table?.querySelector("tbody");
+  const search = document.getElementById("lb-search") as HTMLInputElement | null;
+  const shownEl = document.getElementById("lb-shown");
+
+  const filterState: Record<string, string> = { method: "", model: "", retriever: "" };
+
+  filterRoot?.querySelectorAll<HTMLElement>("[data-group]").forEach((g) => {
+    const key = g.dataset.group!;
+    g.querySelectorAll<HTMLButtonElement>("button.lb-chip").forEach((btn) => {
+      btn.addEventListener("click", () => {
+        g.querySelectorAll("button.lb-chip").forEach((b) => b.classList.remove("active"));
+        btn.classList.add("active");
+        filterState[key] = btn.dataset.value ?? "";
+        applyVisibility();
+      });
+    });
+  });
+  function applyVisibility() {
+    if (!tbody) return;
+    const q = (search?.value ?? "").trim().toLowerCase();
+    let shown = 0;
+    tbody.querySelectorAll<HTMLTableRowElement>("tr.data").forEach((tr) => {
+      let hide = false;
+      for (const [k, v] of Object.entries(filterState)) {
+        if (v && tr.dataset[k] !== v) { hide = true; break; }
+      }
+      if (!hide && q) {
+        const txt = (tr.textContent ?? "").toLowerCase();
+        if (!txt.includes(q)) hide = true;
+      }
+      tr.style.display = hide ? "none" : "";
+      const exp = tr.nextElementSibling as HTMLElement | null;
+      if (exp?.classList.contains("lb-exp-row")) exp.style.display = hide ? "none" : "";
+      if (!hide) shown++;
+    });
+    if (shownEl) shownEl.textContent = String(shown);
+  }
+  search?.addEventListener("input", applyVisibility);
+
+  // sort — single-row thead, column index based
+  const sortState: { col: number | null; dir: "asc" | "desc" | null } = { col: null, dir: null };
+  const AXIS_COL_COUNT = 4;
+  function applySort() {
+    if (!tbody || sortState.col === null || !sortState.dir) return;
+    const cellIdx = AXIS_COL_COUNT + sortState.col;
+    const dir = sortState.dir === "asc" ? 1 : -1;
+    const dataRows = Array.from(tbody.querySelectorAll<HTMLTableRowElement>("tr.data"));
+    const pairs = dataRows.map((tr) => {
+      const cell = tr.cells[cellIdx] as HTMLTableCellElement | undefined;
+      const raw = cell?.dataset.sortValue ?? "";
+      const n = parseFloat(raw);
+      return { tr, exp: tr.nextElementSibling, v: Number.isFinite(n) ? n : null };
+    });
+    pairs.sort((a, b) => {
+      if (a.v === null && b.v === null) return 0;
+      if (a.v === null) return 1;
+      if (b.v === null) return -1;
+      return (a.v - b.v) * dir;
+    });
+    pairs.forEach((p) => {
+      tbody!.appendChild(p.tr);
+      if (p.exp) tbody!.appendChild(p.exp);
+    });
+  }
+  function updateSortIndicators() {
+    table?.querySelectorAll(".metric").forEach((th) => th.classList.remove("sort-asc", "sort-desc"));
+    if (sortState.dir !== null) {
+      const th = table?.querySelector(`thead .metric[data-sort-col="${sortState.col}"]`);
+      th?.classList.add(`sort-${sortState.dir}`);
+    }
+  }
+  function setSort(col: number) {
+    if (sortState.col === col) {
+      sortState.dir = sortState.dir === "desc" ? "asc" : "desc";
+    } else {
+      sortState.col = col; sortState.dir = "desc";
+    }
+    applySort();
+    updateSortIndicators();
+  }
+  table?.querySelectorAll<HTMLElement>("thead .metric").forEach((th) => {
+    th.addEventListener("click", () => {
+      const c = parseInt(th.dataset.sortCol ?? "");
+      if (!Number.isNaN(c)) setSort(c);
+    });
+  });
+
+  // row expand
+  tbody?.querySelectorAll<HTMLTableRowElement>("tr.data").forEach((tr) => {
+    const exp = tr.nextElementSibling as HTMLElement | null;
+    if (!exp?.classList.contains("lb-exp-row")) return;
+    const toggle = (e?: Event) => {
+      if (e && (e.target as HTMLElement).closest("a, button.lb-copy-btn")) return;
+      const open = tr.classList.toggle("expanded");
+      exp.classList.toggle("show", open);
+    };
+    tr.addEventListener("click", toggle);
+  });
+
+  // copy buttons
+  document.addEventListener("click", (e) => {
+    const btn = (e.target as HTMLElement).closest<HTMLButtonElement>("[data-copy]");
+    if (!btn) return;
+    const pre = btn.closest(".lb-step")?.querySelector("pre");
+    if (!pre) return;
+    navigator.clipboard.writeText(pre.textContent ?? "");
+    const prev = btn.textContent;
+    btn.textContent = "copied ✓";
+    btn.classList.add("copied");
+    setTimeout(() => { btn.textContent = prev; btn.classList.remove("copied"); }, 1400);
+  });
+</script>
diff --git a/reproducibility/site/src/pages/index.astro b/reproducibility/site/src/pages/index.astro
index 10feda8..46e6a72 100644
--- a/reproducibility/site/src/pages/index.astro
+++ b/reproducibility/site/src/pages/index.astro
@@ -1,13 +1,12 @@
 ---
 import Default from "../layouts/Default.astro";
-import Stat from "../components/Stat.astro";
-import InteractiveTable from "../components/InteractiveTable.astro";
-import FilterChips from "../components/FilterChips.astro";
-import MatrixCell from "../components/MatrixCell.astro";
 import overview from "../data/overview.json";
 import matrix from "../data/matrix.json";
+import runs from "../data/runs.json";
 import retrievers from "../data/retrievers.json";
 import models from "../data/models.json";
+import methods from "../data/methods.json";
+import { buildReproduceCmds, retrieveHint, evaluateHint, type RunLike } from "../lib/reproduce";
 
 const populated = overview.run_count > 0;
 
@@ -37,124 +36,548 @@ const rows = [...matrix.rows].sort((a: any, b: any) => {
 });
 
 const datasetCols = matrix.dataset_columns;
+
+const beirCols = datasetCols.filter((d: any) => d.id.startsWith("beir-"));
+const dlCols = datasetCols.filter((d: any) => !d.id.startsWith("beir-"));
+
+// pre-build reproduce cmds for every (row, dataset) cell that has a run.
+// Keyed by run_id so the same lookup powers all tabs.
+const runsMap = runs as Record<string, any>;
+type Step = { num: number; title: string; hint: string; code: string };
+const reproCache: Record<string, Step[]> = {};
+function stepsFor(runId: string): Step[] | null {
+  if (!runId) return null;
+  if (reproCache[runId]) return reproCache[runId];
+  const r = runsMap[runId] as RunLike | undefined;
+  if (!r) return null;
+  const cmds = buildReproduceCmds(r);
+  const retrieverDisp = (r as any).retriever_display ?? (r as any).retriever_id ?? "";
+  const steps: Step[] = [
+    { num: 1, title: "reformulate", hint: "querygym → reformulated_queries.tsv", code: cmds.reformulate },
+  ];
+  if (cmds.retrieve) {
+    steps.push({ num: 2, title: "retrieve", hint: retrieveHint(retrieverDisp, cmds.paradigm), code: cmds.retrieve });
+  }
+  steps.push({
+    num: cmds.retrieve ? 3 : 2,
+    title: "evaluate",
+    hint: evaluateHint(Object.keys(r.metrics ?? {})),
+    code: cmds.evaluate,
+  });
+  reproCache[runId] = steps;
+  return steps;
+}
 ---
 
 <Default
   title="Leaderboard"
   description="QueryGym reproducibility leaderboard — query reformulation methods × LLMs × retrievers across IR benchmarks."
 >
-  <section class="mb-8">
-    <h1 class="text-3xl font-bold md:text-4xl">QueryGym Leaderboard</h1>
-    <p class="mt-3 max-w-3xl text-qg-fg-muted">
-      Reproducible LLM-based query reformulation results across MS MARCO DL,
-      DL-HARD, and BEIR — for BM25, SPLADE++, and BGE retrievers. Click any
-      score to see how to reproduce that run.
-    </p>
-  </section>
-
-  <section class="mb-6 grid grid-cols-2 gap-4 md:grid-cols-5">
-    <Stat label="Runs" value={overview.run_count} />
-    <Stat label="Methods" value={overview.method_count} />
-    <Stat label="LLMs" value={overview.model_count} />
-    <Stat label="Retrievers" value={overview.retriever_count} />
-    <Stat label="Datasets" value={overview.dataset_count} />
-  </section>
+  {populated && (
+    <header class="mb-3">
+      <div class="mb-2 flex items-baseline gap-3">
+        <h2 class="text-xl font-semibold text-qg-fg md:text-2xl">Main Results</h2>
+        <div class="h-px flex-1 bg-qg-border"></div>
+        <span class="text-[11px] uppercase tracking-wider text-qg-fg-muted">
+          All results produced by
+          <span class="qg-mono font-semibold text-qg-accent">QueryGym</span>
+          · fully reproducible!
+        </span>
+      </div>
+      <p class="max-w-4xl text-xs leading-relaxed text-qg-fg-muted">
+        Query reformulation methods × LLMs × retrievers benchmarked across BEIR, MS MARCO DL, and DL-HARD.
+        <br />
+        Click any row or the <strong class="text-qg-fg">+</strong> button to expand. Tabs switch dataset
+        context. The three steps (reformulate → retrieve → evaluate) update accordingly.
+      </p>
+    </header>
+  )}
 
   {populated && (
-    <div class="qg-filter-card">
-      <FilterChips
-        tableId="qg-matrix"
-        groups={[
-          {
-            key: "retriever",
-            label: "Retriever",
-            values: [
-              { value: "", label: "All" },
-              ...retrievers.map((r: any) => ({ value: r.id, label: r.display_name })),
-            ],
-          },
-          {
-            key: "model",
-            label: "Model",
-            values: [
-              { value: "", label: "All" },
-              ...models.map((m: any) => ({ value: m.id, label: m.display ?? m.id })),
-            ],
-          },
-          {
-            key: "metric",
-            label: "Metric",
-            values: [
-              { value: "primary", label: "nDCG@10" },
-              { value: "secondary", label: "Recall" },
-            ],
-          },
-        ]}
-      />
+    <div class="lb-filter-card" data-lb-filters>
+      <div class="lb-filter-row">
+        <div class="lb-filter-group" data-group="retriever">
+          <span class="lb-filter-label">Retriever</span>
+          <button class="lb-chip active" data-value="">All</button>
+          {retrievers.map((r: any) => (
+            <button class="lb-chip" data-value={r.id}>{r.display_name ?? r.id}</button>
+          ))}
+        </div>
+        <div class="lb-filter-group" data-group="model">
+          <span class="lb-filter-label">Model</span>
+          <button class="lb-chip active" data-value="">All</button>
+          {models.map((m: any) => (
+            <button class="lb-chip" data-value={m.id}>{m.display ?? m.id}</button>
+          ))}
+        </div>
+        <div class="lb-filter-group" data-group="method">
+          <span class="lb-filter-label">Method</span>
+          <button class="lb-chip active" data-value="">All</button>
+          {methods.map((m: any) => (
+            <button class="lb-chip" data-value={m.id}>{m.display_name ?? m.id}</button>
+          ))}
+        </div>
+        <div class="lb-filter-group">
+          <span class="lb-filter-label">Datasets</span>
+          <div class="lb-multi" id="lb-ds-multi">
+            <button class="lb-multi-trigger" type="button" aria-haspopup="true">
+              <span class="lb-multi-count">{datasetCols.length} / {datasetCols.length} selected</span>
+              <span class="caret">▾</span>
+            </button>
+            <div class="lb-multi-panel" role="menu">
+              {beirCols.length > 0 && (
+                <div class="lb-multi-section" data-family="beir">
+                  <div class="lb-multi-section-head">
+                    <span class="label">BEIR</span>
+                    <span class="actions">
+                      <button type="button" data-action="all">all</button>
+                      <span>·</span>
+                      <button type="button" data-action="none">none</button>
+                    </span>
+                  </div>
+                  {beirCols.map((d: any) => (
+                    <label class="lb-multi-item">
+                      <input type="checkbox" data-ds={d.id} checked />
+                      <span class="name">{SHORT[d.id] ?? d.name}</span>
+                    </label>
+                  ))}
+                </div>
+              )}
+              {dlCols.length > 0 && (
+                <div class="lb-multi-section" data-family="dl">
+                  <div class="lb-multi-section-head">
+                    <span class="label">MS MARCO DL</span>
+                    <span class="actions">
+                      <button type="button" data-action="all">all</button>
+                      <span>·</span>
+                      <button type="button" data-action="none">none</button>
+                    </span>
+                  </div>
+                  {dlCols.map((d: any) => (
+                    <label class="lb-multi-item">
+                      <input type="checkbox" data-ds={d.id} checked />
+                      <span class="name">{SHORT[d.id] ?? d.name}</span>
+                    </label>
+                  ))}
+                </div>
+              )}
+            </div>
+          </div>
+        </div>
+        <div class="lb-filter-group">
+          <span class="lb-filter-label">Metric</span>
+          <div class="lb-seg" id="lb-metric-seg" role="tablist">
+            <button class="lb-seg-btn active" data-mode="both" role="tab">Both</button>
+            <button class="lb-seg-btn" data-mode="ndcg" role="tab">nDCG</button>
+            <button class="lb-seg-btn" data-mode="recall" role="tab">Recall</button>
+          </div>
+        </div>
+      </div>
+      <div class="lb-filter-row">
+        <div class="lb-search-wrap">
+          <div class="lb-search-input">
+            <svg width="14" height="14" viewBox="0 0 24 24" fill="none" stroke="currentColor" stroke-width="2"><circle cx="11" cy="11" r="7"/><path d="m20 20-3.5-3.5"/></svg>
+            <input id="lb-search" placeholder="Filter by method, model, retriever, dataset…" autocomplete="off" />
+          </div>
+          <span class="lb-row-count"><span id="lb-shown">{rows.length}</span> / {rows.length} configs · {overview.run_count} runs</span>
+        </div>
+        <span class="lb-best-legend" style="margin-left:auto"><span class="dot"></span> best in column</span>
+      </div>
     </div>
   )}
 
   {populated ? (
-    <InteractiveTable searchPlaceholder="Filter by method, model, retriever…">
-      <div class="qg-table-card">
-        <div class="qg-table-scroll">
-          <table
-            id="qg-matrix"
-            class="w-full text-sm"
-            style="--qg-axis-w-1: 120px; --qg-axis-w-2: 180px;"
-          >
-            <thead class="text-xs uppercase tracking-wide text-qg-fg-muted">
-              <tr>
-                <th class="qg-axis-1 px-3 py-2 text-left whitespace-nowrap">Method</th>
-                <th class="qg-axis-2 px-3 py-2 text-left whitespace-nowrap">Model</th>
-                <th class="qg-axis-3 px-3 py-2 text-left whitespace-nowrap">Retriever</th>
-                {datasetCols.map((d: any) => (
-                  <th
-                    class="qg-mono px-2 py-2 text-right text-xs whitespace-nowrap"
-                    title={d.id}
-                  >
-                    <div><span>{SHORT[d.id] ?? d.name}</span><span class="qg-sort-arrow-slot"></span></div>
-                    <div class="qg-col-label-primary text-[10px] font-normal text-qg-fg-muted">
-                      {METRIC_LABEL[d.primary_metric] ?? d.primary_metric}
-                    </div>
-                    <div class="qg-col-label-secondary hidden text-[10px] font-normal text-qg-fg-muted">
-                      {METRIC_LABEL[d.secondary_metric] ?? d.secondary_metric}
-                    </div>
+    <div class="lb-table-card">
+      <div class="lb-table-scroll">
+        <table id="lb-matrix" class="lb">
+          <thead>
+            <tr class="top">
+              <th class="ax ax-1" rowspan="2"></th>
+              <th class="ax ax-2" rowspan="2">Method</th>
+              <th class="ax ax-3" rowspan="2">LLM</th>
+              <th class="ax ax-4" rowspan="2">Retriever</th>
+              {datasetCols.map((d: any) => (
+                <th class="group" colspan="2" data-ds={d.id} title={d.id}>{SHORT[d.id] ?? d.name}</th>
+              ))}
+            </tr>
+            <tr class="bot">
+              {datasetCols.map((d: any, di: number) => (
+                <>
+                  <th class:list={["metric", "metric-primary", di === 0 && "first"]} data-ds={d.id} data-sort-ds={d.id} data-sort-metric="primary">
+                    <span class="name">{METRIC_LABEL[d.primary_metric] ?? d.primary_metric}<span class="arrow"></span></span>
                   </th>
-                ))}
-              </tr>
-            </thead>
-            <tbody>
-              {rows.map((row: any) => (
-                <tr
-                  class="border-t border-qg-border/60 hover:bg-qg-bg-soft"
-                  data-method={row.method_id}
-                  data-model={row.model}
-                  data-retriever={row.retriever_id}
-                >
-                  <td class="qg-axis-1 px-3 py-2 font-medium">{row.method_display ?? row.method_id}</td>
-                  <td class="qg-axis-2 px-3 py-2 qg-mono text-xs" data-sort-value={row.model_display ?? row.model}>{row.model_display ?? row.model}</td>
-                  <td class="qg-axis-3 px-3 py-2 text-xs">{row.retriever_display ?? row.retriever_id}</td>
-                  {datasetCols.map((d: any) => {
-                    const cell = row.values?.[d.id] ?? {};
-                    return (
-                      <MatrixCell
-                        primary={cell[d.primary_metric]}
-                        secondary={d.secondary_metric ? cell[d.secondary_metric] : null}
-                        runId={row.run_ids?.[d.id]}
-                      />
-                    );
-                  })}
-                </tr>
+                  <th class="metric metric-secondary" data-ds={d.id} data-sort-ds={d.id} data-sort-metric="secondary">
+                    <span class="name">{METRIC_LABEL[d.secondary_metric] ?? d.secondary_metric}<span class="arrow"></span></span>
+                  </th>
+                </>
               ))}
-            </tbody>
-          </table>
-        </div>
+            </tr>
+          </thead>
+          <tbody>
+            {rows.map((row: any, i: number) => {
+              const datasetsWithRuns = datasetCols.filter((d: any) => row.run_ids?.[d.id]);
+              const firstDsId = datasetsWithRuns[0]?.id;
+              return (
+                <>
+                  <tr
+                    class="data"
+                    data-idx={i}
+                    data-method={row.method_id}
+                    data-model={row.model}
+                    data-retriever={row.retriever_id}
+                  >
+                    <td class="ax ax-1"><button class="lb-exp-btn" aria-label="expand"></button></td>
+                    <td class="ax ax-2"><span class="lb-method-name">{row.method_display ?? row.method_id}</span></td>
+                    <td class="ax ax-3 qg-mono" style="font-size:11.5px">{row.model_display ?? row.model}</td>
+                    <td class="ax ax-4">{row.retriever_display ?? row.retriever_id}</td>
+                    {datasetCols.map((d: any, di: number) => {
+                      const cell = row.values?.[d.id] ?? {};
+                      const p = cell[d.primary_metric];
+                      const s = d.secondary_metric ? cell[d.secondary_metric] : null;
+                      const pTxt = p ? p.value.toFixed(4) : "—";
+                      const sTxt = s ? s.value.toFixed(4) : "—";
+                      const pBest = p?.best ? " best" : "";
+                      const sBest = s?.best ? " best" : "";
+                      const first = di === 0 ? " first" : "";
+                      return (
+                        <>
+                          <td
+                            class:list={["lb-metric-cell", "metric-primary", p?.best && "best", di === 0 && "first"]}
+                            data-ds={d.id}
+                            data-primary-value={p?.value ?? ""}
+                          ><span class="primary">{pTxt}</span></td>
+                          <td
+                            class:list={["lb-metric-cell", "metric-secondary", s?.best && "best"]}
+                            data-ds={d.id}
+                            data-secondary-value={s?.value ?? ""}
+                          ><span class="secondary">{sTxt}</span></td>
+                        </>
+                      );
+                    })}
+                  </tr>
+                  <tr class="lb-exp-row">
+                    <td colspan={4 + datasetCols.length * 2}>
+                      <div class="lb-exp-wrap"><div class="lb-exp-inner">
+                        <div class="lb-exp-panel">
+                          <div class="lb-exp-meta">
+                            <span class="pill"><strong>method</strong>{row.method_display ?? row.method_id}</span>
+                            <span class="pill"><strong>llm</strong>{row.model_display ?? row.model}</span>
+                            <span class="pill"><strong>retriever</strong>{row.retriever_display ?? row.retriever_id}</span>
+                          </div>
+                          {datasetsWithRuns.length > 0 ? (
+                            <>
+                              <div class="lb-tabs" role="tablist">
+                                {datasetsWithRuns.map((d: any, ti: number) => {
+                                  const cell = row.values?.[d.id] ?? {};
+                                  const p = cell[d.primary_metric];
+                                  return (
+                                    <button class:list={["lb-tab", ti === 0 && "active"]} data-tab={d.id}>
+                                      {SHORT[d.id] ?? d.name}
+                                      {p && <span class="score">{p.value.toFixed(3)}</span>}
+                                    </button>
+                                  );
+                                })}
+                              </div>
+                              <div>
+                                {datasetsWithRuns.map((d: any, ti: number) => {
+                                  const runId = row.run_ids[d.id];
+                                  const steps = stepsFor(runId);
+                                  return (
+                                    <div class:list={["lb-tab-pane", ti === 0 && "active"]} data-pane={d.id}>
+                                      {steps?.map((st) => (
+                                        <div class="lb-step">
+                                          <div class="lb-step-head">
+                                            <div class="title">
+                                              <span class="num">{st.num}</span>
+                                              {st.title}
+                                              <span class="hint">{st.hint}</span>
+                                            </div>
+                                            <button class="lb-copy-btn" data-copy>copy</button>
+                                          </div>
+                                          <pre>{st.code}</pre>
+                                        </div>
+                                      ))}
+                                      <div class="lb-exp-footer">
+                                        <span>Run id <span class="qg-mono">{runId}</span></span>
+                                        <span>·</span>
+                                        <a href={`/runs/${runId}`}>open full run detail →</a>
+                                      </div>
+                                    </div>
+                                  );
+                                })}
+                              </div>
+                            </>
+                          ) : (
+                            <div class="text-sm text-qg-fg-muted">No runs recorded for this configuration.</div>
+                          )}
+                        </div>
+                      </div></div>
+                    </td>
+                  </tr>
+                </>
+              );
+            })}
+          </tbody>
+        </table>
       </div>
-    </InteractiveTable>
+    </div>
   ) : (
     <div class="mt-8 rounded-lg border border-qg-border bg-qg-bg-soft p-6 text-qg-fg-muted">
       No runs yet. The matrix will populate when results land.
     </div>
   )}
+
 </Default>
+
+<script>
+  // ------ viewport-width tracker for expand panel ------------------------
+  // The expand row's td has full table width via colspan, but we sticky-left
+  // its inner wrap and clamp it to the scroll container's visible width so
+  // the panel content always fits on screen and doesn't push horizontal
+  // scroll. JS sets --lb-vp-w on the scroll container; CSS uses it.
+  const scrollEl = document.querySelector<HTMLElement>(".lb-table-scroll");
+  function updateVp() {
+    if (scrollEl) scrollEl.style.setProperty("--lb-vp-w", scrollEl.clientWidth + "px");
+  }
+  updateVp();
+  window.addEventListener("resize", updateVp);
+
+  // ------ filter chips (Retriever / Model / Method) ----------------------
+  const filterRoot = document.querySelector<HTMLElement>("[data-lb-filters]");
+  const table = document.getElementById("lb-matrix") as HTMLTableElement | null;
+  const tbody = table?.querySelector("tbody");
+  const search = document.getElementById("lb-search") as HTMLInputElement | null;
+  const shownEl = document.getElementById("lb-shown");
+
+  const filterState: Record<string, string> = { retriever: "", model: "", method: "" };
+
+  filterRoot?.querySelectorAll<HTMLElement>("[data-group]").forEach((g) => {
+    const key = g.dataset.group!;
+    if (key === "metric") return;
+    g.querySelectorAll<HTMLButtonElement>("button.lb-chip").forEach((btn) => {
+      btn.addEventListener("click", () => {
+        g.querySelectorAll("button.lb-chip").forEach((b) => b.classList.remove("active"));
+        btn.classList.add("active");
+        filterState[key] = btn.dataset.value ?? "";
+        applyVisibility();
+      });
+    });
+  });
+
+  function applyVisibility() {
+    if (!tbody) return;
+    const q = (search?.value ?? "").trim().toLowerCase();
+    let shown = 0;
+    tbody.querySelectorAll<HTMLTableRowElement>("tr.data").forEach((tr) => {
+      let hide = false;
+      for (const [k, v] of Object.entries(filterState)) {
+        if (v && tr.dataset[k] !== v) { hide = true; break; }
+      }
+      if (!hide && q) {
+        const txt = (tr.textContent ?? "").toLowerCase();
+        if (!txt.includes(q)) hide = true;
+      }
+      tr.style.display = hide ? "none" : "";
+      const exp = tr.nextElementSibling as HTMLElement | null;
+      if (exp?.classList.contains("lb-exp-row")) exp.style.display = hide ? "none" : "";
+      if (!hide) shown++;
+    });
+    if (shownEl) shownEl.textContent = String(shown);
+  }
+  search?.addEventListener("input", applyVisibility);
+
+  // ------ dataset multi-select dropdown ---------------------------------
+  const dsMulti = document.getElementById("lb-ds-multi");
+  const dsTrigger = dsMulti?.querySelector<HTMLButtonElement>(".lb-multi-trigger");
+  const dsCount = dsMulti?.querySelector<HTMLElement>(".lb-multi-count");
+  const dsPanel = dsMulti?.querySelector<HTMLElement>(".lb-multi-panel");
+  const dsCheckboxes = Array.from(dsMulti?.querySelectorAll<HTMLInputElement>('input[type="checkbox"][data-ds]') ?? []);
+
+  dsTrigger?.addEventListener("click", (e) => {
+    e.stopPropagation();
+    dsMulti?.classList.toggle("open");
+  });
+  dsPanel?.addEventListener("click", (e) => e.stopPropagation());
+  document.addEventListener("click", () => dsMulti?.classList.remove("open"));
+
+  dsCheckboxes.forEach((cb) => cb.addEventListener("change", applyDsFilter));
+
+  dsMulti?.querySelectorAll<HTMLButtonElement>('button[data-action]').forEach((btn) => {
+    btn.addEventListener("click", (e) => {
+      e.stopPropagation();
+      const fam = btn.closest<HTMLElement>("[data-family]")?.dataset.family;
+      const isAll = btn.dataset.action === "all";
+      dsCheckboxes.forEach((cb) => {
+        const dsId = cb.dataset.ds ?? "";
+        const cbFam = dsId.startsWith("beir-") ? "beir" : "dl";
+        if (cbFam === fam) cb.checked = isAll;
+      });
+      applyDsFilter();
+    });
+  });
+
+  function applyDsFilter() {
+    const hidden = new Set<string>();
+    dsCheckboxes.forEach((cb) => { if (!cb.checked) hidden.add(cb.dataset.ds ?? ""); });
+    // hide column elements (group ths, metric subheader ths, body cells).
+    // Use lb-hide-ds so this state is independent of the metric-mode toggle.
+    document.querySelectorAll<HTMLElement>("table.lb [data-ds]").forEach((el) => {
+      el.classList.toggle("lb-hide-ds", hidden.has(el.dataset.ds ?? ""));
+    });
+    // hide tabs + panes in any expanded row
+    document.querySelectorAll<HTMLElement>(".lb-tab").forEach((tab) => {
+      tab.classList.toggle("lb-hide-ds", hidden.has(tab.dataset.tab ?? ""));
+    });
+    document.querySelectorAll<HTMLElement>(".lb-tab-pane").forEach((p) => {
+      p.classList.toggle("lb-hide-ds", hidden.has(p.dataset.pane ?? ""));
+    });
+    // if a panel's active tab is now hidden, activate the first visible one
+    document.querySelectorAll<HTMLElement>(".lb-exp-row").forEach((exp) => {
+      const activeTab = exp.querySelector<HTMLElement>(".lb-tab.active:not(.lb-hide-ds)");
+      if (!activeTab) {
+        const firstVisible = exp.querySelector<HTMLElement>(".lb-tab:not(.lb-hide-ds)");
+        if (firstVisible) {
+          exp.querySelectorAll<HTMLElement>(".lb-tab").forEach((t) => t.classList.remove("active"));
+          firstVisible.classList.add("active");
+          const id = firstVisible.dataset.tab;
+          exp.querySelectorAll<HTMLElement>(".lb-tab-pane").forEach((p) =>
+            p.classList.toggle("active", p.dataset.pane === id && !p.classList.contains("lb-hide-ds"))
+          );
+        }
+      }
+    });
+    // update trigger label
+    const total = dsCheckboxes.length;
+    const selected = dsCheckboxes.filter((c) => c.checked).length;
+    if (dsCount) dsCount.textContent = `${selected} / ${total} selected`;
+    dsTrigger?.classList.toggle("has-filter", selected < total);
+  }
+
+  // ------ metric segmented control --------------------------------------
+  let metricMode: "both" | "ndcg" | "recall" = "both";
+  const segBtns = document.querySelectorAll<HTMLButtonElement>("#lb-metric-seg .lb-seg-btn");
+  segBtns.forEach((btn) => {
+    btn.addEventListener("click", () => {
+      if (btn.classList.contains("active")) return;
+      segBtns.forEach((b) => b.classList.toggle("active", b === btn));
+      metricMode = (btn.dataset.mode as any) ?? "both";
+      applyMetricMode();
+    });
+  });
+  function applyMetricMode() {
+    if (!table) return;
+    const showP = metricMode === "ndcg" || metricMode === "both";
+    const showS = metricMode === "recall" || metricMode === "both";
+    table.classList.toggle("mode-single", !(showP && showS));
+    // use lb-hide-metric so this state is independent of the ds-filter
+    table.querySelectorAll(".metric-primary").forEach((el) => el.classList.toggle("lb-hide-metric", !showP));
+    table.querySelectorAll(".metric-secondary").forEach((el) => el.classList.toggle("lb-hide-metric", !showS));
+    const newSpan = (showP ? 1 : 0) + (showS ? 1 : 0);
+    table.querySelectorAll<HTMLTableCellElement>("thead tr.top th.group").forEach((th) => { th.colSpan = newSpan || 1; });
+    // re-flow the .first class so the leftmost visible metric in each group keeps the border
+    const datasets = Array.from(table.querySelectorAll<HTMLTableCellElement>("thead tr.top th.group")).map((th) => th.dataset.ds);
+    datasets.forEach((dsId, di) => {
+      const p = table!.querySelector<HTMLElement>(`thead tr.bot .metric-primary[data-sort-ds="${dsId}"]`);
+      const s = table!.querySelector<HTMLElement>(`thead tr.bot .metric-secondary[data-sort-ds="${dsId}"]`);
+      if (p) p.classList.toggle("first", di === 0 && showP);
+      if (s) s.classList.toggle("first", di === 0 && !showP);
+    });
+    table.querySelectorAll<HTMLTableRowElement>("tbody tr.data").forEach((tr) => {
+      datasets.forEach((dsId, di) => {
+        const ps = tr.querySelectorAll<HTMLElement>(".metric-primary");
+        const ss = tr.querySelectorAll<HTMLElement>(".metric-secondary");
+        const p = ps[di]; const s = ss[di];
+        if (p) p.classList.toggle("first", di === 0 && showP);
+        if (s) s.classList.toggle("first", di === 0 && !showP);
+      });
+    });
+    // re-apply current sort if any (so order matches what's visible)
+    if (sortState.dsId) applySort();
+  }
+
+  // ------ sort ----------------------------------------------------------
+  const sortState: { dsId: string | null; metric: "primary" | "secondary" | null; dir: "asc" | "desc" | null } = {
+    dsId: null, metric: null, dir: null,
+  };
+  function applySort() {
+    if (!tbody || !sortState.dsId || !sortState.dir) return;
+    const dsId = sortState.dsId;
+    const attr = sortState.metric === "primary" ? "primaryValue" : "secondaryValue";
+    const dir = sortState.dir === "asc" ? 1 : -1;
+    const dsIdx = Array.from(table!.querySelectorAll<HTMLTableCellElement>("thead tr.top th.group")).findIndex((th) => th.dataset.ds === dsId);
+    if (dsIdx < 0) return;
+    const dataRows = Array.from(tbody.querySelectorAll<HTMLTableRowElement>("tr.data"));
+    const pairs = dataRows.map((tr) => {
+      const cells = tr.querySelectorAll<HTMLTableCellElement>(sortState.metric === "primary" ? ".metric-primary" : ".metric-secondary");
+      const cell = cells[dsIdx];
+      const raw = cell?.dataset[attr] ?? "";
+      const n = parseFloat(raw);
+      return { tr, exp: tr.nextElementSibling, v: Number.isFinite(n) ? n : null };
+    });
+    pairs.sort((a, b) => {
+      if (a.v === null && b.v === null) return 0;
+      if (a.v === null) return 1;
+      if (b.v === null) return -1;
+      return (a.v - b.v) * dir;
+    });
+    pairs.forEach((p) => {
+      tbody!.appendChild(p.tr);
+      if (p.exp) tbody!.appendChild(p.exp);
+    });
+  }
+  function updateSortIndicators() {
+    table?.querySelectorAll(".metric").forEach((th) => th.classList.remove("sort-asc", "sort-desc"));
+    if (sortState.dir) {
+      const th = table?.querySelector(`thead .metric[data-sort-ds="${sortState.dsId}"][data-sort-metric="${sortState.metric}"]`);
+      th?.classList.add(`sort-${sortState.dir}`);
+    }
+  }
+  function setSort(dsId: string, metric: "primary" | "secondary") {
+    if (sortState.dsId === dsId && sortState.metric === metric) {
+      sortState.dir = sortState.dir === "desc" ? "asc" : "desc";
+    } else {
+      sortState.dsId = dsId; sortState.metric = metric; sortState.dir = "desc";
+    }
+    applySort();
+    updateSortIndicators();
+  }
+  table?.querySelectorAll<HTMLElement>("thead .metric").forEach((th) => {
+    th.addEventListener("click", () => {
+      const dsId = th.dataset.sortDs;
+      const m = th.dataset.sortMetric as "primary" | "secondary" | undefined;
+      if (dsId && m) setSort(dsId, m);
+    });
+  });
+
+  // ------ row expand + tab switching ------------------------------------
+  tbody?.querySelectorAll<HTMLTableRowElement>("tr.data").forEach((tr) => {
+    const exp = tr.nextElementSibling as HTMLElement | null;
+    if (!exp?.classList.contains("lb-exp-row")) return;
+    const toggle = (e?: Event) => {
+      if (e && (e.target as HTMLElement).closest("a, button.lb-copy-btn, button.lb-tab")) return;
+      const open = tr.classList.toggle("expanded");
+      exp.classList.toggle("show", open);
+    };
+    tr.addEventListener("click", toggle);
+    exp.querySelectorAll<HTMLButtonElement>(".lb-tab").forEach((tab) => {
+      tab.addEventListener("click", () => {
+        exp.querySelectorAll(".lb-tab").forEach((t) => t.classList.toggle("active", t === tab));
+        const id = tab.dataset.tab;
+        exp.querySelectorAll<HTMLElement>(".lb-tab-pane").forEach((p) => p.classList.toggle("active", p.dataset.pane === id));
+      });
+    });
+  });
+
+  // ------ copy buttons --------------------------------------------------
+  document.addEventListener("click", (e) => {
+    const btn = (e.target as HTMLElement).closest<HTMLButtonElement>("[data-copy]");
+    if (!btn) return;
+    const pre = btn.closest(".lb-step")?.querySelector("pre");
+    if (!pre) return;
+    navigator.clipboard.writeText(pre.textContent ?? "");
+    const prev = btn.textContent;
+    btn.textContent = "copied ✓";
+    btn.classList.add("copied");
+    setTimeout(() => { btn.textContent = prev; btn.classList.remove("copied"); }, 1400);
+  });
+</script>
diff --git a/reproducibility/site/src/pages/methods/[id].astro b/reproducibility/site/src/pages/methods/[id].astro
index 6e14178..add49d2 100644
--- a/reproducibility/site/src/pages/methods/[id].astro
+++ b/reproducibility/site/src/pages/methods/[id].astro
@@ -1,10 +1,10 @@
 ---
 import Default from "../../layouts/Default.astro";
 import EmptyState from "../../components/EmptyState.astro";
-import InteractiveTable from "../../components/InteractiveTable.astro";
-import FilterChips from "../../components/FilterChips.astro";
-import MatrixCell from "../../components/MatrixCell.astro";
 import methods from "../../data/methods.json";
+import runs from "../../data/runs.json";
+import matrix from "../../data/matrix.json";
+import { buildReproduceCmds, retrieveHint, evaluateHint, type RunLike } from "../../lib/reproduce";
 
 const shards = import.meta.glob<{ default: any }>(
   "../../data/views/method-*.json",
@@ -40,10 +40,13 @@ const METRIC_LABEL: Record<string, string> = {
   ndcg_cut_10: "nDCG@10", recall_1000: "R@1k", recall_100: "R@100", map: "MAP",
 };
 
-const datasetCols = (await import("../../data/matrix.json")).default.dataset_columns;
-const title = view?.method_display ?? meta?.display ?? id ?? "Method";
-const tableId = "qg-method-table";
+const datasetCols = matrix.dataset_columns;
+const beirCols = datasetCols.filter((d: any) => d.id.startsWith("beir-"));
+const dlCols = datasetCols.filter((d: any) => !d.id.startsWith("beir-"));
 
+const title = view?.method_display ?? meta?.display_name ?? meta?.display ?? id ?? "Method";
+
+// distinct axis values for chip filters
 const uniq = (xs: any[], key: string, displayKey?: string) => {
   const m = new Map<string, string>();
   for (const r of xs) m.set(r[key], r[displayKey ?? key] ?? r[key]);
@@ -51,85 +54,506 @@ const uniq = (xs: any[], key: string, displayKey?: string) => {
 };
 const modelChoices = uniq(rows, "model", "model_display");
 const retrieverChoices = uniq(rows, "retriever_id", "retriever_display");
+
+// build the reproduce steps for each (row, dataset) cell that has a run
+const runsMap = runs as Record<string, any>;
+type Step = { num: number; title: string; hint: string; code: string };
+const reproCache: Record<string, Step[]> = {};
+function stepsFor(runId: string): Step[] | null {
+  if (!runId) return null;
+  if (reproCache[runId]) return reproCache[runId];
+  const r = runsMap[runId] as RunLike | undefined;
+  if (!r) return null;
+  const cmds = buildReproduceCmds(r);
+  const retrieverDisp = (r as any).retriever_display ?? (r as any).retriever_id ?? "";
+  const steps: Step[] = [
+    { num: 1, title: "reformulate", hint: "querygym → reformulated_queries.tsv", code: cmds.reformulate },
+  ];
+  if (cmds.retrieve) {
+    steps.push({ num: 2, title: "retrieve", hint: retrieveHint(retrieverDisp, cmds.paradigm), code: cmds.retrieve });
+  }
+  steps.push({
+    num: cmds.retrieve ? 3 : 2,
+    title: "evaluate",
+    hint: evaluateHint(Object.keys(r.metrics ?? {})),
+    code: cmds.evaluate,
+  });
+  reproCache[runId] = steps;
+  return steps;
+}
 ---
 
 <Default title={title} description={`Per-method leaderboard for ${title}.`}>
-  <a href="/methods/" class="text-sm text-qg-fg-muted hover:text-qg-fg">← All methods</a>
-  <h1 class="mt-2 text-2xl font-bold md:text-3xl">{title}</h1>
-  <div class="mt-1 qg-mono text-sm text-qg-fg-muted">{id}</div>
-  <div class="mt-1 text-sm text-qg-fg-muted">{rows.length} model × retriever combinations</div>
-
   {rows.length === 0 ? (
-    <div class="mt-8">
-      <EmptyState title="No runs for this method yet" body="" />
-    </div>
+    <>
+      <a href="/methods/" class="text-xs text-qg-fg-muted hover:text-qg-fg">← All methods</a>
+      <div class="mt-6"><EmptyState title="No runs for this method yet" body="" /></div>
+    </>
   ) : (
     <>
-      <div class="mt-6 qg-filter-card">
-        <FilterChips
-          tableId={tableId}
-          groups={[
-            { key: "model", label: "Model",
-              values: [{ value: "", label: "All" }, ...modelChoices.map(([v, l]) => ({ value: v, label: l }))] },
-            { key: "retriever", label: "Retriever",
-              values: [{ value: "", label: "All" }, ...retrieverChoices.map(([v, l]) => ({ value: v, label: l }))] },
-            { key: "metric", label: "Metric",
-              values: [{ value: "primary", label: "nDCG@10" }, { value: "secondary", label: "Recall" }] },
-          ]}
-        />
+      <header class="mb-3">
+        <div class="mb-2 flex items-baseline gap-3">
+          <a href="/methods/" class="text-xs text-qg-fg-muted hover:text-qg-fg">← Methods</a>
+          <h2 class="text-xl font-semibold text-qg-fg md:text-2xl">{title}</h2>
+          <span class="qg-mono text-xs text-qg-fg-muted">{id}</span>
+          <div class="h-px flex-1 bg-qg-border"></div>
+          <span class="text-[11px] uppercase tracking-wider text-qg-fg-muted">
+            All results produced by
+            <span class="qg-mono font-semibold text-qg-accent">QueryGym</span>
+            · fully reproducible!
+          </span>
+        </div>
+        <p class="max-w-4xl text-xs leading-relaxed text-qg-fg-muted">
+          {rows.length} model × retriever configurations for this method across BEIR, MS MARCO DL, and DL-HARD.
+          <br />
+          Click any row or the <strong class="text-qg-fg">+</strong> button to expand. Tabs switch dataset
+          context. The three steps (reformulate → retrieve → evaluate) update accordingly.
+        </p>
+      </header>
+
+      <div class="lb-filter-card" data-lb-filters>
+        <div class="lb-filter-row">
+          <div class="lb-filter-group" data-group="retriever">
+            <span class="lb-filter-label">Retriever</span>
+            <button class="lb-chip active" data-value="">All</button>
+            {retrieverChoices.map(([v, l]) => (
+              <button class="lb-chip" data-value={v}>{l}</button>
+            ))}
+          </div>
+          <div class="lb-filter-group" data-group="model">
+            <span class="lb-filter-label">Model</span>
+            <button class="lb-chip active" data-value="">All</button>
+            {modelChoices.map(([v, l]) => (
+              <button class="lb-chip" data-value={v}>{l}</button>
+            ))}
+          </div>
+          <div class="lb-filter-group">
+            <span class="lb-filter-label">Datasets</span>
+            <div class="lb-multi" id="lb-ds-multi">
+              <button class="lb-multi-trigger" type="button" aria-haspopup="true">
+                <span class="lb-multi-count">{datasetCols.length} / {datasetCols.length} selected</span>
+                <span class="caret">▾</span>
+              </button>
+              <div class="lb-multi-panel" role="menu">
+                {beirCols.length > 0 && (
+                  <div class="lb-multi-section" data-family="beir">
+                    <div class="lb-multi-section-head">
+                      <span class="label">BEIR</span>
+                      <span class="actions">
+                        <button type="button" data-action="all">all</button>
+                        <span>·</span>
+                        <button type="button" data-action="none">none</button>
+                      </span>
+                    </div>
+                    {beirCols.map((d: any) => (
+                      <label class="lb-multi-item">
+                        <input type="checkbox" data-ds={d.id} checked />
+                        <span class="name">{SHORT[d.id] ?? d.name}</span>
+                      </label>
+                    ))}
+                  </div>
+                )}
+                {dlCols.length > 0 && (
+                  <div class="lb-multi-section" data-family="dl">
+                    <div class="lb-multi-section-head">
+                      <span class="label">MS MARCO DL</span>
+                      <span class="actions">
+                        <button type="button" data-action="all">all</button>
+                        <span>·</span>
+                        <button type="button" data-action="none">none</button>
+                      </span>
+                    </div>
+                    {dlCols.map((d: any) => (
+                      <label class="lb-multi-item">
+                        <input type="checkbox" data-ds={d.id} checked />
+                        <span class="name">{SHORT[d.id] ?? d.name}</span>
+                      </label>
+                    ))}
+                  </div>
+                )}
+              </div>
+            </div>
+          </div>
+          <div class="lb-filter-group">
+            <span class="lb-filter-label">Metric</span>
+            <div class="lb-seg" id="lb-metric-seg" role="tablist">
+              <button class="lb-seg-btn active" data-mode="both" role="tab">Both</button>
+              <button class="lb-seg-btn" data-mode="ndcg" role="tab">nDCG</button>
+              <button class="lb-seg-btn" data-mode="recall" role="tab">Recall</button>
+            </div>
+          </div>
+        </div>
+        <div class="lb-filter-row">
+          <div class="lb-search-wrap">
+            <div class="lb-search-input">
+              <svg width="14" height="14" viewBox="0 0 24 24" fill="none" stroke="currentColor" stroke-width="2"><circle cx="11" cy="11" r="7"/><path d="m20 20-3.5-3.5"/></svg>
+              <input id="lb-search" placeholder="Filter by model, retriever, dataset…" autocomplete="off" />
+            </div>
+            <span class="lb-row-count"><span id="lb-shown">{rows.length}</span> / {rows.length} configs</span>
+          </div>
+          <span class="lb-best-legend" style="margin-left:auto"><span class="dot"></span> best in column</span>
+        </div>
       </div>
 
-      <InteractiveTable searchPlaceholder="Filter by model, retriever…">
-        <div class="qg-table-card">
-          <div class="qg-table-scroll">
-            <table
-              id={tableId}
-              class="w-full text-sm"
-              style="--qg-axis-w-1: 180px; --qg-axis-w-2: 160px;"
-            >
-              <thead class="text-xs uppercase tracking-wide text-qg-fg-muted">
-                <tr>
-                  <th class="qg-axis-1 px-3 py-2 text-left">Model</th>
-                  <th class="qg-axis-2 px-3 py-2 text-left">Retriever</th>
-                  {datasetCols.map((d: any) => (
-                    <th class="qg-mono px-2 py-2 text-right text-xs whitespace-nowrap" title={d.id}>
-                      <div><span>{SHORT[d.id] ?? d.name}</span><span class="qg-sort-arrow-slot"></span></div>
-                      <div class="qg-col-label-primary text-[10px] font-normal text-qg-fg-muted">
-                        {METRIC_LABEL[d.primary_metric] ?? d.primary_metric}
-                      </div>
-                      <div class="qg-col-label-secondary hidden text-[10px] font-normal text-qg-fg-muted">
-                        {METRIC_LABEL[d.secondary_metric] ?? d.secondary_metric}
-                      </div>
+      <div class="lb-table-card">
+        <div class="lb-table-scroll">
+          <table id="lb-matrix" class="lb">
+            <thead>
+              <tr class="top">
+                <th class="ax ax-1" rowspan="2"></th>
+                <th class="ax ax-2" rowspan="2">Model</th>
+                <th class="ax ax-3" rowspan="2">Retriever</th>
+                {datasetCols.map((d: any) => (
+                  <th class="group" colspan="2" data-ds={d.id} title={d.id}>{SHORT[d.id] ?? d.name}</th>
+                ))}
+              </tr>
+              <tr class="bot">
+                {datasetCols.map((d: any, di: number) => (
+                  <>
+                    <th class:list={["metric", "metric-primary", di === 0 && "first"]} data-ds={d.id} data-sort-ds={d.id} data-sort-metric="primary">
+                      <span class="name">{METRIC_LABEL[d.primary_metric] ?? d.primary_metric}<span class="arrow"></span></span>
                     </th>
-                  ))}
-                </tr>
-              </thead>
-              <tbody>
-                {rows.map((row: any) => (
-                  <tr
-                    class="border-t border-qg-border/60 hover:bg-qg-bg-soft"
-                    data-model={row.model}
-                    data-retriever={row.retriever_id}
-                  >
-                    <td class="qg-axis-1 px-3 py-2 qg-mono text-xs" data-sort-value={row.model_display ?? row.model}>{row.model_display ?? row.model}</td>
-                    <td class="qg-axis-2 px-3 py-2 text-xs">{row.retriever_display ?? row.retriever_id}</td>
-                    {datasetCols.map((d: any) => {
-                      const cell = row.values?.[d.id] ?? {};
-                      return (
-                        <MatrixCell
-                          primary={cell[d.primary_metric]}
-                          secondary={d.secondary_metric ? cell[d.secondary_metric] : null}
-                          runId={row.run_ids?.[d.id]}
-                        />
-                      );
-                    })}
-                  </tr>
+                    <th class="metric metric-secondary" data-ds={d.id} data-sort-ds={d.id} data-sort-metric="secondary">
+                      <span class="name">{METRIC_LABEL[d.secondary_metric] ?? d.secondary_metric}<span class="arrow"></span></span>
+                    </th>
+                  </>
                 ))}
-              </tbody>
-            </table>
-          </div>
+              </tr>
+            </thead>
+            <tbody>
+              {rows.map((row: any, i: number) => {
+                const datasetsWithRuns = datasetCols.filter((d: any) => row.run_ids?.[d.id]);
+                return (
+                  <>
+                    <tr
+                      class="data"
+                      data-idx={i}
+                      data-model={row.model}
+                      data-retriever={row.retriever_id}
+                    >
+                      <td class="ax ax-1"><button class="lb-exp-btn" aria-label="expand"></button></td>
+                      <td class="ax ax-2 qg-mono" style="font-size:11.5px">{row.model_display ?? row.model}</td>
+                      <td class="ax ax-3">{row.retriever_display ?? row.retriever_id}</td>
+                      {datasetCols.map((d: any, di: number) => {
+                        const cell = row.values?.[d.id] ?? {};
+                        const p = cell[d.primary_metric];
+                        const s = d.secondary_metric ? cell[d.secondary_metric] : null;
+                        const pTxt = p ? p.value.toFixed(4) : "—";
+                        const sTxt = s ? s.value.toFixed(4) : "—";
+                        return (
+                          <>
+                            <td
+                              class:list={["lb-metric-cell", "metric-primary", p?.best && "best", di === 0 && "first"]}
+                              data-ds={d.id}
+                              data-primary-value={p?.value ?? ""}
+                            ><span class="primary">{pTxt}</span></td>
+                            <td
+                              class:list={["lb-metric-cell", "metric-secondary", s?.best && "best"]}
+                              data-ds={d.id}
+                              data-secondary-value={s?.value ?? ""}
+                            ><span class="secondary">{sTxt}</span></td>
+                          </>
+                        );
+                      })}
+                    </tr>
+                    <tr class="lb-exp-row">
+                      <td colspan={3 + datasetCols.length * 2}>
+                        <div class="lb-exp-wrap"><div class="lb-exp-inner">
+                          <div class="lb-exp-panel">
+                            <div class="lb-exp-meta">
+                              <span class="pill"><strong>method</strong>{title}</span>
+                              <span class="pill"><strong>llm</strong>{row.model_display ?? row.model}</span>
+                              <span class="pill"><strong>retriever</strong>{row.retriever_display ?? row.retriever_id}</span>
+                            </div>
+                            {datasetsWithRuns.length > 0 ? (
+                              <>
+                                <div class="lb-tabs" role="tablist">
+                                  {datasetsWithRuns.map((d: any, ti: number) => {
+                                    const cell = row.values?.[d.id] ?? {};
+                                    const p = cell[d.primary_metric];
+                                    return (
+                                      <button class:list={["lb-tab", ti === 0 && "active"]} data-tab={d.id}>
+                                        {SHORT[d.id] ?? d.name}
+                                        {p && <span class="score">{p.value.toFixed(3)}</span>}
+                                      </button>
+                                    );
+                                  })}
+                                </div>
+                                <div>
+                                  {datasetsWithRuns.map((d: any, ti: number) => {
+                                    const runId = row.run_ids[d.id];
+                                    const steps = stepsFor(runId);
+                                    return (
+                                      <div class:list={["lb-tab-pane", ti === 0 && "active"]} data-pane={d.id}>
+                                        {steps?.map((st) => (
+                                          <div class="lb-step">
+                                            <div class="lb-step-head">
+                                              <div class="title">
+                                                <span class="num">{st.num}</span>
+                                                {st.title}
+                                                <span class="hint">{st.hint}</span>
+                                              </div>
+                                              <button class="lb-copy-btn" data-copy>copy</button>
+                                            </div>
+                                            <pre>{st.code}</pre>
+                                          </div>
+                                        ))}
+                                        <div class="lb-exp-footer">
+                                          <span>Run id <span class="qg-mono">{runId}</span></span>
+                                          <span>·</span>
+                                          <a href={`/runs/${runId}`}>open full run detail →</a>
+                                        </div>
+                                      </div>
+                                    );
+                                  })}
+                                </div>
+                              </>
+                            ) : (
+                              <div class="text-sm text-qg-fg-muted">No runs recorded.</div>
+                            )}
+                          </div>
+                        </div></div>
+                      </td>
+                    </tr>
+                  </>
+                );
+              })}
+            </tbody>
+          </table>
         </div>
-      </InteractiveTable>
+      </div>
     </>
   )}
 </Default>
+
+<script>
+  const scrollEl = document.querySelector<HTMLElement>(".lb-table-scroll");
+  function updateVp() {
+    if (scrollEl) scrollEl.style.setProperty("--lb-vp-w", scrollEl.clientWidth + "px");
+  }
+  updateVp();
+  window.addEventListener("resize", updateVp);
+
+  const filterRoot = document.querySelector<HTMLElement>("[data-lb-filters]");
+  const table = document.getElementById("lb-matrix") as HTMLTableElement | null;
+  const tbody = table?.querySelector("tbody");
+  const search = document.getElementById("lb-search") as HTMLInputElement | null;
+  const shownEl = document.getElementById("lb-shown");
+
+  const filterState: Record<string, string> = { model: "", retriever: "" };
+
+  filterRoot?.querySelectorAll<HTMLElement>("[data-group]").forEach((g) => {
+    const key = g.dataset.group!;
+    g.querySelectorAll<HTMLButtonElement>("button.lb-chip").forEach((btn) => {
+      btn.addEventListener("click", () => {
+        g.querySelectorAll("button.lb-chip").forEach((b) => b.classList.remove("active"));
+        btn.classList.add("active");
+        filterState[key] = btn.dataset.value ?? "";
+        applyVisibility();
+      });
+    });
+  });
+  function applyVisibility() {
+    if (!tbody) return;
+    const q = (search?.value ?? "").trim().toLowerCase();
+    let shown = 0;
+    tbody.querySelectorAll<HTMLTableRowElement>("tr.data").forEach((tr) => {
+      let hide = false;
+      for (const [k, v] of Object.entries(filterState)) {
+        if (v && tr.dataset[k] !== v) { hide = true; break; }
+      }
+      if (!hide && q) {
+        const txt = (tr.textContent ?? "").toLowerCase();
+        if (!txt.includes(q)) hide = true;
+      }
+      tr.style.display = hide ? "none" : "";
+      const exp = tr.nextElementSibling as HTMLElement | null;
+      if (exp?.classList.contains("lb-exp-row")) exp.style.display = hide ? "none" : "";
+      if (!hide) shown++;
+    });
+    if (shownEl) shownEl.textContent = String(shown);
+  }
+  search?.addEventListener("input", applyVisibility);
+
+  // dataset multi-select
+  const dsMulti = document.getElementById("lb-ds-multi");
+  const dsTrigger = dsMulti?.querySelector<HTMLButtonElement>(".lb-multi-trigger");
+  const dsCount = dsMulti?.querySelector<HTMLElement>(".lb-multi-count");
+  const dsPanel = dsMulti?.querySelector<HTMLElement>(".lb-multi-panel");
+  const dsCheckboxes = Array.from(dsMulti?.querySelectorAll<HTMLInputElement>('input[type="checkbox"][data-ds]') ?? []);
+
+  dsTrigger?.addEventListener("click", (e) => { e.stopPropagation(); dsMulti?.classList.toggle("open"); });
+  dsPanel?.addEventListener("click", (e) => e.stopPropagation());
+  document.addEventListener("click", () => dsMulti?.classList.remove("open"));
+
+  dsCheckboxes.forEach((cb) => cb.addEventListener("change", applyDsFilter));
+
+  dsMulti?.querySelectorAll<HTMLButtonElement>('button[data-action]').forEach((btn) => {
+    btn.addEventListener("click", (e) => {
+      e.stopPropagation();
+      const fam = btn.closest<HTMLElement>("[data-family]")?.dataset.family;
+      const isAll = btn.dataset.action === "all";
+      dsCheckboxes.forEach((cb) => {
+        const dsId = cb.dataset.ds ?? "";
+        const cbFam = dsId.startsWith("beir-") ? "beir" : "dl";
+        if (cbFam === fam) cb.checked = isAll;
+      });
+      applyDsFilter();
+    });
+  });
+  function applyDsFilter() {
+    const hidden = new Set<string>();
+    dsCheckboxes.forEach((cb) => { if (!cb.checked) hidden.add(cb.dataset.ds ?? ""); });
+    document.querySelectorAll<HTMLElement>("table.lb [data-ds]").forEach((el) => {
+      el.classList.toggle("lb-hide-ds", hidden.has(el.dataset.ds ?? ""));
+    });
+    document.querySelectorAll<HTMLElement>(".lb-tab").forEach((tab) => {
+      tab.classList.toggle("lb-hide-ds", hidden.has(tab.dataset.tab ?? ""));
+    });
+    document.querySelectorAll<HTMLElement>(".lb-tab-pane").forEach((p) => {
+      p.classList.toggle("lb-hide-ds", hidden.has(p.dataset.pane ?? ""));
+    });
+    document.querySelectorAll<HTMLElement>(".lb-exp-row").forEach((exp) => {
+      const activeTab = exp.querySelector<HTMLElement>(".lb-tab.active:not(.lb-hide-ds)");
+      if (!activeTab) {
+        const firstVisible = exp.querySelector<HTMLElement>(".lb-tab:not(.lb-hide-ds)");
+        if (firstVisible) {
+          exp.querySelectorAll<HTMLElement>(".lb-tab").forEach((t) => t.classList.remove("active"));
+          firstVisible.classList.add("active");
+          const id = firstVisible.dataset.tab;
+          exp.querySelectorAll<HTMLElement>(".lb-tab-pane").forEach((p) =>
+            p.classList.toggle("active", p.dataset.pane === id && !p.classList.contains("lb-hide-ds"))
+          );
+        }
+      }
+    });
+    const total = dsCheckboxes.length;
+    const selected = dsCheckboxes.filter((c) => c.checked).length;
+    if (dsCount) dsCount.textContent = `${selected} / ${total} selected`;
+    dsTrigger?.classList.toggle("has-filter", selected < total);
+  }
+
+  // metric segmented control
+  let metricMode: "both" | "ndcg" | "recall" = "both";
+  const segBtns = document.querySelectorAll<HTMLButtonElement>("#lb-metric-seg .lb-seg-btn");
+  segBtns.forEach((btn) => {
+    btn.addEventListener("click", () => {
+      if (btn.classList.contains("active")) return;
+      segBtns.forEach((b) => b.classList.toggle("active", b === btn));
+      metricMode = (btn.dataset.mode as any) ?? "both";
+      applyMetricMode();
+    });
+  });
+  function applyMetricMode() {
+    if (!table) return;
+    const showP = metricMode === "ndcg" || metricMode === "both";
+    const showS = metricMode === "recall" || metricMode === "both";
+    table.classList.toggle("mode-single", !(showP && showS));
+    table.querySelectorAll(".metric-primary").forEach((el) => el.classList.toggle("lb-hide-metric", !showP));
+    table.querySelectorAll(".metric-secondary").forEach((el) => el.classList.toggle("lb-hide-metric", !showS));
+    const newSpan = (showP ? 1 : 0) + (showS ? 1 : 0);
+    table.querySelectorAll<HTMLTableCellElement>("thead tr.top th.group").forEach((th) => { th.colSpan = newSpan || 1; });
+    const datasets = Array.from(table.querySelectorAll<HTMLTableCellElement>("thead tr.top th.group")).map((th) => th.dataset.ds);
+    datasets.forEach((dsId, di) => {
+      const p = table!.querySelector<HTMLElement>(`thead tr.bot .metric-primary[data-sort-ds="${dsId}"]`);
+      const s = table!.querySelector<HTMLElement>(`thead tr.bot .metric-secondary[data-sort-ds="${dsId}"]`);
+      if (p) p.classList.toggle("first", di === 0 && showP);
+      if (s) s.classList.toggle("first", di === 0 && !showP);
+    });
+    table.querySelectorAll<HTMLTableRowElement>("tbody tr.data").forEach((tr) => {
+      datasets.forEach((dsId, di) => {
+        const ps = tr.querySelectorAll<HTMLElement>(".metric-primary");
+        const ss = tr.querySelectorAll<HTMLElement>(".metric-secondary");
+        const p = ps[di]; const s = ss[di];
+        if (p) p.classList.toggle("first", di === 0 && showP);
+        if (s) s.classList.toggle("first", di === 0 && !showP);
+      });
+    });
+    if (sortState.dsId) applySort();
+  }
+
+  // sort
+  const sortState: { dsId: string | null; metric: "primary" | "secondary" | null; dir: "asc" | "desc" | null } = {
+    dsId: null, metric: null, dir: null,
+  };
+  function applySort() {
+    if (!tbody || !sortState.dsId || !sortState.dir) return;
+    const attr = sortState.metric === "primary" ? "primaryValue" : "secondaryValue";
+    const dir = sortState.dir === "asc" ? 1 : -1;
+    const dsIdx = Array.from(table!.querySelectorAll<HTMLTableCellElement>("thead tr.top th.group")).findIndex((th) => th.dataset.ds === sortState.dsId);
+    if (dsIdx < 0) return;
+    const dataRows = Array.from(tbody.querySelectorAll<HTMLTableRowElement>("tr.data"));
+    const pairs = dataRows.map((tr) => {
+      const cells = tr.querySelectorAll<HTMLTableCellElement>(sortState.metric === "primary" ? ".metric-primary" : ".metric-secondary");
+      const cell = cells[dsIdx];
+      const raw = cell?.dataset[attr] ?? "";
+      const n = parseFloat(raw);
+      return { tr, exp: tr.nextElementSibling, v: Number.isFinite(n) ? n : null };
+    });
+    pairs.sort((a, b) => {
+      if (a.v === null && b.v === null) return 0;
+      if (a.v === null) return 1;
+      if (b.v === null) return -1;
+      return (a.v - b.v) * dir;
+    });
+    pairs.forEach((p) => {
+      tbody!.appendChild(p.tr);
+      if (p.exp) tbody!.appendChild(p.exp);
+    });
+  }
+  function updateSortIndicators() {
+    table?.querySelectorAll(".metric").forEach((th) => th.classList.remove("sort-asc", "sort-desc"));
+    if (sortState.dir) {
+      const th = table?.querySelector(`thead .metric[data-sort-ds="${sortState.dsId}"][data-sort-metric="${sortState.metric}"]`);
+      th?.classList.add(`sort-${sortState.dir}`);
+    }
+  }
+  function setSort(dsId: string, metric: "primary" | "secondary") {
+    if (sortState.dsId === dsId && sortState.metric === metric) {
+      sortState.dir = sortState.dir === "desc" ? "asc" : "desc";
+    } else {
+      sortState.dsId = dsId; sortState.metric = metric; sortState.dir = "desc";
+    }
+    applySort();
+    updateSortIndicators();
+  }
+  table?.querySelectorAll<HTMLElement>("thead .metric").forEach((th) => {
+    th.addEventListener("click", () => {
+      const dsId = th.dataset.sortDs;
+      const m = th.dataset.sortMetric as "primary" | "secondary" | undefined;
+      if (dsId && m) setSort(dsId, m);
+    });
+  });
+
+  // row expand
+  tbody?.querySelectorAll<HTMLTableRowElement>("tr.data").forEach((tr) => {
+    const exp = tr.nextElementSibling as HTMLElement | null;
+    if (!exp?.classList.contains("lb-exp-row")) return;
+    const toggle = (e?: Event) => {
+      if (e && (e.target as HTMLElement).closest("a, button.lb-copy-btn, button.lb-tab")) return;
+      const open = tr.classList.toggle("expanded");
+      exp.classList.toggle("show", open);
+    };
+    tr.addEventListener("click", toggle);
+    exp.querySelectorAll<HTMLButtonElement>(".lb-tab").forEach((tab) => {
+      tab.addEventListener("click", () => {
+        exp.querySelectorAll(".lb-tab").forEach((t) => t.classList.toggle("active", t === tab));
+        const id = tab.dataset.tab;
+        exp.querySelectorAll<HTMLElement>(".lb-tab-pane").forEach((p) => p.classList.toggle("active", p.dataset.pane === id));
+      });
+    });
+  });
+
+  // copy buttons
+  document.addEventListener("click", (e) => {
+    const btn = (e.target as HTMLElement).closest<HTMLButtonElement>("[data-copy]");
+    if (!btn) return;
+    const pre = btn.closest(".lb-step")?.querySelector("pre");
+    if (!pre) return;
+    navigator.clipboard.writeText(pre.textContent ?? "");
+    const prev = btn.textContent;
+    btn.textContent = "copied ✓";
+    btn.classList.add("copied");
+    setTimeout(() => { btn.textContent = prev; btn.classList.remove("copied"); }, 1400);
+  });
+</script>
diff --git a/reproducibility/site/src/pages/models/[id].astro b/reproducibility/site/src/pages/models/[id].astro
index b7ae9c9..1d554fb 100644
--- a/reproducibility/site/src/pages/models/[id].astro
+++ b/reproducibility/site/src/pages/models/[id].astro
@@ -1,10 +1,10 @@
 ---
 import Default from "../../layouts/Default.astro";
 import EmptyState from "../../components/EmptyState.astro";
-import InteractiveTable from "../../components/InteractiveTable.astro";
-import FilterChips from "../../components/FilterChips.astro";
-import MatrixCell from "../../components/MatrixCell.astro";
 import models from "../../data/models.json";
+import runs from "../../data/runs.json";
+import matrix from "../../data/matrix.json";
+import { buildReproduceCmds, retrieveHint, evaluateHint, type RunLike } from "../../lib/reproduce";
 
 const shards = import.meta.glob<{ default: any }>(
   "../../data/views/model-*.json",
@@ -40,9 +40,11 @@ const METRIC_LABEL: Record<string, string> = {
   ndcg_cut_10: "nDCG@10", recall_1000: "R@1k", recall_100: "R@100", map: "MAP",
 };
 
-const datasetCols = (await import("../../data/matrix.json")).default.dataset_columns;
+const datasetCols = matrix.dataset_columns;
+const beirCols = datasetCols.filter((d: any) => d.id.startsWith("beir-"));
+const dlCols = datasetCols.filter((d: any) => !d.id.startsWith("beir-"));
+
 const title = meta?.display ?? view?.model ?? id ?? "Model";
-const tableId = "qg-model-table";
 
 const uniq = (xs: any[], key: string, displayKey?: string) => {
   const m = new Map<string, string>();
@@ -51,84 +53,497 @@ const uniq = (xs: any[], key: string, displayKey?: string) => {
 };
 const methodChoices = uniq(rows, "method_id", "method_display");
 const retrieverChoices = uniq(rows, "retriever_id", "retriever_display");
+
+const runsMap = runs as Record<string, any>;
+type Step = { num: number; title: string; hint: string; code: string };
+const reproCache: Record<string, Step[]> = {};
+function stepsFor(runId: string): Step[] | null {
+  if (!runId) return null;
+  if (reproCache[runId]) return reproCache[runId];
+  const r = runsMap[runId] as RunLike | undefined;
+  if (!r) return null;
+  const cmds = buildReproduceCmds(r);
+  const retrieverDisp = (r as any).retriever_display ?? (r as any).retriever_id ?? "";
+  const steps: Step[] = [
+    { num: 1, title: "reformulate", hint: "querygym → reformulated_queries.tsv", code: cmds.reformulate },
+  ];
+  if (cmds.retrieve) {
+    steps.push({ num: 2, title: "retrieve", hint: retrieveHint(retrieverDisp, cmds.paradigm), code: cmds.retrieve });
+  }
+  steps.push({
+    num: cmds.retrieve ? 3 : 2,
+    title: "evaluate",
+    hint: evaluateHint(Object.keys(r.metrics ?? {})),
+    code: cmds.evaluate,
+  });
+  reproCache[runId] = steps;
+  return steps;
+}
 ---
 
 <Default title={title} description={`Per-LLM leaderboard for ${title}.`}>
-  <a href="/models/" class="text-sm text-qg-fg-muted hover:text-qg-fg">← All models</a>
-  <h1 class="mt-2 text-2xl font-bold md:text-3xl qg-mono">{title}</h1>
-  <div class="mt-1 text-sm text-qg-fg-muted">{rows.length} method × retriever combinations</div>
-
   {rows.length === 0 ? (
-    <div class="mt-8">
-      <EmptyState title="No runs for this model yet" body="" />
-    </div>
+    <>
+      <a href="/models/" class="text-xs text-qg-fg-muted hover:text-qg-fg">← All models</a>
+      <div class="mt-6"><EmptyState title="No runs for this model yet" body="" /></div>
+    </>
   ) : (
     <>
-      <div class="mt-6 qg-filter-card">
-        <FilterChips
-          tableId={tableId}
-          groups={[
-            { key: "method", label: "Method",
-              values: [{ value: "", label: "All" }, ...methodChoices.map(([v, l]) => ({ value: v, label: l }))] },
-            { key: "retriever", label: "Retriever",
-              values: [{ value: "", label: "All" }, ...retrieverChoices.map(([v, l]) => ({ value: v, label: l }))] },
-            { key: "metric", label: "Metric",
-              values: [{ value: "primary", label: "nDCG@10" }, { value: "secondary", label: "Recall" }] },
-          ]}
-        />
+      <header class="mb-3">
+        <div class="mb-2 flex items-baseline gap-3">
+          <a href="/models/" class="text-xs text-qg-fg-muted hover:text-qg-fg">← Models</a>
+          <h2 class="qg-mono text-xl font-semibold text-qg-fg md:text-2xl">{title}</h2>
+          <div class="h-px flex-1 bg-qg-border"></div>
+          <span class="text-[11px] uppercase tracking-wider text-qg-fg-muted">
+            All results produced by
+            <span class="qg-mono font-semibold text-qg-accent">QueryGym</span>
+            · fully reproducible!
+          </span>
+        </div>
+        <p class="max-w-4xl text-xs leading-relaxed text-qg-fg-muted">
+          {rows.length} method × retriever configurations using this LLM across BEIR, MS MARCO DL, and DL-HARD.
+          <br />
+          Click any row or the <strong class="text-qg-fg">+</strong> button to expand. Tabs switch dataset
+          context. The three steps (reformulate → retrieve → evaluate) update accordingly.
+        </p>
+      </header>
+
+      <div class="lb-filter-card" data-lb-filters>
+        <div class="lb-filter-row">
+          <div class="lb-filter-group" data-group="retriever">
+            <span class="lb-filter-label">Retriever</span>
+            <button class="lb-chip active" data-value="">All</button>
+            {retrieverChoices.map(([v, l]) => (
+              <button class="lb-chip" data-value={v}>{l}</button>
+            ))}
+          </div>
+          <div class="lb-filter-group" data-group="method">
+            <span class="lb-filter-label">Method</span>
+            <button class="lb-chip active" data-value="">All</button>
+            {methodChoices.map(([v, l]) => (
+              <button class="lb-chip" data-value={v}>{l}</button>
+            ))}
+          </div>
+          <div class="lb-filter-group">
+            <span class="lb-filter-label">Datasets</span>
+            <div class="lb-multi" id="lb-ds-multi">
+              <button class="lb-multi-trigger" type="button" aria-haspopup="true">
+                <span class="lb-multi-count">{datasetCols.length} / {datasetCols.length} selected</span>
+                <span class="caret">▾</span>
+              </button>
+              <div class="lb-multi-panel" role="menu">
+                {beirCols.length > 0 && (
+                  <div class="lb-multi-section" data-family="beir">
+                    <div class="lb-multi-section-head">
+                      <span class="label">BEIR</span>
+                      <span class="actions">
+                        <button type="button" data-action="all">all</button>
+                        <span>·</span>
+                        <button type="button" data-action="none">none</button>
+                      </span>
+                    </div>
+                    {beirCols.map((d: any) => (
+                      <label class="lb-multi-item">
+                        <input type="checkbox" data-ds={d.id} checked />
+                        <span class="name">{SHORT[d.id] ?? d.name}</span>
+                      </label>
+                    ))}
+                  </div>
+                )}
+                {dlCols.length > 0 && (
+                  <div class="lb-multi-section" data-family="dl">
+                    <div class="lb-multi-section-head">
+                      <span class="label">MS MARCO DL</span>
+                      <span class="actions">
+                        <button type="button" data-action="all">all</button>
+                        <span>·</span>
+                        <button type="button" data-action="none">none</button>
+                      </span>
+                    </div>
+                    {dlCols.map((d: any) => (
+                      <label class="lb-multi-item">
+                        <input type="checkbox" data-ds={d.id} checked />
+                        <span class="name">{SHORT[d.id] ?? d.name}</span>
+                      </label>
+                    ))}
+                  </div>
+                )}
+              </div>
+            </div>
+          </div>
+          <div class="lb-filter-group">
+            <span class="lb-filter-label">Metric</span>
+            <div class="lb-seg" id="lb-metric-seg" role="tablist">
+              <button class="lb-seg-btn active" data-mode="both" role="tab">Both</button>
+              <button class="lb-seg-btn" data-mode="ndcg" role="tab">nDCG</button>
+              <button class="lb-seg-btn" data-mode="recall" role="tab">Recall</button>
+            </div>
+          </div>
+        </div>
+        <div class="lb-filter-row">
+          <div class="lb-search-wrap">
+            <div class="lb-search-input">
+              <svg width="14" height="14" viewBox="0 0 24 24" fill="none" stroke="currentColor" stroke-width="2"><circle cx="11" cy="11" r="7"/><path d="m20 20-3.5-3.5"/></svg>
+              <input id="lb-search" placeholder="Filter by method, retriever, dataset…" autocomplete="off" />
+            </div>
+            <span class="lb-row-count"><span id="lb-shown">{rows.length}</span> / {rows.length} configs</span>
+          </div>
+          <span class="lb-best-legend" style="margin-left:auto"><span class="dot"></span> best in column</span>
+        </div>
       </div>
 
-      <InteractiveTable searchPlaceholder="Filter by method, retriever…">
-        <div class="qg-table-card">
-          <div class="qg-table-scroll">
-            <table
-              id={tableId}
-              class="w-full text-sm"
-              style="--qg-axis-w-1: 120px; --qg-axis-w-2: 160px;"
-            >
-              <thead class="text-xs uppercase tracking-wide text-qg-fg-muted">
-                <tr>
-                  <th class="qg-axis-1 px-3 py-2 text-left">Method</th>
-                  <th class="qg-axis-2 px-3 py-2 text-left">Retriever</th>
-                  {datasetCols.map((d: any) => (
-                    <th class="qg-mono px-2 py-2 text-right text-xs whitespace-nowrap" title={d.id}>
-                      <div><span>{SHORT[d.id] ?? d.name}</span><span class="qg-sort-arrow-slot"></span></div>
-                      <div class="qg-col-label-primary text-[10px] font-normal text-qg-fg-muted">
-                        {METRIC_LABEL[d.primary_metric] ?? d.primary_metric}
-                      </div>
-                      <div class="qg-col-label-secondary hidden text-[10px] font-normal text-qg-fg-muted">
-                        {METRIC_LABEL[d.secondary_metric] ?? d.secondary_metric}
-                      </div>
+      <div class="lb-table-card">
+        <div class="lb-table-scroll">
+          <table id="lb-matrix" class="lb">
+            <thead>
+              <tr class="top">
+                <th class="ax ax-1" rowspan="2"></th>
+                <th class="ax ax-2" rowspan="2">Method</th>
+                <th class="ax ax-3" rowspan="2">Retriever</th>
+                {datasetCols.map((d: any) => (
+                  <th class="group" colspan="2" data-ds={d.id} title={d.id}>{SHORT[d.id] ?? d.name}</th>
+                ))}
+              </tr>
+              <tr class="bot">
+                {datasetCols.map((d: any, di: number) => (
+                  <>
+                    <th class:list={["metric", "metric-primary", di === 0 && "first"]} data-ds={d.id} data-sort-ds={d.id} data-sort-metric="primary">
+                      <span class="name">{METRIC_LABEL[d.primary_metric] ?? d.primary_metric}<span class="arrow"></span></span>
+                    </th>
+                    <th class="metric metric-secondary" data-ds={d.id} data-sort-ds={d.id} data-sort-metric="secondary">
+                      <span class="name">{METRIC_LABEL[d.secondary_metric] ?? d.secondary_metric}<span class="arrow"></span></span>
                     </th>
-                  ))}
-                </tr>
-              </thead>
-              <tbody>
-                {rows.map((row: any) => (
-                  <tr
-                    class="border-t border-qg-border/60 hover:bg-qg-bg-soft"
-                    data-method={row.method_id}
-                    data-retriever={row.retriever_id}
-                  >
-                    <td class="qg-axis-1 px-3 py-2 font-medium">{row.method_display ?? row.method_id}</td>
-                    <td class="qg-axis-2 px-3 py-2 text-xs">{row.retriever_display ?? row.retriever_id}</td>
-                    {datasetCols.map((d: any) => {
-                      const cell = row.values?.[d.id] ?? {};
-                      return (
-                        <MatrixCell
-                          primary={cell[d.primary_metric]}
-                          secondary={d.secondary_metric ? cell[d.secondary_metric] : null}
-                          runId={row.run_ids?.[d.id]}
-                        />
-                      );
-                    })}
-                  </tr>
+                  </>
                 ))}
-              </tbody>
-            </table>
-          </div>
+              </tr>
+            </thead>
+            <tbody>
+              {rows.map((row: any, i: number) => {
+                const datasetsWithRuns = datasetCols.filter((d: any) => row.run_ids?.[d.id]);
+                return (
+                  <>
+                    <tr
+                      class="data"
+                      data-idx={i}
+                      data-method={row.method_id}
+                      data-retriever={row.retriever_id}
+                    >
+                      <td class="ax ax-1"><button class="lb-exp-btn" aria-label="expand"></button></td>
+                      <td class="ax ax-2"><span class="lb-method-name">{row.method_display ?? row.method_id}</span></td>
+                      <td class="ax ax-3">{row.retriever_display ?? row.retriever_id}</td>
+                      {datasetCols.map((d: any, di: number) => {
+                        const cell = row.values?.[d.id] ?? {};
+                        const p = cell[d.primary_metric];
+                        const s = d.secondary_metric ? cell[d.secondary_metric] : null;
+                        const pTxt = p ? p.value.toFixed(4) : "—";
+                        const sTxt = s ? s.value.toFixed(4) : "—";
+                        return (
+                          <>
+                            <td
+                              class:list={["lb-metric-cell", "metric-primary", p?.best && "best", di === 0 && "first"]}
+                              data-ds={d.id}
+                              data-primary-value={p?.value ?? ""}
+                            ><span class="primary">{pTxt}</span></td>
+                            <td
+                              class:list={["lb-metric-cell", "metric-secondary", s?.best && "best"]}
+                              data-ds={d.id}
+                              data-secondary-value={s?.value ?? ""}
+                            ><span class="secondary">{sTxt}</span></td>
+                          </>
+                        );
+                      })}
+                    </tr>
+                    <tr class="lb-exp-row">
+                      <td colspan={3 + datasetCols.length * 2}>
+                        <div class="lb-exp-wrap"><div class="lb-exp-inner">
+                          <div class="lb-exp-panel">
+                            <div class="lb-exp-meta">
+                              <span class="pill"><strong>method</strong>{row.method_display ?? row.method_id}</span>
+                              <span class="pill"><strong>llm</strong>{title}</span>
+                              <span class="pill"><strong>retriever</strong>{row.retriever_display ?? row.retriever_id}</span>
+                            </div>
+                            {datasetsWithRuns.length > 0 ? (
+                              <>
+                                <div class="lb-tabs" role="tablist">
+                                  {datasetsWithRuns.map((d: any, ti: number) => {
+                                    const cell = row.values?.[d.id] ?? {};
+                                    const p = cell[d.primary_metric];
+                                    return (
+                                      <button class:list={["lb-tab", ti === 0 && "active"]} data-tab={d.id}>
+                                        {SHORT[d.id] ?? d.name}
+                                        {p && <span class="score">{p.value.toFixed(3)}</span>}
+                                      </button>
+                                    );
+                                  })}
+                                </div>
+                                <div>
+                                  {datasetsWithRuns.map((d: any, ti: number) => {
+                                    const runId = row.run_ids[d.id];
+                                    const steps = stepsFor(runId);
+                                    return (
+                                      <div class:list={["lb-tab-pane", ti === 0 && "active"]} data-pane={d.id}>
+                                        {steps?.map((st) => (
+                                          <div class="lb-step">
+                                            <div class="lb-step-head">
+                                              <div class="title">
+                                                <span class="num">{st.num}</span>
+                                                {st.title}
+                                                <span class="hint">{st.hint}</span>
+                                              </div>
+                                              <button class="lb-copy-btn" data-copy>copy</button>
+                                            </div>
+                                            <pre>{st.code}</pre>
+                                          </div>
+                                        ))}
+                                        <div class="lb-exp-footer">
+                                          <span>Run id <span class="qg-mono">{runId}</span></span>
+                                          <span>·</span>
+                                          <a href={`/runs/${runId}`}>open full run detail →</a>
+                                        </div>
+                                      </div>
+                                    );
+                                  })}
+                                </div>
+                              </>
+                            ) : (
+                              <div class="text-sm text-qg-fg-muted">No runs recorded.</div>
+                            )}
+                          </div>
+                        </div></div>
+                      </td>
+                    </tr>
+                  </>
+                );
+              })}
+            </tbody>
+          </table>
         </div>
-      </InteractiveTable>
+      </div>
     </>
   )}
 </Default>
+
+<script>
+  const scrollEl = document.querySelector<HTMLElement>(".lb-table-scroll");
+  function updateVp() {
+    if (scrollEl) scrollEl.style.setProperty("--lb-vp-w", scrollEl.clientWidth + "px");
+  }
+  updateVp();
+  window.addEventListener("resize", updateVp);
+
+  const filterRoot = document.querySelector<HTMLElement>("[data-lb-filters]");
+  const table = document.getElementById("lb-matrix") as HTMLTableElement | null;
+  const tbody = table?.querySelector("tbody");
+  const search = document.getElementById("lb-search") as HTMLInputElement | null;
+  const shownEl = document.getElementById("lb-shown");
+
+  const filterState: Record<string, string> = { method: "", retriever: "" };
+
+  filterRoot?.querySelectorAll<HTMLElement>("[data-group]").forEach((g) => {
+    const key = g.dataset.group!;
+    g.querySelectorAll<HTMLButtonElement>("button.lb-chip").forEach((btn) => {
+      btn.addEventListener("click", () => {
+        g.querySelectorAll("button.lb-chip").forEach((b) => b.classList.remove("active"));
+        btn.classList.add("active");
+        filterState[key] = btn.dataset.value ?? "";
+        applyVisibility();
+      });
+    });
+  });
+  function applyVisibility() {
+    if (!tbody) return;
+    const q = (search?.value ?? "").trim().toLowerCase();
+    let shown = 0;
+    tbody.querySelectorAll<HTMLTableRowElement>("tr.data").forEach((tr) => {
+      let hide = false;
+      for (const [k, v] of Object.entries(filterState)) {
+        if (v && tr.dataset[k] !== v) { hide = true; break; }
+      }
+      if (!hide && q) {
+        const txt = (tr.textContent ?? "").toLowerCase();
+        if (!txt.includes(q)) hide = true;
+      }
+      tr.style.display = hide ? "none" : "";
+      const exp = tr.nextElementSibling as HTMLElement | null;
+      if (exp?.classList.contains("lb-exp-row")) exp.style.display = hide ? "none" : "";
+      if (!hide) shown++;
+    });
+    if (shownEl) shownEl.textContent = String(shown);
+  }
+  search?.addEventListener("input", applyVisibility);
+
+  const dsMulti = document.getElementById("lb-ds-multi");
+  const dsTrigger = dsMulti?.querySelector<HTMLButtonElement>(".lb-multi-trigger");
+  const dsCount = dsMulti?.querySelector<HTMLElement>(".lb-multi-count");
+  const dsPanel = dsMulti?.querySelector<HTMLElement>(".lb-multi-panel");
+  const dsCheckboxes = Array.from(dsMulti?.querySelectorAll<HTMLInputElement>('input[type="checkbox"][data-ds]') ?? []);
+
+  dsTrigger?.addEventListener("click", (e) => { e.stopPropagation(); dsMulti?.classList.toggle("open"); });
+  dsPanel?.addEventListener("click", (e) => e.stopPropagation());
+  document.addEventListener("click", () => dsMulti?.classList.remove("open"));
+  dsCheckboxes.forEach((cb) => cb.addEventListener("change", applyDsFilter));
+  dsMulti?.querySelectorAll<HTMLButtonElement>('button[data-action]').forEach((btn) => {
+    btn.addEventListener("click", (e) => {
+      e.stopPropagation();
+      const fam = btn.closest<HTMLElement>("[data-family]")?.dataset.family;
+      const isAll = btn.dataset.action === "all";
+      dsCheckboxes.forEach((cb) => {
+        const dsId = cb.dataset.ds ?? "";
+        const cbFam = dsId.startsWith("beir-") ? "beir" : "dl";
+        if (cbFam === fam) cb.checked = isAll;
+      });
+      applyDsFilter();
+    });
+  });
+  function applyDsFilter() {
+    const hidden = new Set<string>();
+    dsCheckboxes.forEach((cb) => { if (!cb.checked) hidden.add(cb.dataset.ds ?? ""); });
+    document.querySelectorAll<HTMLElement>("table.lb [data-ds]").forEach((el) => {
+      el.classList.toggle("lb-hide-ds", hidden.has(el.dataset.ds ?? ""));
+    });
+    document.querySelectorAll<HTMLElement>(".lb-tab").forEach((tab) => {
+      tab.classList.toggle("lb-hide-ds", hidden.has(tab.dataset.tab ?? ""));
+    });
+    document.querySelectorAll<HTMLElement>(".lb-tab-pane").forEach((p) => {
+      p.classList.toggle("lb-hide-ds", hidden.has(p.dataset.pane ?? ""));
+    });
+    document.querySelectorAll<HTMLElement>(".lb-exp-row").forEach((exp) => {
+      const activeTab = exp.querySelector<HTMLElement>(".lb-tab.active:not(.lb-hide-ds)");
+      if (!activeTab) {
+        const firstVisible = exp.querySelector<HTMLElement>(".lb-tab:not(.lb-hide-ds)");
+        if (firstVisible) {
+          exp.querySelectorAll<HTMLElement>(".lb-tab").forEach((t) => t.classList.remove("active"));
+          firstVisible.classList.add("active");
+          const id = firstVisible.dataset.tab;
+          exp.querySelectorAll<HTMLElement>(".lb-tab-pane").forEach((p) =>
+            p.classList.toggle("active", p.dataset.pane === id && !p.classList.contains("lb-hide-ds"))
+          );
+        }
+      }
+    });
+    const total = dsCheckboxes.length;
+    const selected = dsCheckboxes.filter((c) => c.checked).length;
+    if (dsCount) dsCount.textContent = `${selected} / ${total} selected`;
+    dsTrigger?.classList.toggle("has-filter", selected < total);
+  }
+
+  let metricMode: "both" | "ndcg" | "recall" = "both";
+  const segBtns = document.querySelectorAll<HTMLButtonElement>("#lb-metric-seg .lb-seg-btn");
+  segBtns.forEach((btn) => {
+    btn.addEventListener("click", () => {
+      if (btn.classList.contains("active")) return;
+      segBtns.forEach((b) => b.classList.toggle("active", b === btn));
+      metricMode = (btn.dataset.mode as any) ?? "both";
+      applyMetricMode();
+    });
+  });
+  function applyMetricMode() {
+    if (!table) return;
+    const showP = metricMode === "ndcg" || metricMode === "both";
+    const showS = metricMode === "recall" || metricMode === "both";
+    table.classList.toggle("mode-single", !(showP && showS));
+    table.querySelectorAll(".metric-primary").forEach((el) => el.classList.toggle("lb-hide-metric", !showP));
+    table.querySelectorAll(".metric-secondary").forEach((el) => el.classList.toggle("lb-hide-metric", !showS));
+    const newSpan = (showP ? 1 : 0) + (showS ? 1 : 0);
+    table.querySelectorAll<HTMLTableCellElement>("thead tr.top th.group").forEach((th) => { th.colSpan = newSpan || 1; });
+    const datasets = Array.from(table.querySelectorAll<HTMLTableCellElement>("thead tr.top th.group")).map((th) => th.dataset.ds);
+    datasets.forEach((dsId, di) => {
+      const p = table!.querySelector<HTMLElement>(`thead tr.bot .metric-primary[data-sort-ds="${dsId}"]`);
+      const s = table!.querySelector<HTMLElement>(`thead tr.bot .metric-secondary[data-sort-ds="${dsId}"]`);
+      if (p) p.classList.toggle("first", di === 0 && showP);
+      if (s) s.classList.toggle("first", di === 0 && !showP);
+    });
+    table.querySelectorAll<HTMLTableRowElement>("tbody tr.data").forEach((tr) => {
+      datasets.forEach((dsId, di) => {
+        const ps = tr.querySelectorAll<HTMLElement>(".metric-primary");
+        const ss = tr.querySelectorAll<HTMLElement>(".metric-secondary");
+        const p = ps[di]; const s = ss[di];
+        if (p) p.classList.toggle("first", di === 0 && showP);
+        if (s) s.classList.toggle("first", di === 0 && !showP);
+      });
+    });
+    if (sortState.dsId) applySort();
+  }
+
+  const sortState: { dsId: string | null; metric: "primary" | "secondary" | null; dir: "asc" | "desc" | null } = {
+    dsId: null, metric: null, dir: null,
+  };
+  function applySort() {
+    if (!tbody || !sortState.dsId || !sortState.dir) return;
+    const attr = sortState.metric === "primary" ? "primaryValue" : "secondaryValue";
+    const dir = sortState.dir === "asc" ? 1 : -1;
+    const dsIdx = Array.from(table!.querySelectorAll<HTMLTableCellElement>("thead tr.top th.group")).findIndex((th) => th.dataset.ds === sortState.dsId);
+    if (dsIdx < 0) return;
+    const dataRows = Array.from(tbody.querySelectorAll<HTMLTableRowElement>("tr.data"));
+    const pairs = dataRows.map((tr) => {
+      const cells = tr.querySelectorAll<HTMLTableCellElement>(sortState.metric === "primary" ? ".metric-primary" : ".metric-secondary");
+      const cell = cells[dsIdx];
+      const raw = cell?.dataset[attr] ?? "";
+      const n = parseFloat(raw);
+      return { tr, exp: tr.nextElementSibling, v: Number.isFinite(n) ? n : null };
+    });
+    pairs.sort((a, b) => {
+      if (a.v === null && b.v === null) return 0;
+      if (a.v === null) return 1;
+      if (b.v === null) return -1;
+      return (a.v - b.v) * dir;
+    });
+    pairs.forEach((p) => {
+      tbody!.appendChild(p.tr);
+      if (p.exp) tbody!.appendChild(p.exp);
+    });
+  }
+  function updateSortIndicators() {
+    table?.querySelectorAll(".metric").forEach((th) => th.classList.remove("sort-asc", "sort-desc"));
+    if (sortState.dir) {
+      const th = table?.querySelector(`thead .metric[data-sort-ds="${sortState.dsId}"][data-sort-metric="${sortState.metric}"]`);
+      th?.classList.add(`sort-${sortState.dir}`);
+    }
+  }
+  function setSort(dsId: string, metric: "primary" | "secondary") {
+    if (sortState.dsId === dsId && sortState.metric === metric) {
+      sortState.dir = sortState.dir === "desc" ? "asc" : "desc";
+    } else {
+      sortState.dsId = dsId; sortState.metric = metric; sortState.dir = "desc";
+    }
+    applySort();
+    updateSortIndicators();
+  }
+  table?.querySelectorAll<HTMLElement>("thead .metric").forEach((th) => {
+    th.addEventListener("click", () => {
+      const dsId = th.dataset.sortDs;
+      const m = th.dataset.sortMetric as "primary" | "secondary" | undefined;
+      if (dsId && m) setSort(dsId, m);
+    });
+  });
+
+  tbody?.querySelectorAll<HTMLTableRowElement>("tr.data").forEach((tr) => {
+    const exp = tr.nextElementSibling as HTMLElement | null;
+    if (!exp?.classList.contains("lb-exp-row")) return;
+    const toggle = (e?: Event) => {
+      if (e && (e.target as HTMLElement).closest("a, button.lb-copy-btn, button.lb-tab")) return;
+      const open = tr.classList.toggle("expanded");
+      exp.classList.toggle("show", open);
+    };
+    tr.addEventListener("click", toggle);
+    exp.querySelectorAll<HTMLButtonElement>(".lb-tab").forEach((tab) => {
+      tab.addEventListener("click", () => {
+        exp.querySelectorAll(".lb-tab").forEach((t) => t.classList.toggle("active", t === tab));
+        const id = tab.dataset.tab;
+        exp.querySelectorAll<HTMLElement>(".lb-tab-pane").forEach((p) => p.classList.toggle("active", p.dataset.pane === id));
+      });
+    });
+  });
+
+  document.addEventListener("click", (e) => {
+    const btn = (e.target as HTMLElement).closest<HTMLButtonElement>("[data-copy]");
+    if (!btn) return;
+    const pre = btn.closest(".lb-step")?.querySelector("pre");
+    if (!pre) return;
+    navigator.clipboard.writeText(pre.textContent ?? "");
+    const prev = btn.textContent;
+    btn.textContent = "copied ✓";
+    btn.classList.add("copied");
+    setTimeout(() => { btn.textContent = prev; btn.classList.remove("copied"); }, 1400);
+  });
+</script>
diff --git a/reproducibility/site/src/pages/retrievers/[id].astro b/reproducibility/site/src/pages/retrievers/[id].astro
index 5166c7b..145a9a9 100644
--- a/reproducibility/site/src/pages/retrievers/[id].astro
+++ b/reproducibility/site/src/pages/retrievers/[id].astro
@@ -1,10 +1,10 @@
 ---
 import Default from "../../layouts/Default.astro";
 import EmptyState from "../../components/EmptyState.astro";
-import InteractiveTable from "../../components/InteractiveTable.astro";
-import FilterChips from "../../components/FilterChips.astro";
-import MatrixCell from "../../components/MatrixCell.astro";
 import retrievers from "../../data/retrievers.json";
+import runs from "../../data/runs.json";
+import matrix from "../../data/matrix.json";
+import { buildReproduceCmds, retrieveHint, evaluateHint, type RunLike } from "../../lib/reproduce";
 
 const shards = import.meta.glob<{ default: any }>(
   "../../data/views/retriever-*.json",
@@ -40,9 +40,11 @@ const METRIC_LABEL: Record<string, string> = {
   ndcg_cut_10: "nDCG@10", recall_1000: "R@1k", recall_100: "R@100", map: "MAP",
 };
 
-const datasetCols = (await import("../../data/matrix.json")).default.dataset_columns;
+const datasetCols = matrix.dataset_columns;
+const beirCols = datasetCols.filter((d: any) => d.id.startsWith("beir-"));
+const dlCols = datasetCols.filter((d: any) => !d.id.startsWith("beir-"));
+
 const title = meta?.display_name ?? id ?? "Retriever";
-const tableId = "qg-retriever-table";
 
 const uniq = (xs: any[], key: string, displayKey?: string) => {
   const m = new Map<string, string>();
@@ -51,85 +53,498 @@ const uniq = (xs: any[], key: string, displayKey?: string) => {
 };
 const methodChoices = uniq(rows, "method_id", "method_display");
 const modelChoices = uniq(rows, "model", "model_display");
+
+const runsMap = runs as Record<string, any>;
+type Step = { num: number; title: string; hint: string; code: string };
+const reproCache: Record<string, Step[]> = {};
+function stepsFor(runId: string): Step[] | null {
+  if (!runId) return null;
+  if (reproCache[runId]) return reproCache[runId];
+  const r = runsMap[runId] as RunLike | undefined;
+  if (!r) return null;
+  const cmds = buildReproduceCmds(r);
+  const retrieverDisp = (r as any).retriever_display ?? (r as any).retriever_id ?? "";
+  const steps: Step[] = [
+    { num: 1, title: "reformulate", hint: "querygym → reformulated_queries.tsv", code: cmds.reformulate },
+  ];
+  if (cmds.retrieve) {
+    steps.push({ num: 2, title: "retrieve", hint: retrieveHint(retrieverDisp, cmds.paradigm), code: cmds.retrieve });
+  }
+  steps.push({
+    num: cmds.retrieve ? 3 : 2,
+    title: "evaluate",
+    hint: evaluateHint(Object.keys(r.metrics ?? {})),
+    code: cmds.evaluate,
+  });
+  reproCache[runId] = steps;
+  return steps;
+}
 ---
 
 <Default title={title} description={`Per-retriever leaderboard for ${title}.`}>
-  <a href="/retrievers/" class="text-sm text-qg-fg-muted hover:text-qg-fg">← All retrievers</a>
-  <h1 class="mt-2 text-2xl font-bold md:text-3xl">{title}</h1>
-  <div class="mt-1 qg-mono text-sm text-qg-fg-muted">{id} · {meta?.paradigm}</div>
-  <div class="mt-1 text-sm text-qg-fg-muted">{rows.length} method × model combinations</div>
-
   {rows.length === 0 ? (
-    <div class="mt-8">
-      <EmptyState title="No runs for this retriever yet" body="" />
-    </div>
+    <>
+      <a href="/retrievers/" class="text-xs text-qg-fg-muted hover:text-qg-fg">← All retrievers</a>
+      <div class="mt-6"><EmptyState title="No runs for this retriever yet" body="" /></div>
+    </>
   ) : (
     <>
-      <div class="mt-6 qg-filter-card">
-        <FilterChips
-          tableId={tableId}
-          groups={[
-            { key: "method", label: "Method",
-              values: [{ value: "", label: "All" }, ...methodChoices.map(([v, l]) => ({ value: v, label: l }))] },
-            { key: "model", label: "Model",
-              values: [{ value: "", label: "All" }, ...modelChoices.map(([v, l]) => ({ value: v, label: l }))] },
-            { key: "metric", label: "Metric",
-              values: [{ value: "primary", label: "nDCG@10" }, { value: "secondary", label: "Recall" }] },
-          ]}
-        />
+      <header class="mb-3">
+        <div class="mb-2 flex items-baseline gap-3">
+          <a href="/retrievers/" class="text-xs text-qg-fg-muted hover:text-qg-fg">← Retrievers</a>
+          <h2 class="text-xl font-semibold text-qg-fg md:text-2xl">{title}</h2>
+          <span class="qg-mono text-xs text-qg-fg-muted">{meta?.paradigm ?? ""}</span>
+          <div class="h-px flex-1 bg-qg-border"></div>
+          <span class="text-[11px] uppercase tracking-wider text-qg-fg-muted">
+            All results produced by
+            <span class="qg-mono font-semibold text-qg-accent">QueryGym</span>
+            · fully reproducible!
+          </span>
+        </div>
+        <p class="max-w-4xl text-xs leading-relaxed text-qg-fg-muted">
+          {rows.length} method × LLM configurations using this retriever across BEIR, MS MARCO DL, and DL-HARD.
+          <br />
+          Click any row or the <strong class="text-qg-fg">+</strong> button to expand. Tabs switch dataset
+          context. The three steps (reformulate → retrieve → evaluate) update accordingly.
+        </p>
+      </header>
+
+      <div class="lb-filter-card" data-lb-filters>
+        <div class="lb-filter-row">
+          <div class="lb-filter-group" data-group="model">
+            <span class="lb-filter-label">Model</span>
+            <button class="lb-chip active" data-value="">All</button>
+            {modelChoices.map(([v, l]) => (
+              <button class="lb-chip" data-value={v}>{l}</button>
+            ))}
+          </div>
+          <div class="lb-filter-group" data-group="method">
+            <span class="lb-filter-label">Method</span>
+            <button class="lb-chip active" data-value="">All</button>
+            {methodChoices.map(([v, l]) => (
+              <button class="lb-chip" data-value={v}>{l}</button>
+            ))}
+          </div>
+          <div class="lb-filter-group">
+            <span class="lb-filter-label">Datasets</span>
+            <div class="lb-multi" id="lb-ds-multi">
+              <button class="lb-multi-trigger" type="button" aria-haspopup="true">
+                <span class="lb-multi-count">{datasetCols.length} / {datasetCols.length} selected</span>
+                <span class="caret">▾</span>
+              </button>
+              <div class="lb-multi-panel" role="menu">
+                {beirCols.length > 0 && (
+                  <div class="lb-multi-section" data-family="beir">
+                    <div class="lb-multi-section-head">
+                      <span class="label">BEIR</span>
+                      <span class="actions">
+                        <button type="button" data-action="all">all</button>
+                        <span>·</span>
+                        <button type="button" data-action="none">none</button>
+                      </span>
+                    </div>
+                    {beirCols.map((d: any) => (
+                      <label class="lb-multi-item">
+                        <input type="checkbox" data-ds={d.id} checked />
+                        <span class="name">{SHORT[d.id] ?? d.name}</span>
+                      </label>
+                    ))}
+                  </div>
+                )}
+                {dlCols.length > 0 && (
+                  <div class="lb-multi-section" data-family="dl">
+                    <div class="lb-multi-section-head">
+                      <span class="label">MS MARCO DL</span>
+                      <span class="actions">
+                        <button type="button" data-action="all">all</button>
+                        <span>·</span>
+                        <button type="button" data-action="none">none</button>
+                      </span>
+                    </div>
+                    {dlCols.map((d: any) => (
+                      <label class="lb-multi-item">
+                        <input type="checkbox" data-ds={d.id} checked />
+                        <span class="name">{SHORT[d.id] ?? d.name}</span>
+                      </label>
+                    ))}
+                  </div>
+                )}
+              </div>
+            </div>
+          </div>
+          <div class="lb-filter-group">
+            <span class="lb-filter-label">Metric</span>
+            <div class="lb-seg" id="lb-metric-seg" role="tablist">
+              <button class="lb-seg-btn active" data-mode="both" role="tab">Both</button>
+              <button class="lb-seg-btn" data-mode="ndcg" role="tab">nDCG</button>
+              <button class="lb-seg-btn" data-mode="recall" role="tab">Recall</button>
+            </div>
+          </div>
+        </div>
+        <div class="lb-filter-row">
+          <div class="lb-search-wrap">
+            <div class="lb-search-input">
+              <svg width="14" height="14" viewBox="0 0 24 24" fill="none" stroke="currentColor" stroke-width="2"><circle cx="11" cy="11" r="7"/><path d="m20 20-3.5-3.5"/></svg>
+              <input id="lb-search" placeholder="Filter by method, model, dataset…" autocomplete="off" />
+            </div>
+            <span class="lb-row-count"><span id="lb-shown">{rows.length}</span> / {rows.length} configs</span>
+          </div>
+          <span class="lb-best-legend" style="margin-left:auto"><span class="dot"></span> best in column</span>
+        </div>
       </div>
 
-      <InteractiveTable searchPlaceholder="Filter by method, model…">
-        <div class="qg-table-card">
-          <div class="qg-table-scroll">
-            <table
-              id={tableId}
-              class="w-full text-sm"
-              style="--qg-axis-w-1: 120px; --qg-axis-w-2: 180px;"
-            >
-              <thead class="text-xs uppercase tracking-wide text-qg-fg-muted">
-                <tr>
-                  <th class="qg-axis-1 px-3 py-2 text-left">Method</th>
-                  <th class="qg-axis-2 px-3 py-2 text-left">Model</th>
-                  {datasetCols.map((d: any) => (
-                    <th class="qg-mono px-2 py-2 text-right text-xs whitespace-nowrap" title={d.id}>
-                      <div><span>{SHORT[d.id] ?? d.name}</span><span class="qg-sort-arrow-slot"></span></div>
-                      <div class="qg-col-label-primary text-[10px] font-normal text-qg-fg-muted">
-                        {METRIC_LABEL[d.primary_metric] ?? d.primary_metric}
-                      </div>
-                      <div class="qg-col-label-secondary hidden text-[10px] font-normal text-qg-fg-muted">
-                        {METRIC_LABEL[d.secondary_metric] ?? d.secondary_metric}
-                      </div>
+      <div class="lb-table-card">
+        <div class="lb-table-scroll">
+          <table id="lb-matrix" class="lb">
+            <thead>
+              <tr class="top">
+                <th class="ax ax-1" rowspan="2"></th>
+                <th class="ax ax-2" rowspan="2">Method</th>
+                <th class="ax ax-3" rowspan="2">LLM</th>
+                {datasetCols.map((d: any) => (
+                  <th class="group" colspan="2" data-ds={d.id} title={d.id}>{SHORT[d.id] ?? d.name}</th>
+                ))}
+              </tr>
+              <tr class="bot">
+                {datasetCols.map((d: any, di: number) => (
+                  <>
+                    <th class:list={["metric", "metric-primary", di === 0 && "first"]} data-ds={d.id} data-sort-ds={d.id} data-sort-metric="primary">
+                      <span class="name">{METRIC_LABEL[d.primary_metric] ?? d.primary_metric}<span class="arrow"></span></span>
+                    </th>
+                    <th class="metric metric-secondary" data-ds={d.id} data-sort-ds={d.id} data-sort-metric="secondary">
+                      <span class="name">{METRIC_LABEL[d.secondary_metric] ?? d.secondary_metric}<span class="arrow"></span></span>
                     </th>
-                  ))}
-                </tr>
-              </thead>
-              <tbody>
-                {rows.map((row: any) => (
-                  <tr
-                    class="border-t border-qg-border/60 hover:bg-qg-bg-soft"
-                    data-method={row.method_id}
-                    data-model={row.model}
-                  >
-                    <td class="qg-axis-1 px-3 py-2 font-medium">{row.method_display ?? row.method_id}</td>
-                    <td class="qg-axis-2 px-3 py-2 qg-mono text-xs" data-sort-value={row.model_display ?? row.model}>{row.model_display ?? row.model}</td>
-                    {datasetCols.map((d: any) => {
-                      const cell = row.values?.[d.id] ?? {};
-                      return (
-                        <MatrixCell
-                          primary={cell[d.primary_metric]}
-                          secondary={d.secondary_metric ? cell[d.secondary_metric] : null}
-                          runId={row.run_ids?.[d.id]}
-                        />
-                      );
-                    })}
-                  </tr>
+                  </>
                 ))}
-              </tbody>
-            </table>
-          </div>
+              </tr>
+            </thead>
+            <tbody>
+              {rows.map((row: any, i: number) => {
+                const datasetsWithRuns = datasetCols.filter((d: any) => row.run_ids?.[d.id]);
+                return (
+                  <>
+                    <tr
+                      class="data"
+                      data-idx={i}
+                      data-method={row.method_id}
+                      data-model={row.model}
+                    >
+                      <td class="ax ax-1"><button class="lb-exp-btn" aria-label="expand"></button></td>
+                      <td class="ax ax-2"><span class="lb-method-name">{row.method_display ?? row.method_id}</span></td>
+                      <td class="ax ax-3 qg-mono" style="font-size:11.5px">{row.model_display ?? row.model}</td>
+                      {datasetCols.map((d: any, di: number) => {
+                        const cell = row.values?.[d.id] ?? {};
+                        const p = cell[d.primary_metric];
+                        const s = d.secondary_metric ? cell[d.secondary_metric] : null;
+                        const pTxt = p ? p.value.toFixed(4) : "—";
+                        const sTxt = s ? s.value.toFixed(4) : "—";
+                        return (
+                          <>
+                            <td
+                              class:list={["lb-metric-cell", "metric-primary", p?.best && "best", di === 0 && "first"]}
+                              data-ds={d.id}
+                              data-primary-value={p?.value ?? ""}
+                            ><span class="primary">{pTxt}</span></td>
+                            <td
+                              class:list={["lb-metric-cell", "metric-secondary", s?.best && "best"]}
+                              data-ds={d.id}
+                              data-secondary-value={s?.value ?? ""}
+                            ><span class="secondary">{sTxt}</span></td>
+                          </>
+                        );
+                      })}
+                    </tr>
+                    <tr class="lb-exp-row">
+                      <td colspan={3 + datasetCols.length * 2}>
+                        <div class="lb-exp-wrap"><div class="lb-exp-inner">
+                          <div class="lb-exp-panel">
+                            <div class="lb-exp-meta">
+                              <span class="pill"><strong>method</strong>{row.method_display ?? row.method_id}</span>
+                              <span class="pill"><strong>llm</strong>{row.model_display ?? row.model}</span>
+                              <span class="pill"><strong>retriever</strong>{title}</span>
+                            </div>
+                            {datasetsWithRuns.length > 0 ? (
+                              <>
+                                <div class="lb-tabs" role="tablist">
+                                  {datasetsWithRuns.map((d: any, ti: number) => {
+                                    const cell = row.values?.[d.id] ?? {};
+                                    const p = cell[d.primary_metric];
+                                    return (
+                                      <button class:list={["lb-tab", ti === 0 && "active"]} data-tab={d.id}>
+                                        {SHORT[d.id] ?? d.name}
+                                        {p && <span class="score">{p.value.toFixed(3)}</span>}
+                                      </button>
+                                    );
+                                  })}
+                                </div>
+                                <div>
+                                  {datasetsWithRuns.map((d: any, ti: number) => {
+                                    const runId = row.run_ids[d.id];
+                                    const steps = stepsFor(runId);
+                                    return (
+                                      <div class:list={["lb-tab-pane", ti === 0 && "active"]} data-pane={d.id}>
+                                        {steps?.map((st) => (
+                                          <div class="lb-step">
+                                            <div class="lb-step-head">
+                                              <div class="title">
+                                                <span class="num">{st.num}</span>
+                                                {st.title}
+                                                <span class="hint">{st.hint}</span>
+                                              </div>
+                                              <button class="lb-copy-btn" data-copy>copy</button>
+                                            </div>
+                                            <pre>{st.code}</pre>
+                                          </div>
+                                        ))}
+                                        <div class="lb-exp-footer">
+                                          <span>Run id <span class="qg-mono">{runId}</span></span>
+                                          <span>·</span>
+                                          <a href={`/runs/${runId}`}>open full run detail →</a>
+                                        </div>
+                                      </div>
+                                    );
+                                  })}
+                                </div>
+                              </>
+                            ) : (
+                              <div class="text-sm text-qg-fg-muted">No runs recorded.</div>
+                            )}
+                          </div>
+                        </div></div>
+                      </td>
+                    </tr>
+                  </>
+                );
+              })}
+            </tbody>
+          </table>
         </div>
-      </InteractiveTable>
+      </div>
     </>
   )}
 </Default>
+
+<script>
+  const scrollEl = document.querySelector<HTMLElement>(".lb-table-scroll");
+  function updateVp() {
+    if (scrollEl) scrollEl.style.setProperty("--lb-vp-w", scrollEl.clientWidth + "px");
+  }
+  updateVp();
+  window.addEventListener("resize", updateVp);
+
+  const filterRoot = document.querySelector<HTMLElement>("[data-lb-filters]");
+  const table = document.getElementById("lb-matrix") as HTMLTableElement | null;
+  const tbody = table?.querySelector("tbody");
+  const search = document.getElementById("lb-search") as HTMLInputElement | null;
+  const shownEl = document.getElementById("lb-shown");
+
+  const filterState: Record<string, string> = { method: "", model: "" };
+
+  filterRoot?.querySelectorAll<HTMLElement>("[data-group]").forEach((g) => {
+    const key = g.dataset.group!;
+    g.querySelectorAll<HTMLButtonElement>("button.lb-chip").forEach((btn) => {
+      btn.addEventListener("click", () => {
+        g.querySelectorAll("button.lb-chip").forEach((b) => b.classList.remove("active"));
+        btn.classList.add("active");
+        filterState[key] = btn.dataset.value ?? "";
+        applyVisibility();
+      });
+    });
+  });
+  function applyVisibility() {
+    if (!tbody) return;
+    const q = (search?.value ?? "").trim().toLowerCase();
+    let shown = 0;
+    tbody.querySelectorAll<HTMLTableRowElement>("tr.data").forEach((tr) => {
+      let hide = false;
+      for (const [k, v] of Object.entries(filterState)) {
+        if (v && tr.dataset[k] !== v) { hide = true; break; }
+      }
+      if (!hide && q) {
+        const txt = (tr.textContent ?? "").toLowerCase();
+        if (!txt.includes(q)) hide = true;
+      }
+      tr.style.display = hide ? "none" : "";
+      const exp = tr.nextElementSibling as HTMLElement | null;
+      if (exp?.classList.contains("lb-exp-row")) exp.style.display = hide ? "none" : "";
+      if (!hide) shown++;
+    });
+    if (shownEl) shownEl.textContent = String(shown);
+  }
+  search?.addEventListener("input", applyVisibility);
+
+  const dsMulti = document.getElementById("lb-ds-multi");
+  const dsTrigger = dsMulti?.querySelector<HTMLButtonElement>(".lb-multi-trigger");
+  const dsCount = dsMulti?.querySelector<HTMLElement>(".lb-multi-count");
+  const dsPanel = dsMulti?.querySelector<HTMLElement>(".lb-multi-panel");
+  const dsCheckboxes = Array.from(dsMulti?.querySelectorAll<HTMLInputElement>('input[type="checkbox"][data-ds]') ?? []);
+
+  dsTrigger?.addEventListener("click", (e) => { e.stopPropagation(); dsMulti?.classList.toggle("open"); });
+  dsPanel?.addEventListener("click", (e) => e.stopPropagation());
+  document.addEventListener("click", () => dsMulti?.classList.remove("open"));
+  dsCheckboxes.forEach((cb) => cb.addEventListener("change", applyDsFilter));
+  dsMulti?.querySelectorAll<HTMLButtonElement>('button[data-action]').forEach((btn) => {
+    btn.addEventListener("click", (e) => {
+      e.stopPropagation();
+      const fam = btn.closest<HTMLElement>("[data-family]")?.dataset.family;
+      const isAll = btn.dataset.action === "all";
+      dsCheckboxes.forEach((cb) => {
+        const dsId = cb.dataset.ds ?? "";
+        const cbFam = dsId.startsWith("beir-") ? "beir" : "dl";
+        if (cbFam === fam) cb.checked = isAll;
+      });
+      applyDsFilter();
+    });
+  });
+  function applyDsFilter() {
+    const hidden = new Set<string>();
+    dsCheckboxes.forEach((cb) => { if (!cb.checked) hidden.add(cb.dataset.ds ?? ""); });
+    document.querySelectorAll<HTMLElement>("table.lb [data-ds]").forEach((el) => {
+      el.classList.toggle("lb-hide-ds", hidden.has(el.dataset.ds ?? ""));
+    });
+    document.querySelectorAll<HTMLElement>(".lb-tab").forEach((tab) => {
+      tab.classList.toggle("lb-hide-ds", hidden.has(tab.dataset.tab ?? ""));
+    });
+    document.querySelectorAll<HTMLElement>(".lb-tab-pane").forEach((p) => {
+      p.classList.toggle("lb-hide-ds", hidden.has(p.dataset.pane ?? ""));
+    });
+    document.querySelectorAll<HTMLElement>(".lb-exp-row").forEach((exp) => {
+      const activeTab = exp.querySelector<HTMLElement>(".lb-tab.active:not(.lb-hide-ds)");
+      if (!activeTab) {
+        const firstVisible = exp.querySelector<HTMLElement>(".lb-tab:not(.lb-hide-ds)");
+        if (firstVisible) {
+          exp.querySelectorAll<HTMLElement>(".lb-tab").forEach((t) => t.classList.remove("active"));
+          firstVisible.classList.add("active");
+          const id = firstVisible.dataset.tab;
+          exp.querySelectorAll<HTMLElement>(".lb-tab-pane").forEach((p) =>
+            p.classList.toggle("active", p.dataset.pane === id && !p.classList.contains("lb-hide-ds"))
+          );
+        }
+      }
+    });
+    const total = dsCheckboxes.length;
+    const selected = dsCheckboxes.filter((c) => c.checked).length;
+    if (dsCount) dsCount.textContent = `${selected} / ${total} selected`;
+    dsTrigger?.classList.toggle("has-filter", selected < total);
+  }
+
+  let metricMode: "both" | "ndcg" | "recall" = "both";
+  const segBtns = document.querySelectorAll<HTMLButtonElement>("#lb-metric-seg .lb-seg-btn");
+  segBtns.forEach((btn) => {
+    btn.addEventListener("click", () => {
+      if (btn.classList.contains("active")) return;
+      segBtns.forEach((b) => b.classList.toggle("active", b === btn));
+      metricMode = (btn.dataset.mode as any) ?? "both";
+      applyMetricMode();
+    });
+  });
+  function applyMetricMode() {
+    if (!table) return;
+    const showP = metricMode === "ndcg" || metricMode === "both";
+    const showS = metricMode === "recall" || metricMode === "both";
+    table.classList.toggle("mode-single", !(showP && showS));
+    table.querySelectorAll(".metric-primary").forEach((el) => el.classList.toggle("lb-hide-metric", !showP));
+    table.querySelectorAll(".metric-secondary").forEach((el) => el.classList.toggle("lb-hide-metric", !showS));
+    const newSpan = (showP ? 1 : 0) + (showS ? 1 : 0);
+    table.querySelectorAll<HTMLTableCellElement>("thead tr.top th.group").forEach((th) => { th.colSpan = newSpan || 1; });
+    const datasets = Array.from(table.querySelectorAll<HTMLTableCellElement>("thead tr.top th.group")).map((th) => th.dataset.ds);
+    datasets.forEach((dsId, di) => {
+      const p = table!.querySelector<HTMLElement>(`thead tr.bot .metric-primary[data-sort-ds="${dsId}"]`);
+      const s = table!.querySelector<HTMLElement>(`thead tr.bot .metric-secondary[data-sort-ds="${dsId}"]`);
+      if (p) p.classList.toggle("first", di === 0 && showP);
+      if (s) s.classList.toggle("first", di === 0 && !showP);
+    });
+    table.querySelectorAll<HTMLTableRowElement>("tbody tr.data").forEach((tr) => {
+      datasets.forEach((dsId, di) => {
+        const ps = tr.querySelectorAll<HTMLElement>(".metric-primary");
+        const ss = tr.querySelectorAll<HTMLElement>(".metric-secondary");
+        const p = ps[di]; const s = ss[di];
+        if (p) p.classList.toggle("first", di === 0 && showP);
+        if (s) s.classList.toggle("first", di === 0 && !showP);
+      });
+    });
+    if (sortState.dsId) applySort();
+  }
+
+  const sortState: { dsId: string | null; metric: "primary" | "secondary" | null; dir: "asc" | "desc" | null } = {
+    dsId: null, metric: null, dir: null,
+  };
+  function applySort() {
+    if (!tbody || !sortState.dsId || !sortState.dir) return;
+    const attr = sortState.metric === "primary" ? "primaryValue" : "secondaryValue";
+    const dir = sortState.dir === "asc" ? 1 : -1;
+    const dsIdx = Array.from(table!.querySelectorAll<HTMLTableCellElement>("thead tr.top th.group")).findIndex((th) => th.dataset.ds === sortState.dsId);
+    if (dsIdx < 0) return;
+    const dataRows = Array.from(tbody.querySelectorAll<HTMLTableRowElement>("tr.data"));
+    const pairs = dataRows.map((tr) => {
+      const cells = tr.querySelectorAll<HTMLTableCellElement>(sortState.metric === "primary" ? ".metric-primary" : ".metric-secondary");
+      const cell = cells[dsIdx];
+      const raw = cell?.dataset[attr] ?? "";
+      const n = parseFloat(raw);
+      return { tr, exp: tr.nextElementSibling, v: Number.isFinite(n) ? n : null };
+    });
+    pairs.sort((a, b) => {
+      if (a.v === null && b.v === null) return 0;
+      if (a.v === null) return 1;
+      if (b.v === null) return -1;
+      return (a.v - b.v) * dir;
+    });
+    pairs.forEach((p) => {
+      tbody!.appendChild(p.tr);
+      if (p.exp) tbody!.appendChild(p.exp);
+    });
+  }
+  function updateSortIndicators() {
+    table?.querySelectorAll(".metric").forEach((th) => th.classList.remove("sort-asc", "sort-desc"));
+    if (sortState.dir) {
+      const th = table?.querySelector(`thead .metric[data-sort-ds="${sortState.dsId}"][data-sort-metric="${sortState.metric}"]`);
+      th?.classList.add(`sort-${sortState.dir}`);
+    }
+  }
+  function setSort(dsId: string, metric: "primary" | "secondary") {
+    if (sortState.dsId === dsId && sortState.metric === metric) {
+      sortState.dir = sortState.dir === "desc" ? "asc" : "desc";
+    } else {
+      sortState.dsId = dsId; sortState.metric = metric; sortState.dir = "desc";
+    }
+    applySort();
+    updateSortIndicators();
+  }
+  table?.querySelectorAll<HTMLElement>("thead .metric").forEach((th) => {
+    th.addEventListener("click", () => {
+      const dsId = th.dataset.sortDs;
+      const m = th.dataset.sortMetric as "primary" | "secondary" | undefined;
+      if (dsId && m) setSort(dsId, m);
+    });
+  });
+
+  tbody?.querySelectorAll<HTMLTableRowElement>("tr.data").forEach((tr) => {
+    const exp = tr.nextElementSibling as HTMLElement | null;
+    if (!exp?.classList.contains("lb-exp-row")) return;
+    const toggle = (e?: Event) => {
+      if (e && (e.target as HTMLElement).closest("a, button.lb-copy-btn, button.lb-tab")) return;
+      const open = tr.classList.toggle("expanded");
+      exp.classList.toggle("show", open);
+    };
+    tr.addEventListener("click", toggle);
+    exp.querySelectorAll<HTMLButtonElement>(".lb-tab").forEach((tab) => {
+      tab.addEventListener("click", () => {
+        exp.querySelectorAll(".lb-tab").forEach((t) => t.classList.toggle("active", t === tab));
+        const id = tab.dataset.tab;
+        exp.querySelectorAll<HTMLElement>(".lb-tab-pane").forEach((p) => p.classList.toggle("active", p.dataset.pane === id));
+      });
+    });
+  });
+
+  document.addEventListener("click", (e) => {
+    const btn = (e.target as HTMLElement).closest<HTMLButtonElement>("[data-copy]");
+    if (!btn) return;
+    const pre = btn.closest(".lb-step")?.querySelector("pre");
+    if (!pre) return;
+    navigator.clipboard.writeText(pre.textContent ?? "");
+    const prev = btn.textContent;
+    btn.textContent = "copied ✓";
+    btn.classList.add("copied");
+    setTimeout(() => { btn.textContent = prev; btn.classList.remove("copied"); }, 1400);
+  });
+</script>
diff --git a/reproducibility/site/src/styles/global.css b/reproducibility/site/src/styles/global.css
index 90940d2..6ea3a4c 100644
--- a/reproducibility/site/src/styles/global.css
+++ b/reproducibility/site/src/styles/global.css
@@ -10,120 +10,479 @@
   .qg-card {
     @apply rounded-xl border border-qg-border bg-qg-bg-soft p-6 transition hover:border-qg-accent;
   }
+}
 
-  /* Leaderboard table — the card that wraps a scrollable table with sticky
-   * thead and sticky axis columns. Fixed height keeps the filter card +
-   * page chrome in view while rows scroll inside. */
-  .qg-table-card {
-    @apply flex h-[600px] flex-col overflow-hidden rounded-xl border border-qg-border bg-qg-bg-soft;
-  }
-  .qg-table-scroll {
-    @apply flex-grow overflow-auto;
-  }
+/* =====================================================================
+ * Leaderboard table — Pyserini-2cr-inspired layout (.lb-* namespace).
+ * Used by the home matrix and every per-X page. See
+ * tmp/mockups/leaderboard-pyserini-style.html for the design source.
+ * ===================================================================== */
 
-  /* Filter strip — wraps chips for axes + metric toggle in one card. */
-  .qg-filter-card {
-    @apply mb-4 rounded-xl border border-qg-border bg-qg-bg-soft p-4;
-  }
+/* ---------- filter card -------------------------------------------------- */
+.lb-filter-card {
+  background: var(--qg-bg-soft);
+  border: 1px solid var(--qg-border);
+  border-radius: 12px;
+  padding: 12px 14px;
+  margin-bottom: 12px;
+}
+.lb-filter-row { display: flex; flex-wrap: wrap; align-items: center; gap: 12px; row-gap: 10px; }
+.lb-filter-row + .lb-filter-row {
+  margin-top: 10px; padding-top: 10px;
+  border-top: 1px solid var(--qg-border-soft, var(--qg-border));
+}
+.lb-filter-group { display: flex; flex-wrap: wrap; align-items: center; gap: 6px; }
+.lb-filter-label {
+  color: var(--qg-fg-muted); font-size: 10.5px;
+  text-transform: uppercase; letter-spacing: 0.06em;
+  font-weight: 600; margin-right: 1px;
 }
 
-/* ---------- Scrollbar styling ------------------------------------------- */
+.lb-chip {
+  font-size: 11.5px; padding: 4px 9px; border-radius: 999px;
+  border: 1px solid var(--qg-border); color: var(--qg-fg);
+  background: var(--qg-bg); cursor: pointer; user-select: none;
+  font-family: inherit;
+  transition: background 0.15s, border-color 0.15s, color 0.15s;
+}
+.lb-chip:hover { border-color: var(--qg-accent); }
+.lb-chip.active {
+  background: var(--qg-accent); border-color: var(--qg-accent); color: #fff;
+}
 
-.qg-table-scroll::-webkit-scrollbar {
-  width: 8px;
-  height: 8px;
+/* multi-select dropdown (Datasets) */
+.lb-multi { position: relative; }
+.lb-multi-trigger {
+  display: inline-flex; align-items: center; gap: 7px;
+  font-size: 11.5px; padding: 4px 10px; border-radius: 999px;
+  border: 1px solid var(--qg-border); color: var(--qg-fg);
+  background: var(--qg-bg); cursor: pointer; user-select: none;
+  font-family: inherit;
+  transition: background 0.15s, border-color 0.15s, color 0.15s;
 }
-.qg-table-scroll::-webkit-scrollbar-track {
-  background: var(--qg-bg-soft);
+.lb-multi-trigger:hover { border-color: var(--qg-accent); }
+.lb-multi-trigger.has-filter {
+  background: var(--qg-accent); border-color: var(--qg-accent); color: #fff;
 }
-.qg-table-scroll::-webkit-scrollbar-thumb {
-  background: var(--qg-border);
-  border-radius: 4px;
+.lb-multi-trigger .caret { font-size: 9px; opacity: 0.7; }
+.lb-multi-panel {
+  position: absolute; top: calc(100% + 6px); left: 0;
+  min-width: 220px;
+  background: var(--qg-bg);
+  border: 1px solid var(--qg-border);
+  border-radius: 10px;
+  box-shadow: 0 10px 24px rgba(0,0,0,0.35);
+  padding: 8px;
+  z-index: 60;
+  display: none;
+}
+.lb-multi.open .lb-multi-panel { display: block; }
+.lb-multi-section + .lb-multi-section {
+  border-top: 1px solid var(--qg-border-soft, var(--qg-border));
+  margin-top: 4px; padding-top: 8px;
+}
+.lb-multi-section-head {
+  display: flex; align-items: center; justify-content: space-between;
+  padding: 0 4px 4px;
+}
+.lb-multi-section-head .label {
+  font-size: 10px; font-weight: 600; text-transform: uppercase;
+  letter-spacing: 0.06em; color: var(--qg-fg-muted);
+}
+.lb-multi-section-head .actions {
+  display: inline-flex; gap: 4px; align-items: center; font-size: 10px;
+  color: var(--qg-fg-muted);
+}
+.lb-multi-section-head .actions button {
+  background: transparent; border: 0; color: var(--qg-fg-muted);
+  cursor: pointer; padding: 0; font-family: inherit; font-size: 10px;
+}
+.lb-multi-section-head .actions button:hover { color: var(--qg-accent); }
+.lb-multi-item {
+  display: flex; align-items: center; gap: 8px;
+  padding: 5px 6px; border-radius: 6px;
+  cursor: pointer; color: var(--qg-fg); font-size: 12px;
 }
-.qg-table-scroll::-webkit-scrollbar-thumb:hover {
-  background: var(--qg-fg-muted);
+.lb-multi-item:hover { background: var(--qg-bg-soft); }
+.lb-multi-item input[type="checkbox"] {
+  width: 14px; height: 14px;
+  accent-color: var(--qg-accent);
+  margin: 0; cursor: pointer;
 }
-.qg-table-scroll {
+
+/* segmented metric control */
+.lb-seg {
+  display: inline-flex;
+  border: 1px solid var(--qg-border);
+  border-radius: 8px;
+  overflow: hidden;
+  background: var(--qg-bg);
+  height: 26px;
+}
+.lb-seg-btn {
+  padding: 0 11px; font-size: 11.5px;
+  border: 0; background: transparent;
+  color: var(--qg-fg-muted); cursor: pointer;
+  font-family: inherit; font-weight: 500;
+  border-right: 1px solid var(--qg-border);
+  transition: background 0.15s, color 0.15s;
+  line-height: 24px;
+}
+.lb-seg-btn:last-child { border-right: 0; }
+.lb-seg-btn:hover:not(.active) { color: var(--qg-fg); background: var(--qg-bg-soft); }
+.lb-seg-btn.active { background: var(--qg-accent); color: #fff; }
+
+/* search input */
+.lb-search-wrap { display: flex; align-items: center; gap: 10px; flex-wrap: wrap; }
+.lb-search-input {
+  display: flex; align-items: center; gap: 8px;
+  background: var(--qg-bg); border: 1px solid var(--qg-border);
+  border-radius: 8px; padding: 5px 9px; min-width: 240px;
+}
+.lb-search-input input {
+  background: transparent; border: 0; outline: 0; color: var(--qg-fg);
+  font-size: 12px; flex: 1; font-family: inherit;
+}
+.lb-search-input svg { color: var(--qg-fg-muted); }
+.lb-row-count { font-size: 11px; color: var(--qg-fg-muted); white-space: nowrap; }
+
+/* best-in-column legend */
+.lb-best-legend {
+  display: inline-flex; align-items: center; gap: 7px;
+  font-size: 11px; color: var(--qg-fg-muted);
+  letter-spacing: 0.02em; white-space: nowrap;
+}
+.lb-best-legend .dot {
+  width: 7px; height: 7px; border-radius: 50%;
+  background: var(--qg-accent);
+  box-shadow: 0 0 5px rgba(236,72,153,0.55);
+}
+
+/* ---------- table card ---------------------------------------------------
+   The card is sized by its flex parent (main) which fills the viewport.
+   It takes whatever vertical space remains after the filter card etc.
+   Inner scroll on both axes; sticky thead anchors to top:0 of the scroll
+   container; sticky axis cols anchor to its left. min-height:0 on the
+   scroll is the standard flex+overflow fix so it can actually shrink. */
+.lb-table-card {
+  background: var(--qg-bg-soft);
+  border: 1px solid var(--qg-border);
+  border-radius: 12px;
+  overflow: hidden;
+  display: flex; flex-direction: column;
+  flex: 1;
+  min-height: 0;
+}
+.lb-table-scroll {
+  flex: 1; overflow: auto;
+  min-height: 0;
   scrollbar-width: thin;
   scrollbar-color: var(--qg-border) var(--qg-bg-soft);
 }
+.lb-table-scroll::-webkit-scrollbar { width: 9px; height: 9px; }
+.lb-table-scroll::-webkit-scrollbar-track { background: var(--qg-bg-soft); }
+.lb-table-scroll::-webkit-scrollbar-thumb { background: var(--qg-border); border-radius: 6px; }
+.lb-table-scroll::-webkit-scrollbar-thumb:hover { background: var(--qg-fg-muted); }
 
-/* ---------- Sticky thead inside the scroll container ------------------- */
+table.lb {
+  width: 100%; border-collapse: separate; border-spacing: 0; font-size: 12.5px;
+  --axis-w-1: 30px; --axis-w-2: 80px; --axis-w-3: 132px; --axis-w-4: 94px;
+}
 
-.qg-table-scroll thead th {
+.lb thead th {
   position: sticky;
-  top: 0;
-  z-index: 10;
-  background: var(--qg-bg-soft);
-  box-shadow: inset 0 -1px 0 var(--qg-border);
+  z-index: 12;
+  background: var(--qg-bg-softer, var(--qg-bg-soft));
+  color: var(--qg-fg-muted);
+  font-size: 10.5px; font-weight: 600; text-transform: uppercase;
+  letter-spacing: 0.05em; text-align: left;
+  padding: 8px 8px;
+  border-bottom: 1px solid var(--qg-border);
+  white-space: nowrap;
+}
+/* Two-row sticky thead: top row at top:0, bot row stacked just below it.
+   Without the explicit offset, both rows would pin at top:0 and the bot row
+   (later in DOM) would paint over the top row. */
+.lb thead tr.top th { top: 0; padding-bottom: 6px; }
+.lb thead tr.bot th {
+  top: 28px;
+  padding-top: 7px; font-size: 10px; color: var(--qg-fg-muted);
+  border-bottom: 1px solid var(--qg-border); font-weight: 500;
 }
+.lb thead tr.top th.group {
+  text-align: center; color: var(--qg-fg);
+  border-left: 1px solid var(--qg-border-soft, var(--qg-border));
+}
+.lb thead tr.top th.group:first-of-type { border-left: 0; }
+/* center-align matches the value cells; padding-left:15 compensates for the
+   ~13px of right-side space reserved by the inline sort arrow, so the name's
+   visual centerline stays aligned with the value below it. (Scope is just
+   `.lb thead .metric` — works whether the metric th is in tr.top or tr.bot.) */
+.lb thead .metric {
+  text-align: center;
+  padding-left: 15px;
+}
+.lb thead .metric.first { border-left: 1px solid var(--qg-border-soft, var(--qg-border)); }
+.lb .hidden,
+.lb .lb-hide-ds,
+.lb .lb-hide-metric { display: none !important; }
+/* tabs/panes outside the .lb table also need these */
+.lb-hide-ds, .lb-hide-metric { display: none !important; }
 
-/* ---------- Sticky axis columns ---------------------------------------- *
- * Each page declares per-table widths via inline style on the <table>:
- *   style="--qg-axis-w-1: 120px; --qg-axis-w-2: 180px;"
- * Then applies .qg-axis-1 / -2 / -3 on the relevant <th> + <td>. */
+/* small count badge for axis col headers ("Method (10)") */
+.lb-count {
+  display: inline-flex; align-items: center; justify-content: center;
+  min-width: 16px; padding: 0 5px; height: 14px;
+  margin-left: 5px;
+  border-radius: 999px;
+  background: var(--qg-bg);
+  border: 1px solid var(--qg-border);
+  font-size: 9px; font-weight: 500;
+  color: var(--qg-fg-muted);
+  letter-spacing: 0;
+  text-transform: none;
+  vertical-align: middle;
+}
 
-.qg-axis-1,
-.qg-axis-2,
-.qg-axis-3 {
+/* sortable metric header — arrow always reserves 9px, visible only when sorted */
+.lb thead .metric { cursor: pointer; user-select: none; transition: color 0.15s; }
+.lb thead .metric:hover { color: var(--qg-fg); }
+.lb thead .metric .name { display: inline-block; }
+.lb thead .metric .arrow {
+  display: inline-block;
+  margin-left: 4px;
+  width: 9px; text-align: center;
+  font-size: 9px;
+  visibility: hidden;
+  vertical-align: middle;
+  pointer-events: none;
+}
+.lb thead .metric.sort-asc .arrow,
+.lb thead .metric.sort-desc .arrow { visibility: visible; }
+.lb thead .metric.sort-asc, .lb thead .metric.sort-desc { color: var(--qg-accent); }
+.lb thead .metric.sort-asc  .arrow::after { content: '▲'; }
+.lb thead .metric.sort-desc .arrow::after { content: '▼'; }
+
+/* sticky axis cols (width:1px + nowrap pins them to content width).
+   Z-index ladder:
+     thead axis intersection: 14 (covers everything when both scrolls move)
+     thead non-axis (datasets): 12 (from .lb thead th)
+     tbody axis (sticky-left):  11
+     tbody non-axis:            (auto, normal flow)
+*/
+.lb .ax {
   position: sticky;
-  z-index: 20;
-  background: var(--qg-bg-soft);
+  background: var(--qg-bg-softer, var(--qg-bg-soft));
+  z-index: 11;
+  width: 1px;
+  white-space: nowrap;
 }
-.qg-axis-1 { left: 0; min-width: var(--qg-axis-w-1, 120px); }
-.qg-axis-2 { left: var(--qg-axis-w-1, 120px); min-width: var(--qg-axis-w-2, 180px); }
-.qg-axis-3 {
-  left: calc(var(--qg-axis-w-1, 120px) + var(--qg-axis-w-2, 180px));
-  border-right: 1px solid var(--qg-border);
+/* corner cells (axis × thead): stick both ways, above all */
+.lb thead .ax { z-index: 14; }
+.lb tbody .ax { background: var(--qg-bg); }
+.lb tbody tr.data:hover .ax { background: var(--qg-row-hover, var(--qg-bg-soft)); }
+.lb tbody tr.data.expanded > .ax { background: var(--qg-bg-soft); }
+.lb .ax-1 { left: 0; min-width: var(--axis-w-1); padding-left: 8px; padding-right: 4px; }
+.lb .ax-2 { left: var(--axis-w-1); min-width: var(--axis-w-2); }
+.lb .ax-3 { left: calc(var(--axis-w-1) + var(--axis-w-2)); min-width: var(--axis-w-3); }
+.lb .ax-4 {
+  left: calc(var(--axis-w-1) + var(--axis-w-2) + var(--axis-w-3));
+  min-width: var(--axis-w-4); border-right: 1px solid var(--qg-border);
+}
+
+.lb tbody td {
+  padding: 7px 8px;
+  border-top: 1px solid var(--qg-border-soft, var(--qg-border));
+  white-space: nowrap;
+}
+.lb tbody tr.data:hover td { background-color: var(--qg-row-hover, var(--qg-bg-soft)); }
+.lb tbody tr.data.expanded > td { background-color: var(--qg-bg-soft); }
+
+/* metric value cells */
+.lb-metric-cell {
+  text-align: center; font-family: 'JetBrains Mono', monospace;
+  font-variant-numeric: tabular-nums;
+  min-width: 68px;
+}
+.lb-metric-cell.metric-primary { min-width: 80px; }
+.lb-metric-cell .primary  { color: var(--qg-fg); font-size: 12.5px; }
+.lb-metric-cell .secondary { color: var(--qg-fg-muted); font-size: 11px; }
+table.lb.mode-single .lb-metric-cell .secondary { color: var(--qg-fg); font-size: 12.5px; }
+.lb-metric-cell.best .primary,
+.lb-metric-cell.best .secondary { color: var(--qg-accent); font-weight: 700; }
+table.lb.mode-single .lb-metric-cell.best .secondary { color: var(--qg-accent); font-weight: 700; }
+[data-theme="dark"] .lb-metric-cell.best .primary,
+[data-theme="dark"] .lb-metric-cell.best .secondary { text-shadow: 0 0 6px rgba(236,72,153,0.35); }
+
+.lb-method-name { font-weight: 600; }
+
+/* expand/collapse button (15x15 plus/minus rotation) */
+.lb-exp-btn {
+  position: relative;
+  width: 15px; height: 15px;
+  border-radius: 4px;
+  background: var(--qg-bg-soft); border: 1px solid var(--qg-border);
+  color: var(--qg-fg-muted);
+  cursor: pointer;
+  padding: 0;
+  transition: background 0.2s, border-color 0.2s, color 0.2s;
+}
+.lb-exp-btn:hover { color: var(--qg-fg); border-color: var(--qg-accent); }
+.lb-exp-btn::before, .lb-exp-btn::after {
+  content: ''; position: absolute;
+  top: 50%; left: 50%;
+  width: 7px; height: 1.5px;
+  background: currentColor;
+  border-radius: 1px;
+  transform: translate(-50%, -50%);
+  transition: transform 0.28s cubic-bezier(.4,.0,.2,1);
+}
+.lb-exp-btn::after { transform: translate(-50%, -50%) rotate(90deg); }
+tr.expanded .lb-exp-btn {
+  background: var(--qg-accent); border-color: var(--qg-accent); color: #fff;
 }
+tr.expanded .lb-exp-btn::after { transform: translate(-50%, -50%) rotate(0deg); }
 
-/* Body cells: lower z so sticky thead wins; different bg so columns pop
- * against the soft-bg header. Hover keeps the columns in sync with the row. */
-.qg-table-scroll tbody td.qg-axis-1,
-.qg-table-scroll tbody td.qg-axis-2,
-.qg-table-scroll tbody td.qg-axis-3 {
+/* expanded row panel — grid-rows transition for true height animation.
+   The td has full table width via colspan; we sticky-left the inner wrap
+   and clamp its width to the scroll-container's visible viewport (set as
+   --lb-vp-w in JS) so the panel stays in view regardless of horizontal
+   scroll, and DOES NOT extend the table's overall scroll width. */
+.lb-exp-row > td {
+  padding: 0 !important;
+  background: var(--qg-bg) !important;
+  border-top: 0 !important;
+}
+.lb-exp-wrap {
+  display: grid;
+  grid-template-rows: 0fr;
+  transition: grid-template-rows 0.32s cubic-bezier(.4,.0,.2,1);
+  position: sticky;
+  left: 0;
+  width: var(--lb-vp-w, 100%);
+  max-width: var(--lb-vp-w, 100%);
+}
+.lb-exp-row.show .lb-exp-wrap { grid-template-rows: 1fr; }
+.lb-exp-wrap > .lb-exp-inner { overflow: hidden; min-height: 0; }
+.lb-exp-panel {
+  padding: 16px 20px 20px;
   background: var(--qg-bg);
-  z-index: 5;
-}
-.qg-table-scroll tbody tr:hover td.qg-axis-1,
-.qg-table-scroll tbody tr:hover td.qg-axis-2,
-.qg-table-scroll tbody tr:hover td.qg-axis-3 {
-  background: var(--qg-row-hover);
-}
-
-/* On narrow viewports the sticky columns would eat the whole screen; drop
- * back to standard scroll so users can reach the data columns. */
-@media (max-width: 768px) {
-  .qg-axis-1,
-  .qg-axis-2,
-  .qg-axis-3 {
-    position: static;
-    min-width: 0;
-  }
-  .qg-axis-3 { border-right: none; }
+  border-top: 1px solid var(--qg-border);
+  border-bottom: 1px solid var(--qg-border);
+  opacity: 0;
+  transform: translateY(-4px);
+  transition: opacity 0.22s ease 0.06s, transform 0.22s ease 0.06s;
 }
+.lb-exp-row.show .lb-exp-panel { opacity: 1; transform: translateY(0); }
 
-/* ---------- Best-cell highlight ---------------------------------------- */
+.lb-exp-meta {
+  display: flex; flex-wrap: wrap; align-items: center; gap: 8px;
+  font-size: 12px; color: var(--qg-fg-muted); margin-bottom: 12px;
+}
+.lb-exp-meta .pill {
+  background: var(--qg-bg-soft); border: 1px solid var(--qg-border);
+  padding: 3px 9px; border-radius: 999px; font-family: 'JetBrains Mono', monospace;
+  font-size: 11px; color: var(--qg-fg);
+  display: inline-flex; align-items: center; gap: 6px;
+}
+.lb-exp-meta .pill strong {
+  color: var(--qg-fg-muted); font-weight: 500;
+  text-transform: uppercase; font-size: 10px; letter-spacing: 0.05em;
+}
 
-.qg-cell-best {
-  color: var(--qg-accent);
-  font-weight: 700;
+/* tabs */
+.lb-tabs {
+  display: flex; gap: 0;
+  border-bottom: 1px solid var(--qg-border);
+  margin-bottom: 14px; overflow-x: auto;
+  scrollbar-width: thin; scrollbar-color: var(--qg-border) transparent;
 }
-[data-theme="dark"] .qg-cell-best {
-  text-shadow: 0 0 6px rgba(236, 72, 153, 0.4);
+.lb-tab {
+  padding: 8px 13px; font-size: 12.5px; color: var(--qg-fg-muted);
+  cursor: pointer; border: 0; background: transparent;
+  border-bottom: 2px solid transparent; white-space: nowrap;
+  font-family: inherit; font-weight: 500;
+  display: flex; align-items: center; gap: 7px;
+  transition: color 0.15s;
 }
+.lb-tab:hover { color: var(--qg-fg); }
+.lb-tab.active { color: var(--qg-fg); border-bottom-color: var(--qg-accent); }
+.lb-tab .score { font-family: 'JetBrains Mono', monospace; font-size: 11px; color: var(--qg-fg-muted); }
+.lb-tab.active .score { color: var(--qg-accent); }
+.lb-tab-pane { display: none; }
+.lb-tab-pane.active { display: block; }
 
-/* ---------- Sort-arrow polish on InteractiveTable thead ---------------- */
+/* code-step blocks */
+.lb-step {
+  background: var(--qg-bg-soft);
+  border: 1px solid var(--qg-border);
+  border-radius: 9px;
+  margin-bottom: 10px;
+  overflow: hidden;
+}
+.lb-step-head {
+  display: flex; align-items: center; justify-content: space-between;
+  padding: 8px 12px; background: var(--qg-bg-softer, var(--qg-bg-soft));
+  border-bottom: 1px solid var(--qg-border);
+}
+.lb-step-head .title {
+  display: flex; align-items: center; gap: 9px;
+  font-size: 12px; font-weight: 600; color: var(--qg-fg);
+}
+.lb-step-head .num {
+  width: 18px; height: 18px; border-radius: 999px;
+  background: var(--qg-accent); color: #fff; font-size: 10.5px; font-weight: 700;
+  display: inline-flex; align-items: center; justify-content: center;
+}
+.lb-step-head .hint {
+  color: var(--qg-fg-muted); font-size: 11px; font-weight: 400; margin-left: 4px;
+}
+.lb-copy-btn {
+  font-family: inherit; font-size: 11px; font-weight: 500;
+  padding: 4px 8px; border-radius: 6px;
+  border: 1px solid var(--qg-border); background: var(--qg-bg);
+  color: var(--qg-fg-muted); cursor: pointer;
+  display: inline-flex; align-items: center; gap: 5px;
+  transition: color 0.15s, border-color 0.15s;
+}
+.lb-copy-btn:hover { color: var(--qg-fg); border-color: var(--qg-accent); }
+.lb-copy-btn.copied { color: var(--qg-accent); border-color: var(--qg-accent); }
+.lb-step pre {
+  margin: 0; padding: 12px 14px; overflow-x: auto;
+  font-family: 'JetBrains Mono', monospace; font-size: 11.5px; line-height: 1.55;
+  color: var(--qg-fg);
+  scrollbar-width: thin; scrollbar-color: var(--qg-border) transparent;
+}
+.lb-step pre::-webkit-scrollbar { height: 7px; }
+.lb-step pre::-webkit-scrollbar-thumb { background: var(--qg-border); border-radius: 6px; }
+.lb-step pre .flag { color: #a78bfa; }
+.lb-step pre .val  { color: #6ee7b7; }
+
+.lb-exp-footer {
+  display: flex; gap: 10px; align-items: center;
+  margin-top: 6px; font-size: 11.5px; color: var(--qg-fg-muted);
+  flex-wrap: wrap;
+}
+.lb-exp-footer a { color: var(--qg-accent); text-decoration: none; }
+.lb-exp-footer a:hover { text-decoration: underline; }
 
-.qg-itable table thead th .qg-sort-arrow {
-  opacity: 0.4;
-  font-size: 0.75rem;
-  margin-left: 0.25rem;
+/* responsive */
+@media (max-width: 1280px) {
+  table.lb { --axis-w-2: 76px; --axis-w-3: 122px; --axis-w-4: 88px; }
+  .lb-metric-cell { min-width: 62px; }
+  .lb-metric-cell.metric-primary { min-width: 74px; }
 }
-.qg-itable table thead th:hover .qg-sort-arrow {
-  opacity: 0.7;
+@media (max-width: 1100px) {
+  table.lb { font-size: 12px; }
+  .lb-metric-cell { min-width: 58px; }
+  .lb-metric-cell.metric-primary { min-width: 68px; }
+  .lb tbody td, .lb thead th { padding: 6px 6px; }
 }
-.qg-itable table thead th[data-sort-dir] .qg-sort-arrow {
-  opacity: 1;
-  color: var(--qg-accent);
+@media (max-width: 900px) {
+  .lb .ax { position: static; }
+  .lb .ax-4 { border-right: 0; }
+  .lb-table-card { height: auto; }
+  .lb-filter-row { gap: 12px; }
+  .lb-search-wrap { margin-left: 0; width: 100%; }
+  .lb-search-input { min-width: 0; flex: 1; }
 }
diff --git a/web/shared/components/Footer.astro b/web/shared/components/Footer.astro
index 0e7214f..515d072 100644
--- a/web/shared/components/Footer.astro
+++ b/web/shared/components/Footer.astro
@@ -26,7 +26,7 @@ const baseLinks: FooterLink[] = [
 ---
 
 <footer class="border-t border-qg-border bg-qg-bg-soft">
-  <div class="mx-auto flex max-w-6xl flex-col items-start justify-between gap-3 px-4 py-6 text-sm text-qg-fg-muted md:flex-row md:items-center">
+  <div class="mx-auto flex w-[90%] flex-col items-start justify-between gap-3 px-4 py-6 text-sm text-qg-fg-muted md:flex-row md:items-center">
     <div>
       © {year} {org}. Apache 2.0.
     </div>
diff --git a/web/shared/components/Header.astro b/web/shared/components/Header.astro
index ab41dc9..991d4ea 100644
--- a/web/shared/components/Header.astro
+++ b/web/shared/components/Header.astro
@@ -38,7 +38,7 @@ const {
 ---
 
 <header class="qg-gradient text-white">
-  <div class="mx-auto flex max-w-6xl items-center justify-between gap-4 px-4 py-4 md:py-6">
+  <div class="mx-auto flex w-[90%] items-center justify-between gap-4 px-4 py-4 md:py-6">
     <a href="/" class="flex items-center gap-3 no-underline">
       <img src={logo} alt="QueryGym" class="h-10 w-10 rounded" />
       <div class="leading-tight">

in
to skip it. - * - Each	can have data-sort-value="" to override the - * visible text for sorting (useful for cells containing links or formatted - * numbers). When absent, the cell's textContent is used. - * - Each
- {linkable ? ( - - {primaryText} - {secondaryText} - - ) : ( - <> - {primaryText} - {secondaryText} - - )} -