VisualFix

基于微调视觉语言模型（VLM）的前端 CSS 视觉缺陷诊断与修复系统。中山大学《多模态大模型原理与应用》2026 春季课程大作业。

小组成员：杨正宇 · 余鑫 · 张博然

仓库结构

目录	说明
`yzy/`	QLoRA 训练、strict 评测、L1/L2 消融脚本与实验文档
`yx/`	推理 Pipeline、Playwright 渲染、FastAPI + React 调试界面
`yx_ablation/`	L2 批评估专用 fork（与 `yx` 隔离，便于复现实验）
`docs/course_report/`	课程报告 LaTeX 源文件与 `main.pdf`

快速开始

1. 环境

Python 3.10+，Conda 推荐
Node.js 18+（前端）
Playwright 浏览器依赖（见 yx/README.md）

2. 配置（勿提交真实密钥）

cp yx/backend/.env.example yx/backend/.env
# 编辑 .env：填入 DashScope API Key（仅 API 实验需要）与本地模型路径

3. 模型权重

本仓库不包含 Qwen2.5-VL-7B 基座与 LoRA 权重（体积过大）。请自行：

下载 Qwen2.5-VL-7B-Instruct 至本地 ori_model/
按 yzy/finetuned_models/MANIFEST.template.md 放置三组 slot 权重，或自行微调

4. 课程报告

cd docs/course_report && bash compile.sh
# 产出 main.pdf

主要结果（摘要）

方案 A 端到端：strict = 0，视觉消融表明几乎未利用截图
方案 B 模块级：B2/B3 strict 约 41% / 57.5%
L2 Fix Rate@K=1/5/10：4.5% / 10.0% / 17.0%（微调 Pipeline）

完整数字与实验清单见 yzy/docs/ABLATION_EXPERIMENTS_COMPLETE.md 与报告 PDF。

文档索引

yzy/docs/dataset-build.md — 数据集构建（张博然）
yx_ablation/docs/PIPELINE.md — Pipeline 与 L2 批评估
yzy/docs/FINETUNED_MODEL_INFERENCE.md — 微调模型推理

License

课程作业项目，仅供学术交流。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

VisualFix

仓库结构

快速开始

1. 环境

2. 配置（勿提交真实密钥）

3. 模型权重

4. 课程报告

主要结果（摘要）

文档索引

License

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
yx		yx
yx_ablation		yx_ablation
yzy		yzy
.gitignore		.gitignore
README.md		README.md

Folders and files

Latest commit

History

Repository files navigation

VisualFix

仓库结构

快速开始

1. 环境

2. 配置（勿提交真实密钥）

3. 模型权重

4. 课程报告

主要结果（摘要）

文档索引

License

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages