基于微调视觉语言模型(VLM)的前端 CSS 视觉缺陷诊断与修复系统。中山大学《多模态大模型原理与应用》2026 春季课程大作业。
小组成员:杨正宇 · 余鑫 · 张博然
| 目录 | 说明 |
|---|---|
yzy/ |
QLoRA 训练、strict 评测、L1/L2 消融脚本与实验文档 |
yx/ |
推理 Pipeline、Playwright 渲染、FastAPI + React 调试界面 |
yx_ablation/ |
L2 批评估专用 fork(与 yx 隔离,便于复现实验) |
docs/course_report/ |
课程报告 LaTeX 源文件与 main.pdf |
- Python 3.10+,Conda 推荐
- Node.js 18+(前端)
- Playwright 浏览器依赖(见
yx/README.md)
cp yx/backend/.env.example yx/backend/.env
# 编辑 .env:填入 DashScope API Key(仅 API 实验需要)与本地模型路径本仓库不包含 Qwen2.5-VL-7B 基座与 LoRA 权重(体积过大)。请自行:
- 下载 Qwen2.5-VL-7B-Instruct 至本地
ori_model/ - 按
yzy/finetuned_models/MANIFEST.template.md放置三组 slot 权重,或自行微调
cd docs/course_report && bash compile.sh
# 产出 main.pdf- 方案 A 端到端:strict = 0,视觉消融表明几乎未利用截图
- 方案 B 模块级:B2/B3 strict 约 41% / 57.5%
- L2 Fix Rate@K=1/5/10:4.5% / 10.0% / 17.0%(微调 Pipeline)
完整数字与实验清单见 yzy/docs/ABLATION_EXPERIMENTS_COMPLETE.md 与报告 PDF。
yzy/docs/dataset-build.md— 数据集构建(张博然)yx_ablation/docs/PIPELINE.md— Pipeline 与 L2 批评估yzy/docs/FINETUNED_MODEL_INFERENCE.md— 微调模型推理
课程作业项目,仅供学术交流。