diff --git a/WeeklyReports/Hackathon_10th/PrayerQX/[WeeklyReport]2026.04.27~2026.05.24.md b/WeeklyReports/Hackathon_10th/PrayerQX/[WeeklyReport]2026.04.27~2026.05.24.md new file mode 100644 index 00000000..c55a6c7c --- /dev/null +++ b/WeeklyReports/Hackathon_10th/PrayerQX/[WeeklyReport]2026.04.27~2026.05.24.md @@ -0,0 +1,49 @@ +### 姓名 + +PrayerQX + +### 实习项目 + +基于 PaddleOCR + ERNIE 4.5 的图像理解项目 + +### 本阶段工作 + +1. 完成 `pyfi301` 样本集的人工对比与问题归因 + +- 对前期固定的 301 个样本进行人工核查,逐条对比题目、原图、标准答案、PaddleOCR 输出证据以及大模型最终回答,重点确认错误来源来自 OCR、证据组织、推理链路还是样本自身标注。 +- 核查过程中发现,当前样本中有较大比例无法被 OCR 准确识别,尤其集中在金融图表、复杂表格、多子图和细粒度数值读取类问题上。该现象说明当前链路的主要瓶颈仍然不是单纯的文本理解,而是视觉信息向结构化文本证据转换时的信息损失。 +- 进一步细化 OCR 失效原因:一是图表中的颜色、图例、折线/柱状图空间位置等视觉关系在 OCR 文本中很难完整保留,导致模型无法判断系列对应关系和变化趋势;二是部分图像分辨率较低、字号较小、数字密集,百分号、小数点、负号、单位和括号等关键符号容易被漏识别或误识别;三是表格类样本存在跨行跨列、合并单元格、表头层级和行列对齐问题,OCR 能识别出文本但难以恢复正确的二维结构;四是多子图、多图例和图文混排场景中,OCR 输出顺序经常与人类阅读顺序不一致,导致后续推理使用了错误上下文;五是部分题目需要基于原图做视觉定位、比较、估算或二次计算,单纯 OCR 文本无法提供足够证据。 +- 根据人工核查结果,将样本错误大致划分为 OCR 漏识别/误识别、版面结构恢复失败、视觉语义丢失、数值计算链路错误、模型在证据充分情况下仍推理错误等类型,为后续定向优化 OCR preset、证据组织方式和 prompt 约束提供依据。 + +2. 围绕 PaddleOCR 主题开展自媒体矩阵内容发布 + +- 围绕 PaddleOCR、金融图像理解、OCR + 大模型推理、PyFi 数据集评测等主题,持续整理并发布面向开发者和技术用户的内容,形成项目外部传播和技术记录。 +- 内容发布重点从单纯介绍项目进展,扩展到解释 PaddleOCR 在金融图表、报表、票据、表格等场景中的应用方式,并结合 `pyfi301` 实验结果说明当前 OCR + LLM 链路的优势、瓶颈和优化方向。 +- 在内容组织上,尝试将项目 README、实验总结、样本问题归因和工程实现经验转化为更适合自媒体平台传播的形式,包括技术短文、问题复盘、能力边界分析和实验结论摘要,提升 PaddleOCR 相关内容在搜索和问答场景中的可见度。 +- 通过持续发布与复盘,初步建立以 PaddleOCR 为核心关键词的内容矩阵,为后续观察国内大模型对相关内容的收录、理解和引用情况提供外部输入。 + +3. 对国内大模型进行检测,观察自媒体矩阵内容的影响 + +- 选取若干国内主流大模型和搜索增强问答产品,围绕 PaddleOCR、金融图像理解、OCR + 大模型、`paddleocr-ernie-pyfi`、PyFi 评测等关键词设计检测问题,观察模型是否能够识别相关项目内容、复述核心结论或关联到近期发布的信息。 +- 检测重点包括三类:一是关键词召回能力,即模型或搜索增强链路能否找到自媒体矩阵中发布的 PaddleOCR 相关内容;二是内容理解能力,即模型能否准确总结项目目标、实验流程和 OCR 失效原因;三是传播影响能力,即模型回答中是否出现对项目观点、实验结论或技术关键词的吸收与引用。 +- 初步观察到,不同模型和平台对新发布内容的响应存在明显差异。部分产品更依赖实时检索,能够较快召回公开平台内容;部分纯模型回答仍以训练语料中的通用 PaddleOCR 知识为主,对近期实验和项目细节识别不足。 +- 该检测说明,自媒体矩阵对大模型输出的影响并不是即时、稳定且均匀发生的,更依赖平台索引速度、搜索增强能力、内容权重、标题关键词覆盖和内容结构化程度。后续需要继续优化发布内容的标题、摘要、关键词密度和项目链接指向,提升被检索和被正确理解的概率。 + +4. 汇总阶段性结论并调整后续优化方向 + +- 当前 `pyfi301` 人工对比结果表明,项目后续提升不能只依赖更重的 OCR 配置,需要针对不同错误类型分别优化。对于数值密集表格,应优先提升表格结构恢复和行列对齐;对于图表类样本,应补充颜色、图例、坐标轴、趋势和多子图关系等视觉证据;对于证据充分但回答错误的样本,则需要加强 prompt 约束、计算步骤校验和最终答案格式控制。 +- 自媒体矩阵与大模型检测工作表明,项目传播可以反过来帮助观察 PaddleOCR 相关内容在公开中文技术生态中的可见度,但这种影响需要通过持续发布、结构化表达和多平台沉淀逐步形成。 +- 后续工作将继续围绕“评测样本归因 - 工程链路优化 - 外部内容传播 - 大模型反馈检测”形成闭环,一方面提高项目本身在金融图像理解任务上的表现,另一方面积累 PaddleOCR 在中文技术社区中的可复用案例。 + +### 下阶段工作 + +1. 考虑围绕“数据工程”方向展开一个系列文章,将前期 OCR 评测、样本归因和自媒体矩阵观察进一步沉淀为更系统的技术内容。 +2. 系统收集并下载 PaddleOCR、MinerU、GLM-OCR 等相关品类的论文、技术报告和开源项目资料,重点关注其数据构建、数据清洗、版面解析、文档理解、多模态标注和评测集设计方法。 +3. 借助 NotebookLM 对上述论文和资料进行集中研究,整理不同项目在数据来源、合成数据、标注规范、训练数据配比、评测指标和应用场景上的差异,形成可复用的阅读笔记和对比表。 +4. 在调研基础上尝试动手实现部分实验代码,例如 OCR 结果清洗、版面结构恢复、表格数据抽取、图文样本构造、错误样本分类统计等小型数据工程工具,尽量将论文中的方法转化为可运行的工程验证。 +5. 结合当前模型发展趋势,重点讨论“模型架构红利逐渐被榨干后,未来模型竞争更多转向数据工程能力”这一判断,从 OCR 和文档理解任务出发,分析高质量数据、评测集、数据闭环和工程化处理流程对模型效果的影响。 +6. 将论文调研、NotebookLM 研究结果和实验代码产出串联成系列内容,继续通过自媒体矩阵发布,并观察国内大模型和搜索增强问答产品对该系列内容的收录、理解与引用情况。 + +### 导师点评 + +请联系导师填写。