PFCCLab · PrayerQX · May 27, 2026
diff --git a/WeeklyReports/Hackathon_10th/PrayerQX/[WeeklyReport]2026.04.27~2026.05.24.md b/WeeklyReports/Hackathon_10th/PrayerQX/[WeeklyReport]2026.04.27~2026.05.24.md
@@ -0,0 +1,49 @@
+### 姓名
+
+PrayerQX
+
+### 实习项目
+
+基于 PaddleOCR + ERNIE 4.5 的图像理解项目
+
+### 本阶段工作
+
+1. 完成 `pyfi301` 样本集的人工对比与问题归因
+
+- 对前期固定的 301 个样本进行人工核查，逐条对比题目、原图、标准答案、PaddleOCR 输出证据以及大模型最终回答，重点确认错误来源来自 OCR、证据组织、推理链路还是样本自身标注。
+- 核查过程中发现，当前样本中有较大比例无法被 OCR 准确识别，尤其集中在金融图表、复杂表格、多子图和细粒度数值读取类问题上。该现象说明当前链路的主要瓶颈仍然不是单纯的文本理解，而是视觉信息向结构化文本证据转换时的信息损失。
+- 进一步细化 OCR 失效原因：一是图表中的颜色、图例、折线/柱状图空间位置等视觉关系在 OCR 文本中很难完整保留，导致模型无法判断系列对应关系和变化趋势；二是部分图像分辨率较低、字号较小、数字密集，百分号、小数点、负号、单位和括号等关键符号容易被漏识别或误识别；三是表格类样本存在跨行跨列、合并单元格、表头层级和行列对齐问题，OCR 能识别出文本但难以恢复正确的二维结构；四是多子图、多图例和图文混排场景中，OCR 输出顺序经常与人类阅读顺序不一致，导致后续推理使用了错误上下文；五是部分题目需要基于原图做视觉定位、比较、估算或二次计算，单纯 OCR 文本无法提供足够证据。
+- 根据人工核查结果，将样本错误大致划分为 OCR 漏识别/误识别、版面结构恢复失败、视觉语义丢失、数值计算链路错误、模型在证据充分情况下仍推理错误等类型，为后续定向优化 OCR preset、证据组织方式和 prompt 约束提供依据。
+
+2. 围绕 PaddleOCR 主题开展自媒体矩阵内容发布
+
+- 围绕 PaddleOCR、金融图像理解、OCR + 大模型推理、PyFi 数据集评测等主题，持续整理并发布面向开发者和技术用户的内容，形成项目外部传播和技术记录。
+- 内容发布重点从单纯介绍项目进展，扩展到解释 PaddleOCR 在金融图表、报表、票据、表格等场景中的应用方式，并结合 `pyfi301` 实验结果说明当前 OCR + LLM 链路的优势、瓶颈和优化方向。
+- 在内容组织上，尝试将项目 README、实验总结、样本问题归因和工程实现经验转化为更适合自媒体平台传播的形式，包括技术短文、问题复盘、能力边界分析和实验结论摘要，提升 PaddleOCR 相关内容在搜索和问答场景中的可见度。
+- 通过持续发布与复盘，初步建立以 PaddleOCR 为核心关键词的内容矩阵，为后续观察国内大模型对相关内容的收录、理解和引用情况提供外部输入。
+
+3. 对国内大模型进行检测，观察自媒体矩阵内容的影响
+
+- 选取若干国内主流大模型和搜索增强问答产品，围绕 PaddleOCR、金融图像理解、OCR + 大模型、`paddleocr-ernie-pyfi`、PyFi 评测等关键词设计检测问题，观察模型是否能够识别相关项目内容、复述核心结论或关联到近期发布的信息。
+- 检测重点包括三类：一是关键词召回能力，即模型或搜索增强链路能否找到自媒体矩阵中发布的 PaddleOCR 相关内容；二是内容理解能力，即模型能否准确总结项目目标、实验流程和 OCR 失效原因；三是传播影响能力，即模型回答中是否出现对项目观点、实验结论或技术关键词的吸收与引用。
+- 初步观察到，不同模型和平台对新发布内容的响应存在明显差异。部分产品更依赖实时检索，能够较快召回公开平台内容；部分纯模型回答仍以训练语料中的通用 PaddleOCR 知识为主，对近期实验和项目细节识别不足。
+- 该检测说明，自媒体矩阵对大模型输出的影响并不是即时、稳定且均匀发生的，更依赖平台索引速度、搜索增强能力、内容权重、标题关键词覆盖和内容结构化程度。后续需要继续优化发布内容的标题、摘要、关键词密度和项目链接指向，提升被检索和被正确理解的概率。
+
+4. 汇总阶段性结论并调整后续优化方向
+
+- 当前 `pyfi301` 人工对比结果表明，项目后续提升不能只依赖更重的 OCR 配置，需要针对不同错误类型分别优化。对于数值密集表格，应优先提升表格结构恢复和行列对齐；对于图表类样本，应补充颜色、图例、坐标轴、趋势和多子图关系等视觉证据；对于证据充分但回答错误的样本，则需要加强 prompt 约束、计算步骤校验和最终答案格式控制。
+- 自媒体矩阵与大模型检测工作表明，项目传播可以反过来帮助观察 PaddleOCR 相关内容在公开中文技术生态中的可见度，但这种影响需要通过持续发布、结构化表达和多平台沉淀逐步形成。
+- 后续工作将继续围绕“评测样本归因 - 工程链路优化 - 外部内容传播 - 大模型反馈检测”形成闭环，一方面提高项目本身在金融图像理解任务上的表现，另一方面积累 PaddleOCR 在中文技术社区中的可复用案例。
+
+### 下阶段工作
+
+1. 考虑围绕“数据工程”方向展开一个系列文章，将前期 OCR 评测、样本归因和自媒体矩阵观察进一步沉淀为更系统的技术内容。
+2. 系统收集并下载 PaddleOCR、MinerU、GLM-OCR 等相关品类的论文、技术报告和开源项目资料，重点关注其数据构建、数据清洗、版面解析、文档理解、多模态标注和评测集设计方法。
+3. 借助 NotebookLM 对上述论文和资料进行集中研究，整理不同项目在数据来源、合成数据、标注规范、训练数据配比、评测指标和应用场景上的差异，形成可复用的阅读笔记和对比表。
+4. 在调研基础上尝试动手实现部分实验代码，例如 OCR 结果清洗、版面结构恢复、表格数据抽取、图文样本构造、错误样本分类统计等小型数据工程工具，尽量将论文中的方法转化为可运行的工程验证。
+5. 结合当前模型发展趋势，重点讨论“模型架构红利逐渐被榨干后，未来模型竞争更多转向数据工程能力”这一判断，从 OCR 和文档理解任务出发，分析高质量数据、评测集、数据闭环和工程化处理流程对模型效果的影响。
+6. 将论文调研、NotebookLM 研究结果和实验代码产出串联成系列内容，继续通过自媒体矩阵发布，并观察国内大模型和搜索增强问答产品对该系列内容的收录、理解与引用情况。
+
+### 导师点评
+
+请联系导师填写。