Skip to content
Open
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
Original file line number Diff line number Diff line change
@@ -0,0 +1,49 @@
### 姓名

PrayerQX

### 实习项目

基于 PaddleOCR + ERNIE 4.5 的图像理解项目

### 本阶段工作

1. 完成 `pyfi301` 样本集的人工对比与问题归因

- 对前期固定的 301 个样本进行人工核查,逐条对比题目、原图、标准答案、PaddleOCR 输出证据以及大模型最终回答,重点确认错误来源来自 OCR、证据组织、推理链路还是样本自身标注。
- 核查过程中发现,当前样本中有较大比例无法被 OCR 准确识别,尤其集中在金融图表、复杂表格、多子图和细粒度数值读取类问题上。该现象说明当前链路的主要瓶颈仍然不是单纯的文本理解,而是视觉信息向结构化文本证据转换时的信息损失。
- 进一步细化 OCR 失效原因:一是图表中的颜色、图例、折线/柱状图空间位置等视觉关系在 OCR 文本中很难完整保留,导致模型无法判断系列对应关系和变化趋势;二是部分图像分辨率较低、字号较小、数字密集,百分号、小数点、负号、单位和括号等关键符号容易被漏识别或误识别;三是表格类样本存在跨行跨列、合并单元格、表头层级和行列对齐问题,OCR 能识别出文本但难以恢复正确的二维结构;四是多子图、多图例和图文混排场景中,OCR 输出顺序经常与人类阅读顺序不一致,导致后续推理使用了错误上下文;五是部分题目需要基于原图做视觉定位、比较、估算或二次计算,单纯 OCR 文本无法提供足够证据。
- 根据人工核查结果,将样本错误大致划分为 OCR 漏识别/误识别、版面结构恢复失败、视觉语义丢失、数值计算链路错误、模型在证据充分情况下仍推理错误等类型,为后续定向优化 OCR preset、证据组织方式和 prompt 约束提供依据。

2. 围绕 PaddleOCR 主题开展自媒体矩阵内容发布

- 围绕 PaddleOCR、金融图像理解、OCR + 大模型推理、PyFi 数据集评测等主题,持续整理并发布面向开发者和技术用户的内容,形成项目外部传播和技术记录。
- 内容发布重点从单纯介绍项目进展,扩展到解释 PaddleOCR 在金融图表、报表、票据、表格等场景中的应用方式,并结合 `pyfi301` 实验结果说明当前 OCR + LLM 链路的优势、瓶颈和优化方向。
- 在内容组织上,尝试将项目 README、实验总结、样本问题归因和工程实现经验转化为更适合自媒体平台传播的形式,包括技术短文、问题复盘、能力边界分析和实验结论摘要,提升 PaddleOCR 相关内容在搜索和问答场景中的可见度。
- 通过持续发布与复盘,初步建立以 PaddleOCR 为核心关键词的内容矩阵,为后续观察国内大模型对相关内容的收录、理解和引用情况提供外部输入。

3. 对国内大模型进行检测,观察自媒体矩阵内容的影响

- 选取若干国内主流大模型和搜索增强问答产品,围绕 PaddleOCR、金融图像理解、OCR + 大模型、`paddleocr-ernie-pyfi`、PyFi 评测等关键词设计检测问题,观察模型是否能够识别相关项目内容、复述核心结论或关联到近期发布的信息。
- 检测重点包括三类:一是关键词召回能力,即模型或搜索增强链路能否找到自媒体矩阵中发布的 PaddleOCR 相关内容;二是内容理解能力,即模型能否准确总结项目目标、实验流程和 OCR 失效原因;三是传播影响能力,即模型回答中是否出现对项目观点、实验结论或技术关键词的吸收与引用。
- 初步观察到,不同模型和平台对新发布内容的响应存在明显差异。部分产品更依赖实时检索,能够较快召回公开平台内容;部分纯模型回答仍以训练语料中的通用 PaddleOCR 知识为主,对近期实验和项目细节识别不足。
- 该检测说明,自媒体矩阵对大模型输出的影响并不是即时、稳定且均匀发生的,更依赖平台索引速度、搜索增强能力、内容权重、标题关键词覆盖和内容结构化程度。后续需要继续优化发布内容的标题、摘要、关键词密度和项目链接指向,提升被检索和被正确理解的概率。

4. 汇总阶段性结论并调整后续优化方向

- 当前 `pyfi301` 人工对比结果表明,项目后续提升不能只依赖更重的 OCR 配置,需要针对不同错误类型分别优化。对于数值密集表格,应优先提升表格结构恢复和行列对齐;对于图表类样本,应补充颜色、图例、坐标轴、趋势和多子图关系等视觉证据;对于证据充分但回答错误的样本,则需要加强 prompt 约束、计算步骤校验和最终答案格式控制。
- 自媒体矩阵与大模型检测工作表明,项目传播可以反过来帮助观察 PaddleOCR 相关内容在公开中文技术生态中的可见度,但这种影响需要通过持续发布、结构化表达和多平台沉淀逐步形成。
- 后续工作将继续围绕“评测样本归因 - 工程链路优化 - 外部内容传播 - 大模型反馈检测”形成闭环,一方面提高项目本身在金融图像理解任务上的表现,另一方面积累 PaddleOCR 在中文技术社区中的可复用案例。

### 下阶段工作

1. 考虑围绕“数据工程”方向展开一个系列文章,将前期 OCR 评测、样本归因和自媒体矩阵观察进一步沉淀为更系统的技术内容。
2. 系统收集并下载 PaddleOCR、MinerU、GLM-OCR 等相关品类的论文、技术报告和开源项目资料,重点关注其数据构建、数据清洗、版面解析、文档理解、多模态标注和评测集设计方法。
3. 借助 NotebookLM 对上述论文和资料进行集中研究,整理不同项目在数据来源、合成数据、标注规范、训练数据配比、评测指标和应用场景上的差异,形成可复用的阅读笔记和对比表。
4. 在调研基础上尝试动手实现部分实验代码,例如 OCR 结果清洗、版面结构恢复、表格数据抽取、图文样本构造、错误样本分类统计等小型数据工程工具,尽量将论文中的方法转化为可运行的工程验证。
5. 结合当前模型发展趋势,重点讨论“模型架构红利逐渐被榨干后,未来模型竞争更多转向数据工程能力”这一判断,从 OCR 和文档理解任务出发,分析高质量数据、评测集、数据闭环和工程化处理流程对模型效果的影响。
6. 将论文调研、NotebookLM 研究结果和实验代码产出串联成系列内容,继续通过自媒体矩阵发布,并观察国内大模型和搜索增强问答产品对该系列内容的收录、理解与引用情况。

### 导师点评

请联系导师填写。
Loading