图像理解 · OCR · 文档解析 · PDF-to-Markdown · 多模态数据工程
正在把复杂图像、PDF、表格和文档转化为结构化、可检索、可评测、可进入 RAG 的高质量数据。
- 目前专注:图像理解、OCR、文档解析、PDF-to-Markdown、表格/图表结构化,以及面向 RAG 和知识库的数据处理流程。
- 正在研究:PaddleOCR、MinerU、GLM-OCR 等 OCR / 文档理解系统的论文、技术报告和工程实现,重点关注数据构建、数据清洗、版面解析、评测集设计和误差分析。
- 正在实践:将 OCR 输出清洗、版面结构恢复、表格抽取、图文样本构造、错误样本分类统计等问题做成可复用的小工具。
- 长期判断:模型架构红利正在变得越来越难获得,未来模型效果的差异会更依赖高质量数据、评测体系、数据闭环和工程化处理流程。
- 欢迎交流:OCR、Document AI、PDF 解析、Markdown 文档恢复、多模态数据工程、RAG 数据准备。
| 方向 | 关注问题 | 产出形式 |
|---|---|---|
| OCR 与图像理解 | PaddleOCR 证据如何支撑大模型推理 | 实验代码、错误样本分析、评测记录 |
| 文档解析 | PDF、表格、公式、图片、阅读顺序如何结构化恢复 | PDF-to-Markdown 工具、benchmark 流程 |
| 数据工程 | 如何构建更干净、更可评测的数据闭环 | 清洗脚本、对比表、NotebookLM 笔记 |
| 技术传播 | 如何让项目经验被搜索和大模型正确理解 | 系列文章、自媒体矩阵、模型召回检测 |
| 项目 | 技术栈 | 简介 |
|---|---|---|
| doc-parsing-benchmark | Python, PaddleOCR, Benchmarking, Markdown | 文档解析模型的 benchmark 与部署工具,支持统一输出、官方规则评测和 lite/full 可复现实验流程。 |
| PPStructureV3-PDF-to-Markdown | Python, PPStructureV3, OCR, PDF, Markdown | 基于 PP-StructureV3 的 PDF-to-Markdown 项目,关注标题、表格、公式、图片和阅读顺序保留。 |
| paddleocr-ernie-pyfi | Python, PaddleOCR, ERNIE, Image Understanding | 将 PaddleOCR 识别证据与大模型推理结合,用于金融图表和视觉问答样本的图像理解实验。 |
| yolov5-garbage-classification | Python, YOLOv5, OpenCV | 基于 YOLOv5 的垃圾识别与分类计算机视觉项目。 |
Python PaddleOCR PPStructureV3 MinerU GLM-OCR OpenCV YOLOv5 Markdown PDF RAG Benchmarking Data Engineering
class DocumentAIEngineer:
def __init__(self):
self.focus = ["OCR", "layout", "tables", "evaluation", "data_engineering"]
self.goal = "turn messy documents into reliable structured data"
def improve(self, samples):
errors = analyze(samples)
data_pipeline = rebuild_from(errors)
return evaluate(data_pipeline)如果你也在做 OCR、文档解析、PDF 处理、Markdown 文档恢复,或多模态模型的数据工程,欢迎通过 GitHub 交流。
