Skip to content
View PrayerQX's full-sized avatar
  • China

Block or report PrayerQX

Block user

Prevent this user from interacting with your repositories and sending you notifications. Learn more about blocking users.

You must be logged in to block users.

Maximum 250 characters. Please don’t include any personal information such as legal names or email addresses. Markdown is supported. This note will only be visible to you.
Report abuse

Contact GitHub support about this user’s behavior. Learn more about reporting abuse.

Report abuse
PrayerQX/README.md
PrayerQX banner

PrayerQX

Typing SVG

图像理解 · OCR · 文档解析 · PDF-to-Markdown · 多模态数据工程

正在把复杂图像、PDF、表格和文档转化为结构化、可检索、可评测、可进入 RAG 的高质量数据。

Python PaddleOCR MinerU GLM-OCR Document AI RAG Data Engineering

关于我

  • 目前专注:图像理解、OCR、文档解析、PDF-to-Markdown、表格/图表结构化,以及面向 RAG 和知识库的数据处理流程。
  • 正在研究:PaddleOCR、MinerU、GLM-OCR 等 OCR / 文档理解系统的论文、技术报告和工程实现,重点关注数据构建、数据清洗、版面解析、评测集设计和误差分析。
  • 正在实践:将 OCR 输出清洗、版面结构恢复、表格抽取、图文样本构造、错误样本分类统计等问题做成可复用的小工具。
  • 长期判断:模型架构红利正在变得越来越难获得,未来模型效果的差异会更依赖高质量数据、评测体系、数据闭环和工程化处理流程。
  • 欢迎交流:OCR、Document AI、PDF 解析、Markdown 文档恢复、多模态数据工程、RAG 数据准备。

当前方向

方向 关注问题 产出形式
OCR 与图像理解 PaddleOCR 证据如何支撑大模型推理 实验代码、错误样本分析、评测记录
文档解析 PDF、表格、公式、图片、阅读顺序如何结构化恢复 PDF-to-Markdown 工具、benchmark 流程
数据工程 如何构建更干净、更可评测的数据闭环 清洗脚本、对比表、NotebookLM 笔记
技术传播 如何让项目经验被搜索和大模型正确理解 系列文章、自媒体矩阵、模型召回检测

核心项目

项目 技术栈 简介
doc-parsing-benchmark Python, PaddleOCR, Benchmarking, Markdown 文档解析模型的 benchmark 与部署工具,支持统一输出、官方规则评测和 lite/full 可复现实验流程。
PPStructureV3-PDF-to-Markdown Python, PPStructureV3, OCR, PDF, Markdown 基于 PP-StructureV3 的 PDF-to-Markdown 项目,关注标题、表格、公式、图片和阅读顺序保留。
paddleocr-ernie-pyfi Python, PaddleOCR, ERNIE, Image Understanding 将 PaddleOCR 识别证据与大模型推理结合,用于金融图表和视觉问答样本的图像理解实验。
yolov5-garbage-classification Python, YOLOv5, OpenCV 基于 YOLOv5 的垃圾识别与分类计算机视觉项目。

技术栈

Python PaddleOCR PPStructureV3 MinerU GLM-OCR OpenCV YOLOv5 Markdown PDF RAG Benchmarking Data Engineering

GitHub 数据

GitHub streak

我的工程信条

class DocumentAIEngineer:
    def __init__(self):
        self.focus = ["OCR", "layout", "tables", "evaluation", "data_engineering"]
        self.goal = "turn messy documents into reliable structured data"

    def improve(self, samples):
        errors = analyze(samples)
        data_pipeline = rebuild_from(errors)
        return evaluate(data_pipeline)

联系

如果你也在做 OCR、文档解析、PDF 处理、Markdown 文档恢复,或多模态模型的数据工程,欢迎通过 GitHub 交流。

Popular repositories Loading

  1. pyfi-paddleocrvl-eval pyfi-paddleocrvl-eval Public

    Python 2 1

  2. yolov5-garbage-classification yolov5-garbage-classification Public

    用于识别垃圾,进行分类

    Python

  3. PPStructureV3-PDF-to-Markdown PPStructureV3-PDF-to-Markdown Public

    一个基于 PPStructureV3 的 PDF 转 Markdown 项目,重点解决复杂文档中的标题层级丢失、表格结构破坏、公式识别不稳、图片与图表信息缺失、以及阅读顺序错乱等问题,输出更适合检索、RAG、知识库构建和二次处理的结构化 Markdown。

    Python

  4. PrayerQX PrayerQX Public

  5. claude-code-open claude-code-open Public

    Forked from Aidenwu0209/claude-code-open

    Unified Claude Code workspace with an optional local launcher

    TypeScript

  6. cc1.0-skill1.0 cc1.0-skill1.0 Public

    Python