菜单

核心处理管线

相关源文件

本文档介绍了构成 PaddleOCR 3.0 骨干的三种核心处理流水线:用于通用文本识别的 PP-OCRv5、用于文档结构分析的 PP-StructureV3,以及用于智能文档理解的 PP-ChatOCRv4。每种流水线都代表了一种完整的端到端解决方案,适用于不同的 OCR 用例,从简单的文本提取到带有 LLM 集成的复杂文档理解。

有关单个模型架构和训练过程的信息,请参阅模型架构与训练。有关部署选项和推理配置,请参阅部署与推理

管道架构概述

这三个核心流水线在复杂性和功能方面相互叠加,每种流水线都针对不同的文档处理场景。

高级流水线流程

来源:README.md28-31 docs/index.md19-25

代码实体映射

来源:docs/quick_start.md62-78 docs/quick_start.md154-163 README.md167-214

PP-OCRv5 通用文本识别

PP-OCRv5 提供通用的文本识别能力,在一个模型中支持五种文本类型(简体中文、繁体中文、中文拼音、英文、日文)以及复杂的书写体。该流水线代表了基础的 OCR 能力,相比 PP-OCRv4 准确率提高了 13%。

PP-OCRv5 组件架构

来源:docs/quick_start.md62-79 docs/update/update.md12-14

PP-OCRv5 配置选项

PaddleOCR 类支持各种配置参数来控制流水线行为

参数默认描述
use_doc_orientation_classify启用文档方向分类
use_doc_unwarping启用文档图像矫正
use_textline_orientation启用文本行方向分类
text_detection_model_name"PP-OCRv5_server_det"文本检测模型变体
text_recognition_model_name"PP-OCRv5_server_rec"文本识别模型变体
limit_side_len736用于检测的图像缩放限制

来源:docs/quick_start.md62-73 docs/update/update.md12

PP-StructureV3 文档分析

PP-StructureV3 超越了简单的文本识别,提供了全面的文档结构分析能力,支持多场景的 PDF 解析,具备布局检测、表格识别和公式提取功能。

PP-StructureV3 处理流水线

来源:docs/quick_start.md154-163 docs/quick_start.en.md154-164

PP-StructureV3 模型设置

PPStructureV3 类提供了对文档分析组件的精细控制

设置默认描述
use_doc_preprocessor启用文档预处理
use_seal_recognitionTrue启用印章/图章识别
use_table_recognitionTrue启用表格结构识别
use_formula_recognitionTrue启用数学公式识别
use_chart_recognition启用图表/图形识别
use_region_detectionTrue启用布局区域检测

来源:docs/quick_start.md154-156 docs/quick_start.en.md154-157

PP-ChatOCRv4 智能文档理解

PP-ChatOCRv4 代表了最先进的流水线,它将视觉文档分析与 LLM 功能相结合,实现了智能文档理解、问答和关键信息提取,相比前代产品准确率提高了 15%。

PP-ChatOCRv4 架构流程

来源:README.md167-214 docs/quick_start.en.md167-233

PP-ChatOCRv4 配置组件

该流水线集成了多个用于不同处理阶段的配置对象

聊天机器人配置

检索器配置

MLLM 配置

来源:README.md151-189 docs/quick_start.en.md169-207

流水线集成与数据流

这三个流水线共享通用的预处理组件,并且可以组合使用,其中 PP-StructureV3 作为 PP-ChatOCRv4 的视觉处理基础。

通用组件集成

来源:docs/update/update.md17 README.md172-177

输出格式标准化

所有流水线都通过支持多种导出格式的结果对象提供一致的输出方法

方法描述支持的流水线
res.print()控制台输出结果所有流水线
res.save_to_img()可视化标注覆盖所有流水线
res.save_to_json()JSON 格式导出所有流水线
res.save_to_markdown()Markdown 格式导出PP-StructureV3

来源:docs/quick_start.md76-78 docs/quick_start.md161-163