本文档介绍了构成 PaddleOCR 3.0 骨干的三种核心处理流水线:用于通用文本识别的 PP-OCRv5、用于文档结构分析的 PP-StructureV3,以及用于智能文档理解的 PP-ChatOCRv4。每种流水线都代表了一种完整的端到端解决方案,适用于不同的 OCR 用例,从简单的文本提取到带有 LLM 集成的复杂文档理解。
有关单个模型架构和训练过程的信息,请参阅模型架构与训练。有关部署选项和推理配置,请参阅部署与推理。
这三个核心流水线在复杂性和功能方面相互叠加,每种流水线都针对不同的文档处理场景。
来源:README.md28-31 docs/index.md19-25
来源:docs/quick_start.md62-78 docs/quick_start.md154-163 README.md167-214
PP-OCRv5 提供通用的文本识别能力,在一个模型中支持五种文本类型(简体中文、繁体中文、中文拼音、英文、日文)以及复杂的书写体。该流水线代表了基础的 OCR 能力,相比 PP-OCRv4 准确率提高了 13%。
来源:docs/quick_start.md62-79 docs/update/update.md12-14
PaddleOCR 类支持各种配置参数来控制流水线行为
| 参数 | 默认 | 描述 |
|---|---|---|
use_doc_orientation_classify | 否 | 启用文档方向分类 |
use_doc_unwarping | 否 | 启用文档图像矫正 |
use_textline_orientation | 否 | 启用文本行方向分类 |
text_detection_model_name | "PP-OCRv5_server_det" | 文本检测模型变体 |
text_recognition_model_name | "PP-OCRv5_server_rec" | 文本识别模型变体 |
limit_side_len | 736 | 用于检测的图像缩放限制 |
来源:docs/quick_start.md62-73 docs/update/update.md12
PP-StructureV3 超越了简单的文本识别,提供了全面的文档结构分析能力,支持多场景的 PDF 解析,具备布局检测、表格识别和公式提取功能。
来源:docs/quick_start.md154-163 docs/quick_start.en.md154-164
PPStructureV3 类提供了对文档分析组件的精细控制
| 设置 | 默认 | 描述 |
|---|---|---|
use_doc_preprocessor | 否 | 启用文档预处理 |
use_seal_recognition | True | 启用印章/图章识别 |
use_table_recognition | True | 启用表格结构识别 |
use_formula_recognition | True | 启用数学公式识别 |
use_chart_recognition | 否 | 启用图表/图形识别 |
use_region_detection | True | 启用布局区域检测 |
来源:docs/quick_start.md154-156 docs/quick_start.en.md154-157
PP-ChatOCRv4 代表了最先进的流水线,它将视觉文档分析与 LLM 功能相结合,实现了智能文档理解、问答和关键信息提取,相比前代产品准确率提高了 15%。
来源:README.md167-214 docs/quick_start.en.md167-233
该流水线集成了多个用于不同处理阶段的配置对象
来源:README.md151-189 docs/quick_start.en.md169-207
这三个流水线共享通用的预处理组件,并且可以组合使用,其中 PP-StructureV3 作为 PP-ChatOCRv4 的视觉处理基础。
来源:docs/update/update.md17 README.md172-177
所有流水线都通过支持多种导出格式的结果对象提供一致的输出方法
| 方法 | 描述 | 支持的流水线 |
|---|---|---|
res.print() | 控制台输出结果 | 所有流水线 |
res.save_to_img() | 可视化标注覆盖 | 所有流水线 |
res.save_to_json() | JSON 格式导出 | 所有流水线 |
res.save_to_markdown() | Markdown 格式导出 | PP-StructureV3 |