字符集管理

字符集管理概述

字符集管理主要围绕 UNICHARSET 类进行，该类维护一组具有其属性的字符。系统支持字符映射、标准化、压缩，并提供从训练数据提取字符集的工具。

来源

UNICHARSET 类

UNICHARSET 类是 Tesseract 字符集管理的基础。它代表一组 Unicode 字符/连字及其属性。

核心功能

UNICHARSET 类提供了以下关键功能

字符存储：将 Unicode 字符串表示映射到唯一的数字 ID（UNICHAR_ID）
属性管理：存储每个字符的属性（isalpha、islower、isupper 等）
脚本识别：将每个字符与其脚本（拉丁文、西里尔文、汉字等）关联起来
字符标准化：存储字符的标准化形式
编码/解码：在字符串和 ID 表示之间进行转换

UNICHARSET 结构

来源

字符集创建和提取

unicharset_extractor 工具从 box 文件或文本文件中创建 UNICHARSET 文件。此过程包括

读取包含字符示例的输入文件
根据指定的模式对字符串进行标准化
提取唯一字符
设置字符属性
将 UNICHARSET 写入文件

标准化模式

提取器支持三种标准化模式

模式	值	描述	推荐用于
合并字素	1	合并字素簇	拉丁文、简单脚本
拆分字素	2	拆分字素簇	印度语、高棉语、缅甸语
纯 Unicode	3	不经修改地使用 Unicode 字符	阿拉伯语、希伯来语、泰语、藏语

提取过程

来源

字符编码和压缩

Tesseract 使用 UnicharCompress 类为 Unicode 字符提供更有效的编码，特别是对于 CJK（中文、日文、韩文）和印度语系。

UnicharCompress 类

编码策略

Tesseract 使用多种策略来压缩字符编码

韩语编码：将韩文字符分解为 Jamo 组件
汉字（CJK）编码：使用部首笔画编码汉字
字素编码：处理组合标记和特殊字符
连字处理：将连字分解为其组成字符

编码过程

来源

Box 文件和字符集输入

Box 文件是字符集创建的基础输入。它们包含字符的边界框及其 Unicode 表示。

Box 文件格式

Box 文件格式如下

<UTF-8 char> <left> <bottom> <right> <top> <page>

例如

a 123 456 140 480 0

这表示字符 'a'，在页面 0 上，坐标为 (left=123, bottom=456, right=140, top=480)。

Box 文件处理

来源

LSTM 训练中的字符集

LSTM 训练系统使用字符集来映射文本和网络的输出。

训练中的字符集作用

网络输出定义：输出层的大小由字符集大小决定
标签编码：使用字符集对训练标签进行编码
识别解码：使用字符集将网络输出解码回文本
重编码：使用 UnicharCompress 进行更高效的编码

与 LSTMTrainer 的集成

LSTM 训练字符数据流

来源

字符集转换和映射

在重新训练模型或更改字符集时，Tesseract 提供映射功能以在不同字符集之间进行转换。

字符集映射过程

代码映射应用

微调模型：将预训练模型适应新字符集
语言转换：在具有重叠脚本的语言之间转换模型
扩展模型：向现有模型添加新字符
脚本适应：使模型能够处理脚本变体

来源

调试和可视化

Tesseract 通过 ScrollView 类提供用于调试和可视化字符集的工具。

可视化功能

字符显示：查看单个字符及其属性
错误可视化：显示真实值和识别结果之间的不匹配
训练可视化：通过字符级细节监控训练进度

用于字符错误分析的 BlamerBundle

来源