菜单

词典与分词

相关源文件

目的与范围

本页面介绍了 funNLP 存储库中可用的词典资源和分词工具。这些组件为文本处理提供了基础构建块,并且是许多 NLP 任务中的关键要素。尽管像大型语言模型(如 大型语言模型 (LLMs) 中所述)这样的现代深度学习方法通常会内部处理分词,但传统的 NLP 任务仍然严重依赖显式的词法分析和专门的分词策略,特别是对于中文这样书写系统复杂的语言。

词典和分词简介

词典和分词是自然语言处理流水线中的核心组成部分,尤其对于中文这种词语边界没有空格明确标记的语言来说更是如此。

来源:README.md397-446 该链接展示了词典和分词在传统 NLP 流水线中的位置。

存储库中的词典类型

funNLP 存储库包含各种各样的词典,用于多种目的,从通用语言资源到特定领域的词汇。

通用语言词典

这些词典提供了对汉语言组成部分的广泛覆盖

  • 汉语拆字词典
  • 新华字典,包含成语、常用短语和汉字
  • 中文姓名数据库和提取工具
  • 多音字词典,用于处理具有多种发音的汉字
  • 繁简体中文转换资源

特定领域词典

存储库包含针对不同领域的专用词典

来源:README.md412-414 该链接代表了存储库中可用的多样化词汇资源,特别是强调了清华大学组织的特定领域词典。

专用词典

  • 敏感/脏话词过滤器(中文和英文)
  • 中文停用词
  • 情感价值词典,为词语分配情感极性分数
  • 中文同义词和反义词库
  • 汽车品牌和零部件词汇
  • 刑事法律术语和分类模型

分词工具和方法

由于缺少明确的词语边界,中文分词尤其具有挑战性。存储库提供了多种方法来解决这个问题

中文分词

有几种专门的工具可用于中文分词

  • Jieba:最流行的中文分词库
  • HanLP:一个全面的中文 NLP 工具包,具有先进的分词功能
  • FastJieba:Jieba 的加速版本,适用于高性能应用
  • 用于分词和词性标注的双向 LSTM + CRF 模型
  • 用于中文分词的通用 Transformer + CRF 实现

多语言分词支持

来源:README.md402-409 README.md415-418 README.md433-435 该图显示了存储库如何处理不同语言的分词。

关键分词资源

中文分词工具

存储库包含几种最先进的中文分词工具

  1. Jieba (结巴分词):一个流行的中文分词模块,有多种模式

    • 精确模式:准确但较慢的分词
    • 全模式:返回所有可能的词语组合
    • 搜索引擎模式:针对搜索查询进行了优化
  2. HanLP:中文综合自然语言处理工具包

    • 分词
    • 词性标注
    • 命名实体识别
    • 依存句法分析
  3. 基于神经网络的分词:

    • Bi-LSTM + CRF 实现
    • 基于 Transformer 的模型

字词转换工具

处理字级操作的工具

  1. Python-Pinyin:中文转拼音(语音标注)转换工具
  2. ZHTools:中文繁简转换实用工具
  3. Chinese With English:使用英语模拟中文发音的工具

专用词法分析工具

命名实体识别

该存储库提供了多种中文命名实体识别方法

  • 基于规则的姓名提取(人名抽取功能),适用于现代和古代中文姓名、日本姓名等
  • 用于深度学习 NER 的汉字特征提取器
  • 基于 BERT 和其他预训练模型的 NER 系统

词语相似度和关系

用于确定词语之间语义关系的资源

  • 中文同义词库
  • 中文反义词库
  • 否定词库
  • Sound Shape Code (SSC),用于计算中文汉字字符串的相似度

与现代 NLP 方法的集成

虽然传统词典和分词仍然很重要,但该存储库也包括了与现代方法连接的桥梁

来源:README.md435-443 README.md422-427 该图说明了传统词汇资源如何与现代深度学习方法集成并增强它们。

常见用例

文本预处理

词典和分词工具为文本预处理提供了基础

  1. 文档清理:

    • 使用敏感词过滤器过滤敏感或不当内容
    • 移除停用词以提高处理效率
  2. 文本标准化:

    • 繁简体中文转换
    • 汉字分解,用于处理罕见汉字
  3. 用于分析的分词:

    • 将文本分解为有意义的单元以供进一步处理
    • 针对特定领域(医疗、法律等)的专用分词

增强信息提取

词典支持更准确的关键信息提取

  • 使用专用词典识别命名实体
  • 使用特定领域词典提取领域术语
  • 基于语义词典识别实体之间的关系

可用资源表

以下是存储库中主要词典和分词资源的摘要

资源类型示例描述
通用词典新华字典、汉字分解词典中文汉字和词语的基本语言资源
专业词典医疗、法律、金融、IT特定领域术语集
姓名数据库中文姓名语料库、世界姓名数据库跨语言人名集合
分词工具Jieba、HanLP、FastJieba中文分词工具
汉字转换Python-Pinyin、ZHTools汉字转换和转写工具
文本过滤器敏感词过滤器、停用词用于过滤和清理文本的资源
语义词典同义词库、情感价值词典捕获词语含义和关系的资源

来源:README.md397-444

结论

词典和分词工具为中文及其他语言的文本预处理提供了基础。尽管深度学习方法已显著推进了该领域,但这些基础资源仍然至关重要,特别是对于书写系统复杂的语言。funNLP 存储库提供了全面的词典资源和分词工具,支持传统的 NLP 方法,并增强现代深度学习技术。

本节的资源可以与存储库中的其他组件有效结合,例如信息提取(信息提取)和知识图谱(知识图谱),以构建全面的 NLP 系统。