本文档全面概述了funNLP存储库中可用的传统自然语言处理(NLP)资源。这些资源包括构成NLP应用(尤其是中文语言处理)基础的基本工具、数据集、算法和库。尽管大型语言模型(LLM)近年来改变了NLP格局,但这些传统资源在特定任务、效率考量以及构建领域专用应用程序方面仍然至关重要。
有关大型语言模型的资源,请参阅大型语言模型(LLM)。
来源: README.md35-38
funNLP存储库将传统NLP资源组织成众多类别,涵盖了从原始数据收集到复杂分析工具的文本处理全流程。这些资源支持广泛的NLP任务,包括分词、实体抽取、情感分析、文本生成等。
来源: README.md37-38
传统NLP资源可以被概念化为一个处理流程,其中每个阶段都建立在先前的阶段之上,以提供日益复杂的功能。
来源: README.md37-38
该存储库包含丰富的文本语料库,它们是NLP研究和应用的基础。
| 语料库类型 | 描述 | 示例 |
|---|---|---|
| 命名实体 | 人名、地名、组织名 | 中文姓名语料库、地点数据集 |
| 语言学 | 多语言语料库、词向量 | 中文词向量 |
| 对话型 | 聊天数据、问答对 | 中文聊天机器人语料库、5.8亿百度知道问答对 |
| 领域特定 | 医疗、金融、法律、诗歌文本 | 中文谣言数据集、古诗数据集 |
| 多语言 | 跨语言平行语料库 | WikiMatrix(85种语言,1620个语言对) |
| 情感/情绪 | 带有情绪标签的文本数据 | 情感词值 |
值得注意的语料库资源包括
来源: README.md340-394
这些资源提供了文本分析的基本构建块,包括词语切分、词性标注和基于词典的分析。
此类别中的关键资源包括
来源: README.md396-444
该存储库包含各种传统预训练语言模型,这些模型早于当前一代的大型语言模型。
| 模型类型 | 描述 | 示例 |
|---|---|---|
| BERT变体 | 中文BERT实现 | BERT中文分类、中文BERT-BiLSTM-CRF-NER |
| 词嵌入 | 词语的向量表示 | 中文词向量 |
| 领域特定模型 | 在特定领域训练的模型 | OpenCLaP(民事文件、刑事文件、百度百科) |
| 任务特定模型 | 为特定任务优化的模型 | 中文阅读理解模型 |
来源: README.md447-483
这些工具能够从非结构化文本中抽取结构化信息,包括实体、关系和事件。
值得关注的信息抽取工具包括
来源: README.md484-511
该存储库包含大量用于构建、查询和利用各领域知识图谱的工具和数据集。
| 知识图谱类型 | 描述 | 示例 |
|---|---|---|
| 开放域 | 通用知识图谱 | XLORE中文-英文跨语言百科全书知识图谱 |
| 领域特定 | 领域聚焦知识图谱 | 医疗问答系统知识图谱、法律知识图谱、军事知识图谱 |
| 人物关系 | 社交网络图 | 中文人物关系知识图谱 |
| 媒体类 | 娱乐知识图谱 | 《海贼王》动漫/漫画知识图谱 |
| 商业类 | 产品和服务知识图谱 | 京东产品知识图谱 |
| 基于事件 | 事件与因果图 | 事件三元组抽取 |
| 抽象 | 概念知识图谱 | 抽象知识图谱(50万实体) |
关键知识图谱资源包括
来源: README.md515-552
该存储库包含各种文本生成工具,从基于模板到神经方法
来源: README.md554-577
用于自动生成长文本简洁摘要的工具
来源: README.md579-589
用于根据知识库或文本构建能够回答问题的系统的资源
来源: README.md591-623
用于检测和纠正文本错误的工具
来源: README.md625-637
用于处理文档和从中提取结构化信息的工具
来源: README.md679-718
传统NLP资源可以集成以创建全面的文本处理流程。下图说明了不同组件如何协同处理中文文本数据
来源: README.md396-637
该存储库包含几个集成了多种功能的综合性NLP工具包
| 工具 | 描述 | 主要功能 |
|---|---|---|
| jieba | 中文分词工具 | 分词、关键词提取、词性标注 |
| HanLP | 基于Java的中文NLP工具包 | 分词、命名实体识别、解析、分类 |
| nlp4han | 中文NLP工具包 | 句子切分、分词、词性标注、词组切分、解析、命名实体识别 |
| StanfordNLP | 纯Python NLP包 | 多语言支持,完整的NLP流程 |
| Texthero | 高效文本处理包 | 预处理、关键词提取、命名实体识别、向量空间分析、可视化 |
| JioNLP | 综合中文NLP工具包 | 多种文本处理功能 |
| Macadam | 基于TensorFlow/Keras的NLP工具包 | 文本分类、序列标注、关系抽取 |
来源: README.md891-917
存储库中的传统NLP资源也按行业应用进行了组织
来源: README.md975-983
来源: README.md985-996
funNLP 存储库中的传统 NLP 资源提供了一个用于处理、分析和生成中文文本的综合工具包。虽然大型语言模型已经改变了许多 NLP 应用,但这些传统资源在特定任务、效率考虑和构建专业系统方面仍然很有价值。这些资源的模块化特性使开发人员能够以灵活的方式将它们组合起来,以创建定制的 NLP 管道,满足特定的需求。