菜单

传统 NLP 资源

相关源文件

目的与范围

本文档全面概述了funNLP存储库中可用的传统自然语言处理(NLP)资源。这些资源包括构成NLP应用(尤其是中文语言处理)基础的基本工具、数据集、算法和库。尽管大型语言模型(LLM)近年来改变了NLP格局,但这些传统资源在特定任务、效率考量以及构建领域专用应用程序方面仍然至关重要。

有关大型语言模型的资源,请参阅大型语言模型(LLM)

来源: README.md35-38

传统NLP资源概述

funNLP存储库将传统NLP资源组织成众多类别,涵盖了从原始数据收集到复杂分析工具的文本处理全流程。这些资源支持广泛的NLP任务,包括分词、实体抽取、情感分析、文本生成等。

来源: README.md37-38

核心资源类别

传统NLP资源可以被概念化为一个处理流程,其中每个阶段都建立在先前的阶段之上,以提供日益复杂的功能。

来源: README.md37-38

语料库和文本数据资源

该存储库包含丰富的文本语料库,它们是NLP研究和应用的基础。

语料库类型描述示例
命名实体人名、地名、组织名中文姓名语料库、地点数据集
语言学多语言语料库、词向量中文词向量
对话型聊天数据、问答对中文聊天机器人语料库、5.8亿百度知道问答对
领域特定医疗、金融、法律、诗歌文本中文谣言数据集、古诗数据集
多语言跨语言平行语料库WikiMatrix(85种语言,1620个语言对)
情感/情绪带有情绪标签的文本数据情感词值

值得注意的语料库资源包括

  • 中文聊天语料库,包含来自豆瓣、PTT八卦、电视剧对话和论坛回复的多来源数据
  • 中文谣言数据集,包含JSON格式的谣言数据
  • 微信公众号语料库,包含3GB的爬取自网络文章的文本
  • 1400万对对联(平行诗句)
  • 面向医疗、金融和法律的领域特定语料库
  • THCHS30中文语音数据集(来自清华大学)

来源: README.md340-394

词典和分词工具

这些资源提供了文本分析的基本构建块,包括词语切分、词性标注和基于词典的分析。

此类别中的关键资源包括

  • 中文-英文敏感词过滤器:用于检测和过滤敏感内容的工具
  • 姓名抽取工具:用于抽取中文(现代、古代)、日文姓名、称谓以及英文转中文姓名翻译
  • 中文缩写词数据集:用于处理缩写形式(例如,“全国人大”代表“全国人民代表大会”)
  • 汉字分解词典:将汉字分解成组成部分
  • 词语情感价值词典:为词语分配情感分数
  • 拼音转换工具:将汉字转换为语音表示
  • 繁简体中文转换工具:用于跨脚本文本处理
  • 专业词典:包括IT术语、金融术语、成语、地名、历史人物、医学术语、食品术语、法律术语、汽车术语和动物术语

来源: README.md396-444

预训练语言模型

该存储库包含各种传统预训练语言模型,这些模型早于当前一代的大型语言模型。

模型类型描述示例
BERT变体中文BERT实现BERT中文分类、中文BERT-BiLSTM-CRF-NER
词嵌入词语的向量表示中文词向量
领域特定模型在特定领域训练的模型OpenCLaP(民事文件、刑事文件、百度百科)
任务特定模型为特定任务优化的模型中文阅读理解模型

来源: README.md447-483

信息抽取工具

这些工具能够从非结构化文本中抽取结构化信息,包括实体、关系和事件。

值得关注的信息抽取工具包括

  • 时间抽取工具:识别和规范化中文文本中的时间表达式
  • 神经关系抽取:用于关系抽取的PyTorch实现
  • 基于BERT的NER:使用BERT或BERT-BiLSTM-CRF架构进行实体识别
  • 关键词抽取包:用于从文本中抽取重要短语
  • 医学实体识别模型:面向医疗领域的特定实体抽取
  • 地址解析器:用于抽取和结构化中文地址组件
  • 简历解析器:从简历中抽取关键信息
  • 三元组抽取:抽取实体-关系-实体三元组以构建知识图谱

来源: README.md484-511

知识图谱资源

该存储库包含大量用于构建、查询和利用各领域知识图谱的工具和数据集。

知识图谱类型描述示例
开放域通用知识图谱XLORE中文-英文跨语言百科全书知识图谱
领域特定领域聚焦知识图谱医疗问答系统知识图谱、法律知识图谱、军事知识图谱
人物关系社交网络图中文人物关系知识图谱
媒体类娱乐知识图谱《海贼王》动漫/漫画知识图谱
商业类产品和服务知识图谱京东产品知识图谱
基于事件事件与因果图事件三元组抽取
抽象概念知识图谱抽象知识图谱(50万实体)

关键知识图谱资源包括

  • XLORE中文-英文跨语言百科全书知识图谱:整合了百度百科、中文维基百科和英文维基百科
  • 文档图生成工具:自动生成文档知识图谱
  • 医疗领域问答系统:基于医疗知识图谱
  • 中文人物关系知识图谱:中文历史/虚构人物之间的关系
  • AmpliGraph:用于知识图谱表示学习的Python库
  • 领域特定知识图谱:面向军事装备、证券/股票、医疗和电子商务
  • 因果关系图:用于因果事件抽取和推理
  • 大规模中文知识图谱数据:包含14亿实体

来源: README.md515-552

其他传统NLP组件

文本生成

该存储库包含各种文本生成工具,从基于模板到神经方法

  • Texar:文本生成及其他工具包
  • 文本生成控制模型:用于受控文本生成
  • 自动对联生成:生成传统中文诗歌对联的模型
  • 评论生成系统:根据文章标题生成评论
  • 自然语言生成SQL:英文到SQL的生成工具
  • SimBERT:整合检索和生成的BERT模型
  • 基于GPT-2的文本增强:用于特定主题文本生成

来源: README.md554-577

文本摘要

用于自动生成长文本简洁摘要的工具

  • 中文文本摘要:抽取式摘要和关键词提取
  • 简历自动摘要:基于命名实体识别
  • TextTeaser:文本自动摘要库(仅限英文)
  • 基于BERT的抽取式摘要:使用最新的语言模型
  • 全面文本摘要指南:使用深度学习进行文本摘要

来源: README.md579-589

问答系统

用于根据知识库或文本构建能够回答问题的系统的资源

  • 中文聊天机器人:可根据自定义数据集进行训练,用于智能客服、问答等
  • 任务型对话系统:用于完成特定任务
  • ConvLab:开源的多领域端到端对话系统平台
  • 金融法律领域聊天机器人:领域特定的对话代理
  • 医学对话系统:包含110万份医疗咨询和400万份医患对话
  • 基于歌曲的问答聊天机器人:基于14万首歌曲的知识库

来源: README.md591-623

文本纠错

用于检测和纠正文本错误的工具

  • 中文文本错误检测:中文文本纠错的模块
  • 英文拼写检查库:PySpellChecker
  • GitHub Typo Corpus:大规模多语言拼写/语法错误数据集
  • BertPunc:基于BERT的标点恢复模型
  • 中文写作校对工具:用于自动文本审查和纠错

来源: README.md625-637

文档和表格处理

用于处理文档和从中提取结构化信息的工具

  • PyLaia:用于手写文档分析的深度学习工具包
  • 文档搜索引擎:免费文档搜索工具
  • PDF信息抽取:用于自动抽取PDF内容的工具
  • 表格检测与重建:使用unet进行文档表格检测
  • PDF表格解析工具:将PDF表格转换为pandas数据帧
  • 表格问答:在表格数据中查找答案

来源: README.md679-718

传统NLP组件的集成

传统NLP资源可以集成以创建全面的文本处理流程。下图说明了不同组件如何协同处理中文文本数据

来源: README.md396-637

综合工具和库

该存储库包含几个集成了多种功能的综合性NLP工具包

工具描述主要功能
jieba中文分词工具分词、关键词提取、词性标注
HanLP基于Java的中文NLP工具包分词、命名实体识别、解析、分类
nlp4han中文NLP工具包句子切分、分词、词性标注、词组切分、解析、命名实体识别
StanfordNLP纯Python NLP包多语言支持,完整的NLP流程
Texthero高效文本处理包预处理、关键词提取、命名实体识别、向量空间分析、可视化
JioNLP综合中文NLP工具包多种文本处理功能
Macadam基于TensorFlow/Keras的NLP工具包文本分类、序列标注、关系抽取

来源: README.md891-917

行业特定应用

存储库中的传统NLP资源也按行业应用进行了组织

金融NLP

  • 金融负面信息检测:BDCI2019竞赛解决方案
  • 金融投资数据抽取工具:面向投资的开源数据抽取
  • 金融领域聊天机器人:基于金融文本处理
  • 小型金融知识图谱:金融知识图谱构建流程演示

来源: README.md975-983

医学NLP

  • 中文医学NLP公共资源:综合性集合
  • 使用spaCy进行医学文本挖掘:从医学文本中抽取信息
  • 医学实体识别模型:包括词典和语料库标注
  • 医学知识图谱问答系统:基于医学知识图谱的问答
  • 中文医学对话数据集:用于训练医学对话系统
  • COVID-19相关数据:关于COVID-19和其他肺炎类型的中文医学对话

来源: README.md985-996

  • Blackstone:用于非结构化法律文本的spaCy管道和NLP模型
  • 法律情报文献资源:综合列表
  • 法律领域聊天机器人:用于法律咨询的对话代理
  • 犯罪知识图谱助手:包括856个条目的犯罪知识图谱,基于280万犯罪记录的犯罪预测,基于20万法律问答对的法律问答

来源: README.md998-1006

结论

funNLP 存储库中的传统 NLP 资源提供了一个用于处理、分析和生成中文文本的综合工具包。虽然大型语言模型已经改变了许多 NLP 应用,但这些传统资源在特定任务、效率考虑和构建专业系统方面仍然很有价值。这些资源的模块化特性使开发人员能够以灵活的方式将它们组合起来,以创建定制的 NLP 管道,满足特定的需求。