菜单

信息抽取

相关源文件

信息抽取(IE)是指从非结构化文本数据中自动抽取结构化信息。本页面介绍了 funNLP 仓库中可用的信息抽取工具和资源,重点关注从文本中抽取实体、关系、事件和其他结构化数据的技术和实现。有关基于抽取信息构建和使用知识图谱,请参阅知识图谱

信息抽取概述

信息抽取是原始文本与结构化数据之间的关键桥梁。通过识别和组织非结构化内容中的实体、关系和属性,信息抽取使问答、知识图谱构建和语义搜索等下游应用成为可能。

信息抽取流程

来源:README.md484-513

命名实体识别(NER)

命名实体识别(NER)涉及识别文本中的命名实体,并将其分类到预定义的类别中,如人名、组织、地点、医疗代码、时间表达式、数量和货币价值。

funNLP 中的 NER 架构

来源:README.md488-511

关键 NER 工具和资源

工具/资源描述应用领域
BERT-NER-PytorchBERT 中文 NER 实验的三种不同模式通用 NER
BERT-BiLSTM-CRF-NERBERT with BiLSTM-CRF 用于中文 NER(TensorFlow)通用 NER
LSTM-CRF-medical支持词典的医疗实体识别医疗保健
Batch_Parallel_LatticeLSTMLattice LSTM 用于中文 NER 的批量并行实现通用 NER
bert-Kashgari基于 Keras 的分类和序列标注包装器通用 NLP
cocoNLP提取人名、地址、电子邮件、电话号码信息抽取

来源:README.md488-511

基于 BERT 的 NER 架构

来源:README.md497-501

关系抽取

关系抽取识别文本中实体之间的语义关系,从而能够从非结构化内容创建结构化知识库。

关系抽取过程

来源:README.md489-490 README.md496

关系抽取资源

资源描述技术
OpenNRE-PyTorch神经关系抽取(英文)PyTorch
Entity-Relation-Extraction流程化实体和关系抽取TensorFlow, BERT
open-entity-relation-extraction知识三元组抽取依存句法分析
Distant-Supervised-Chinese-Relation-Extraction远距离监督关系抽取中文 NLP
baidu/information-extraction百度基准信息抽取系统企业级

来源:README.md489-490 README.md504-505

关键词抽取

关键词抽取识别文档中最重要的短语或术语,这对于文档索引、摘要和内容推荐非常有用。

关键词抽取方法

来源:README.md491-493

关键词抽取工具

工具描述特性
pke关键词抽取包Python 库
chinese_keyphrase_extractor (CKPE)中文关键词抽取工具快速抽取
SIFRank_zh基于预训练模型的中文关键词抽取语义嵌入
TextRank4ZH中文文本摘要和关键词抽取基于图

来源:README.md491-493 README.md498 README.md507-509

特定信息抽取

专门的抽取工具针对特定信息类型,如时间、日期、地址、联系方式和文档特定数据。

特定信息抽取类型

来源:README.md488 README.md502-503 README.md505-506 README.md509-510

特定信息抽取关键工具

工具抽取信息特性
Time-NLP时间表达式Java/Python 版本
cocoNLP人名、地址、电子邮件、电话号码多类型抽取器
Microsoft Recognizers-Text数字、单位、日期/时间多语言支持
chinese-address-segment中文地址序列标注
pyresparser简历信息文档解析

来源:README.md488 README.md502-503 README.md505-510

实体链接

实体链接通过消除歧义并将实体提及与知识库中的相应条目关联起来,从而在抽取出的实体与知识库之间搭建桥梁。

实体链接工作流程

来源:README.md492

实体链接工具

工具描述特性
BLINK最先进的实体链接库消除实体歧义

来源:README.md492

信息抽取应用

信息抽取是不同领域各种 NLP 应用的基础。

特定领域应用

来源:README.md495 README.md921-982

与知识图谱集成

抽取的信息是知识图谱构建的基石,支持复杂的推理和问答。

信息抽取到知识图谱的流程

来源:README.md514-552

按语言支持划分的资源

任务中文支持英文支持多语言
命名实体识别强一致性中等有限
关系抽取强一致性强一致性有限
关键词抽取强一致性中等有限
实体链接中等强一致性有限
特定信息抽取强一致性中等中等

来源:README.md486-510

未来方向

随着大型语言模型和多模态方法的进步,信息抽取领域正快速发展。未来的关键方向包括:

  1. 使用大型语言模型的零样本/少样本信息抽取
  2. 跨语言和多语言信息抽取
  3. 来自文本、图像和音频的多模态信息抽取
  4. 针对医学、金融和法律等专业领域的域适应
  5. 需要更少标注数据的自监督方法

来源:README.md12-175

信息抽取仍然是将非结构化文本转换为结构化知识的基础性技术,它支持自然语言处理和知识管理中的众多下游应用。