信息抽取(IE)是指从非结构化文本数据中自动抽取结构化信息。本页面介绍了 funNLP 仓库中可用的信息抽取工具和资源,重点关注从文本中抽取实体、关系、事件和其他结构化数据的技术和实现。有关基于抽取信息构建和使用知识图谱,请参阅知识图谱。
信息抽取是原始文本与结构化数据之间的关键桥梁。通过识别和组织非结构化内容中的实体、关系和属性,信息抽取使问答、知识图谱构建和语义搜索等下游应用成为可能。
命名实体识别(NER)涉及识别文本中的命名实体,并将其分类到预定义的类别中,如人名、组织、地点、医疗代码、时间表达式、数量和货币价值。
| 工具/资源 | 描述 | 应用领域 |
|---|---|---|
| BERT-NER-Pytorch | BERT 中文 NER 实验的三种不同模式 | 通用 NER |
| BERT-BiLSTM-CRF-NER | BERT with BiLSTM-CRF 用于中文 NER(TensorFlow) | 通用 NER |
| LSTM-CRF-medical | 支持词典的医疗实体识别 | 医疗保健 |
| Batch_Parallel_LatticeLSTM | Lattice LSTM 用于中文 NER 的批量并行实现 | 通用 NER |
| bert-Kashgari | 基于 Keras 的分类和序列标注包装器 | 通用 NLP |
| cocoNLP | 提取人名、地址、电子邮件、电话号码 | 信息抽取 |
关系抽取识别文本中实体之间的语义关系,从而能够从非结构化内容创建结构化知识库。
来源:README.md489-490 README.md496
| 资源 | 描述 | 技术 |
|---|---|---|
| OpenNRE-PyTorch | 神经关系抽取(英文) | PyTorch |
| Entity-Relation-Extraction | 流程化实体和关系抽取 | TensorFlow, BERT |
| open-entity-relation-extraction | 知识三元组抽取 | 依存句法分析 |
| Distant-Supervised-Chinese-Relation-Extraction | 远距离监督关系抽取 | 中文 NLP |
| baidu/information-extraction | 百度基准信息抽取系统 | 企业级 |
来源:README.md489-490 README.md504-505
关键词抽取识别文档中最重要的短语或术语,这对于文档索引、摘要和内容推荐非常有用。
| 工具 | 描述 | 特性 |
|---|---|---|
| pke | 关键词抽取包 | Python 库 |
| chinese_keyphrase_extractor (CKPE) | 中文关键词抽取工具 | 快速抽取 |
| SIFRank_zh | 基于预训练模型的中文关键词抽取 | 语义嵌入 |
| TextRank4ZH | 中文文本摘要和关键词抽取 | 基于图 |
来源:README.md491-493 README.md498 README.md507-509
专门的抽取工具针对特定信息类型,如时间、日期、地址、联系方式和文档特定数据。
来源:README.md488 README.md502-503 README.md505-506 README.md509-510
| 工具 | 抽取信息 | 特性 |
|---|---|---|
| Time-NLP | 时间表达式 | Java/Python 版本 |
| cocoNLP | 人名、地址、电子邮件、电话号码 | 多类型抽取器 |
| Microsoft Recognizers-Text | 数字、单位、日期/时间 | 多语言支持 |
| chinese-address-segment | 中文地址 | 序列标注 |
| pyresparser | 简历信息 | 文档解析 |
来源:README.md488 README.md502-503 README.md505-510
实体链接通过消除歧义并将实体提及与知识库中的相应条目关联起来,从而在抽取出的实体与知识库之间搭建桥梁。
来源:README.md492
| 工具 | 描述 | 特性 |
|---|---|---|
| BLINK | 最先进的实体链接库 | 消除实体歧义 |
来源:README.md492
信息抽取是不同领域各种 NLP 应用的基础。
来源:README.md495 README.md921-982
抽取的信息是知识图谱构建的基石,支持复杂的推理和问答。
| 任务 | 中文支持 | 英文支持 | 多语言 |
|---|---|---|---|
| 命名实体识别 | 强一致性 | 中等 | 有限 |
| 关系抽取 | 强一致性 | 强一致性 | 有限 |
| 关键词抽取 | 强一致性 | 中等 | 有限 |
| 实体链接 | 中等 | 强一致性 | 有限 |
| 特定信息抽取 | 强一致性 | 中等 | 中等 |
随着大型语言模型和多模态方法的进步,信息抽取领域正快速发展。未来的关键方向包括:
信息抽取仍然是将非结构化文本转换为结构化知识的基础性技术,它支持自然语言处理和知识管理中的众多下游应用。