本页面提供了 funNLP 存储库中可用数据集的概述,该存储库是自然语言处理 (NLP) 资源的综合集合。数据集分为 LLM 特定数据集和传统 NLP 数据集,涵盖各种领域和应用。有关使用这些数据集的预训练模型的信息,请参阅 预训练语言模型。
来源: README.md22-40
funNLP 存储库中的数据集根据其目的和应用领域组织在不同的类别中。主要类别包括 LLM 数据集、传统 NLP 语料库集合以及特定领域的数据集。
来源: README.md326-337 README.md342-395
大型语言模型 (LLM) 需要海量且多样化的数据集来进行训练、微调和评估。funNLP 存储库包含各种专为 LLM 开发和研究设计的数据集。
| 数据集名称 | 描述 | 大小 | 目的 |
|---|---|---|---|
| UltraChat | 大规模、信息丰富且多样化的多轮对话数据 | 超过 1.5 亿条 | 指令微调 |
| MMC4 | 包含图像、文档和 token 的多模态数据集 | 58 亿张图像,1000 万个文档,400 亿个 token | 多模态训练 |
| EleutherAI 数据集 | 用于训练 LLM 的文本语料库 | 800GB | 预训练 |
| Alpaca 中文数据集 | 手动微调的中文对话数据集 | - | 指令微调 |
| CodeGPT-data | 中文代码对话数据集 | 32K 条 | 编程能力提升 |
| The Botbots Dataset | 来自 ChatGPT 实例的对话内容 | - | 对话模型训练 |
| Ambiguity Dataset | 用于评估 LLM 消歧能力的数据集 | 1,645 条 | 模型评估 |
| ConvFinQA | 金融数据问答数据集 | - | 领域特定微调 |
来源: README.md327-336
下图说明了原始数据如何处理成适合 LLM 开发不同阶段的数据集
来源: README.md202-236
该存储库包含丰富的传统 NLP 数据集,支持文本分类、命名实体识别、情感分析等各种 NLP 任务。
| 语料库名称 | 描述 | 大小/特征 |
|---|---|---|
| 中文人名语料库 | 中文人名集合 | - |
| Chinese-Word-Vectors | 各种中文词向量 | - |
| 中文聊天语料库 | 来自豆瓣、PTT、电视剧对话、论坛、微博等平台的聊天数据 | - |
| 中文谣言数据集 | JSON 格式的谣言数据 | - |
| 微信公众号语料库 | 微信公众号文章 | 3GB,JSON 格式 |
| 古今汉语对照语料库 | 古汉语与现代汉语对照语料库 | 包括《论语》、《孟子》、《左传》等 |
| 古诗文库 | 中文古诗文集合 | 超过 70 万首诗 |
| 对联数据集 | 中文对联数据 | 70 万对 |
来源: README.md343-366 README.md390-391
| 数据集名称 | 描述 | 目的 |
|---|---|---|
| GAOKAO-bench | 基于中国高考题目 | 评估语言理解和逻辑推理能力 |
| COLDDataset | 中文冒犯性语言检测数据集 | 检测冒犯性内容 |
| 依存句法分析语料库 | 高质量标注的句法数据 | 依存句法分析 |
| 多文档摘要数据集 | 用于汇总多个文档的数据 | 文本摘要 |
| 中文阅读理解数据集 | DRCD 和 CMRC 2018 数据集 | 阅读理解任务 |
| 中文问答数据集 | 问答对 | 问答系统 |
来源: README.md371-394
该存储库包含针对特定领域量身定制的数据集,可用于开发专业的 NLP 应用程序。
| 数据集名称 | 描述 | 大小/特征 |
|---|---|---|
| 中文医疗对话数据 | 医患对话数据 | - |
| 医疗对话系统数据集 | 医疗咨询和医患对话 | 110 万次咨询,400 万次对话 |
| COVID-19 相关数据 | COVID 和其他肺炎的中文医疗对话数据集 | - |
| 医疗 NER 数据集 | 用于医学实体识别的数据 | 包括词典和标注语料库 |
来源: README.md989-996
| 数据集名称 | 描述 | 目的 |
|---|---|---|
| 法律文献列表 | 法律情报文献资源 | 研究参考 |
| 犯罪知识图谱助手 | 856 个犯罪知识图谱条目,280 万犯罪训练语料库 | 犯罪预测、法律问答 |
| 法律 NLP 资源列表 | 法律 NLP 资源的综合集合 | 研发 |
| 数据集名称 | 描述 | 目的 |
|---|---|---|
| BDCI2019 负面金融信息判断 | 金融负面信息判断数据集 | 情感分析 |
| 金融投资数据提取工具 | 提取金融投资数据的工具 | 数据采集 |
| 金融知识图谱 | 小型证券知识图谱 | 知识表示 |
来源: README.md976-983
数据集在从训练到评估和应用的整个 NLP 开发管道中发挥着至关重要的作用。下图说明了数据集如何融入更广泛的 NLP 生态系统
来源: README.md31-39 README.md128-233
存储库中的几个数据集专门用于对 NLP 模型进行基准测试和评估。
| 基准名称 | 描述 | 任务 |
|---|---|---|
| C-Eval | 全面的中文评估套件 | 13,948 道选择题,52 个科目,4 个难度级别 |
| OpenCompass | 开放评估平台 | 支持 LLM 和多模态模型评估 |
| CLUE | 中文语言理解评估 | 代表性数据集、基线、语料库、排行榜 |
| 中文 NLP 开放任务 | 包含数据集和当前 SOTA 结果的任务 | 各种 NLP 任务 |
来源: README.md138-139 README.md372-387
funNLP 存储库中的大多数数据集都可以通过指向其各自 GitHub 存储库或其他托管平台的链接来访问。用户可以通过遵循提供的链接并遵守每个数据集的特定许可要求来访问这些数据集。
有几种工具可用于处理和准备数据集
| 工具名称 | 描述 | 目的 |
|---|---|---|
| CLUEDatasetSearch | 中文和英文 NLP 数据集搜索工具 | 数据集发现 |
| 语音识别语料库生成工具 | 从带有音频/字幕的在线视频创建 ASR 语料库 | 语音数据集创建 |
| TextCluster | 短文本聚类预处理模块 | 数据准备 |
| OpenData | 金融投资数据提取工具 | 领域特定数据采集 |
| JD-NLPPDF | 用于 NLP 数据集的 PDF 信息提取 | 文档处理 |
来源: README.md374 README.md352 README.md829 README.md980
funNLP 存储库中提供的数据集为各种 NLP 任务提供了全面的基础,尤其是在中文处理和大型语言模型开发方面。通过利用这些多样化的数据集,研究人员和从业人员可以针对不同领域的广泛应用来训练、微调和评估模型。