数据集

介绍

本页面提供了 funNLP 存储库中可用数据集的概述，该存储库是自然语言处理 (NLP) 资源的综合集合。数据集分为 LLM 特定数据集和传统 NLP 数据集，涵盖各种领域和应用。有关使用这些数据集的预训练模型的信息，请参阅预训练语言模型。

来源: README.md22-40

数据集类别和组织

funNLP 存储库中的数据集根据其目的和应用领域组织在不同的类别中。主要类别包括 LLM 数据集、传统 NLP 语料库集合以及特定领域的数据集。

数据集分类

来源: README.md326-337 README.md342-395

LLM 数据集

大型语言模型 (LLM) 需要海量且多样化的数据集来进行训练、微调和评估。funNLP 存储库包含各种专为 LLM 开发和研究设计的数据集。

关键 LLM 数据集

数据集名称	描述	大小	目的
UltraChat	大规模、信息丰富且多样化的多轮对话数据	超过 1.5 亿条	指令微调
MMC4	包含图像、文档和 token 的多模态数据集	58 亿张图像，1000 万个文档，400 亿个 token	多模态训练
EleutherAI 数据集	用于训练 LLM 的文本语料库	800GB	预训练
Alpaca 中文数据集	手动微调的中文对话数据集	-	指令微调
CodeGPT-data	中文代码对话数据集	32K 条	编程能力提升
The Botbots Dataset	来自 ChatGPT 实例的对话内容	-	对话模型训练
Ambiguity Dataset	用于评估 LLM 消歧能力的数据集	1,645 条	模型评估
ConvFinQA	金融数据问答数据集	-	领域特定微调

来源: README.md327-336

LLM 数据集处理流程

下图说明了原始数据如何处理成适合 LLM 开发不同阶段的数据集

来源: README.md202-236

传统 NLP 数据集

该存储库包含丰富的传统 NLP 数据集，支持文本分类、命名实体识别、情感分析等各种 NLP 任务。

语料库集合

语料库名称	描述	大小/特征
中文人名语料库	中文人名集合	-
Chinese-Word-Vectors	各种中文词向量	-
中文聊天语料库	来自豆瓣、PTT、电视剧对话、论坛、微博等平台的聊天数据	-
中文谣言数据集	JSON 格式的谣言数据	-
微信公众号语料库	微信公众号文章	3GB，JSON 格式
古今汉语对照语料库	古汉语与现代汉语对照语料库	包括《论语》、《孟子》、《左传》等
古诗文库	中文古诗文集合	超过 70 万首诗
对联数据集	中文对联数据	70 万对

来源: README.md343-366 README.md390-391

特色数据集

数据集名称	描述	目的
GAOKAO-bench	基于中国高考题目	评估语言理解和逻辑推理能力
COLDDataset	中文冒犯性语言检测数据集	检测冒犯性内容
依存句法分析语料库	高质量标注的句法数据	依存句法分析
多文档摘要数据集	用于汇总多个文档的数据	文本摘要
中文阅读理解数据集	DRCD 和 CMRC 2018 数据集	阅读理解任务
中文问答数据集	问答对	问答系统

来源: README.md371-394

领域特定数据集

该存储库包含针对特定领域量身定制的数据集，可用于开发专业的 NLP 应用程序。

医疗数据集

数据集名称	描述	大小/特征
中文医疗对话数据	医患对话数据	-
医疗对话系统数据集	医疗咨询和医患对话	110 万次咨询，400 万次对话
COVID-19 相关数据	COVID 和其他肺炎的中文医疗对话数据集	-
医疗 NER 数据集	用于医学实体识别的数据	包括词典和标注语料库

来源: README.md989-996

法律数据集

数据集名称	描述	目的
法律文献列表	法律情报文献资源	研究参考
犯罪知识图谱助手	856 个犯罪知识图谱条目，280 万犯罪训练语料库	犯罪预测、法律问答
法律 NLP 资源列表	法律 NLP 资源的综合集合	研发

来源: README.md1000-1006

金融数据集

数据集名称	描述	目的
BDCI2019 负面金融信息判断	金融负面信息判断数据集	情感分析
金融投资数据提取工具	提取金融投资数据的工具	数据采集
金融知识图谱	小型证券知识图谱	知识表示

来源: README.md976-983

数据集在 NLP 管道中的作用

数据集在从训练到评估和应用的整个 NLP 开发管道中发挥着至关重要的作用。下图说明了数据集如何融入更广泛的 NLP 生态系统

来源: README.md31-39 README.md128-233

基准和评估数据集

存储库中的几个数据集专门用于对 NLP 模型进行基准测试和评估。

基准名称	描述	任务
C-Eval	全面的中文评估套件	13,948 道选择题，52 个科目，4 个难度级别
OpenCompass	开放评估平台	支持 LLM 和多模态模型评估
CLUE	中文语言理解评估	代表性数据集、基线、语料库、排行榜
中文 NLP 开放任务	包含数据集和当前 SOTA 结果的任务	各种 NLP 任务

来源: README.md138-139 README.md372-387

访问和使用数据集

funNLP 存储库中的大多数数据集都可以通过指向其各自 GitHub 存储库或其他托管平台的链接来访问。用户可以通过遵循提供的链接并遵守每个数据集的特定许可要求来访问这些数据集。

常用数据集格式

文本文件 (.txt)
JSON/JSONL 文件
CSV/TSV 文件
专用格式（例如，用于序列标记的 CONLL）
Hugging Face 数据集

数据集处理工具

有几种工具可用于处理和准备数据集

工具名称	描述	目的
CLUEDatasetSearch	中文和英文 NLP 数据集搜索工具	数据集发现
语音识别语料库生成工具	从带有音频/字幕的在线视频创建 ASR 语料库	语音数据集创建
TextCluster	短文本聚类预处理模块	数据准备
OpenData	金融投资数据提取工具	领域特定数据采集
JD-NLPPDF	用于 NLP 数据集的 PDF 信息提取	文档处理

来源: README.md374 README.md352 README.md829 README.md980

结论

funNLP 存储库中提供的数据集为各种 NLP 任务提供了全面的基础，尤其是在中文处理和大型语言模型开发方面。通过利用这些多样化的数据集，研究人员和从业人员可以针对不同领域的广泛应用来训练、微调和评估模型。

要在实际应用中处理这些数据集，请参阅文档问答系统和传统 NLP 资源部分。

数据集

介绍