菜单

数据集

相关源文件

介绍

本页面提供了 funNLP 存储库中可用数据集的概述,该存储库是自然语言处理 (NLP) 资源的综合集合。数据集分为 LLM 特定数据集和传统 NLP 数据集,涵盖各种领域和应用。有关使用这些数据集的预训练模型的信息,请参阅 预训练语言模型

来源: README.md22-40

数据集类别和组织

funNLP 存储库中的数据集根据其目的和应用领域组织在不同的类别中。主要类别包括 LLM 数据集、传统 NLP 语料库集合以及特定领域的数据集。

数据集分类

来源: README.md326-337 README.md342-395

LLM 数据集

大型语言模型 (LLM) 需要海量且多样化的数据集来进行训练、微调和评估。funNLP 存储库包含各种专为 LLM 开发和研究设计的数据集。

关键 LLM 数据集

数据集名称描述大小目的
UltraChat大规模、信息丰富且多样化的多轮对话数据超过 1.5 亿条指令微调
MMC4包含图像、文档和 token 的多模态数据集58 亿张图像,1000 万个文档,400 亿个 token多模态训练
EleutherAI 数据集用于训练 LLM 的文本语料库800GB预训练
Alpaca 中文数据集手动微调的中文对话数据集-指令微调
CodeGPT-data中文代码对话数据集32K 条编程能力提升
The Botbots Dataset来自 ChatGPT 实例的对话内容-对话模型训练
Ambiguity Dataset用于评估 LLM 消歧能力的数据集1,645 条模型评估
ConvFinQA金融数据问答数据集-领域特定微调

来源: README.md327-336

LLM 数据集处理流程

下图说明了原始数据如何处理成适合 LLM 开发不同阶段的数据集

来源: README.md202-236

传统 NLP 数据集

该存储库包含丰富的传统 NLP 数据集,支持文本分类、命名实体识别、情感分析等各种 NLP 任务。

语料库集合

语料库名称描述大小/特征
中文人名语料库中文人名集合-
Chinese-Word-Vectors各种中文词向量-
中文聊天语料库来自豆瓣、PTT、电视剧对话、论坛、微博等平台的聊天数据-
中文谣言数据集JSON 格式的谣言数据-
微信公众号语料库微信公众号文章3GB,JSON 格式
古今汉语对照语料库古汉语与现代汉语对照语料库包括《论语》、《孟子》、《左传》等
古诗文库中文古诗文集合超过 70 万首诗
对联数据集中文对联数据70 万对

来源: README.md343-366 README.md390-391

特色数据集

数据集名称描述目的
GAOKAO-bench基于中国高考题目评估语言理解和逻辑推理能力
COLDDataset中文冒犯性语言检测数据集检测冒犯性内容
依存句法分析语料库高质量标注的句法数据依存句法分析
多文档摘要数据集用于汇总多个文档的数据文本摘要
中文阅读理解数据集DRCD 和 CMRC 2018 数据集阅读理解任务
中文问答数据集问答对问答系统

来源: README.md371-394

领域特定数据集

该存储库包含针对特定领域量身定制的数据集,可用于开发专业的 NLP 应用程序。

医疗数据集

数据集名称描述大小/特征
中文医疗对话数据医患对话数据-
医疗对话系统数据集医疗咨询和医患对话110 万次咨询,400 万次对话
COVID-19 相关数据COVID 和其他肺炎的中文医疗对话数据集-
医疗 NER 数据集用于医学实体识别的数据包括词典和标注语料库

来源: README.md989-996

数据集名称描述目的
法律文献列表法律情报文献资源研究参考
犯罪知识图谱助手856 个犯罪知识图谱条目,280 万犯罪训练语料库犯罪预测、法律问答
法律 NLP 资源列表法律 NLP 资源的综合集合研发

来源: README.md1000-1006

金融数据集

数据集名称描述目的
BDCI2019 负面金融信息判断金融负面信息判断数据集情感分析
金融投资数据提取工具提取金融投资数据的工具数据采集
金融知识图谱小型证券知识图谱知识表示

来源: README.md976-983

数据集在 NLP 管道中的作用

数据集在从训练到评估和应用的整个 NLP 开发管道中发挥着至关重要的作用。下图说明了数据集如何融入更广泛的 NLP 生态系统

来源: README.md31-39 README.md128-233

基准和评估数据集

存储库中的几个数据集专门用于对 NLP 模型进行基准测试和评估。

基准名称描述任务
C-Eval全面的中文评估套件13,948 道选择题,52 个科目,4 个难度级别
OpenCompass开放评估平台支持 LLM 和多模态模型评估
CLUE中文语言理解评估代表性数据集、基线、语料库、排行榜
中文 NLP 开放任务包含数据集和当前 SOTA 结果的任务各种 NLP 任务

来源: README.md138-139 README.md372-387

访问和使用数据集

funNLP 存储库中的大多数数据集都可以通过指向其各自 GitHub 存储库或其他托管平台的链接来访问。用户可以通过遵循提供的链接并遵守每个数据集的特定许可要求来访问这些数据集。

常用数据集格式

  • 文本文件 (.txt)
  • JSON/JSONL 文件
  • CSV/TSV 文件
  • 专用格式(例如,用于序列标记的 CONLL)
  • Hugging Face 数据集

数据集处理工具

有几种工具可用于处理和准备数据集

工具名称描述目的
CLUEDatasetSearch中文和英文 NLP 数据集搜索工具数据集发现
语音识别语料库生成工具从带有音频/字幕的在线视频创建 ASR 语料库语音数据集创建
TextCluster短文本聚类预处理模块数据准备
OpenData金融投资数据提取工具领域特定数据采集
JD-NLPPDF用于 NLP 数据集的 PDF 信息提取文档处理

来源: README.md374 README.md352 README.md829 README.md980

结论

funNLP 存储库中提供的数据集为各种 NLP 任务提供了全面的基础,尤其是在中文处理和大型语言模型开发方面。通过利用这些多样化的数据集,研究人员和从业人员可以针对不同领域的广泛应用来训练、微调和评估模型。

要在实际应用中处理这些数据集,请参阅 文档问答系统传统 NLP 资源 部分。