语料库与文本数据

介绍

本文档全面概述了funNLP存储库中可用的语料库和文本数据资源。这些资源构成了各种自然语言处理任务的基础，用作训练、微调和评估NLP模型的原材料。

重点主要放在中文资源上，但也包括多语言和英文语料库。收集范围涵盖了通用文本集合、特定领域语料库、对话数据集以及基准评估数据集。

有关词典和分词工具的信息，请参阅词典和分词。

语料库分类

下图展示了funNLP存储库中可用的语料库和文本数据资源的主要类别

来源： README.md340-394

语料库处理流程

下图展示了从原始语料库到NLP应用的典型数据流

来源： README.md397-411 README.md487-497

通用中文语料库

中文词向量

一个全面的中文词向量集合，使用不同的嵌入技术在各种语料库上训练。这些预训练的词向量可以直接用于下游NLP任务。

资源名称	描述	存储库中的链接
Chinese-Word-Vectors	各种中文词向量	README.md中的github仓库链接

来源： README.md345

中文人名语料库

一个包含中文人名的语料库，可用于命名实体识别任务和需要准确识别中文姓名的系统。

资源名称	描述	存储库中的链接
Chinese-Names-Corpus	中文人名数据集	wainshine/Chinese-Names-Corpus

来源： README.md344

微信公众号语料库

一个包含微信公众号文本的3GB语料库，移除了HTML，纯文本内容。每行包含一篇文章，采用JSON格式，包括微信公众号名称、ID、文章标题和内容。

资源名称	描述	存储库中的链接
weixin_public_corpus	3GB微信公众号文章，JSON格式	README.md中的github链接

来源： README.md349

中文NLP语料库集合

多个全面的中文自然语言处理语料库集合，适用于各种NLP任务。

资源名称	描述	存储库中的链接
ChineseNlpCorpus	中文NLP语料库集合	SophonPlus/ChineseNlpCorpus
Chinese-NLP-Corpus	中文自然语言处理数据集	InsaneLife/ChineseNLPCorpus

来源： README.md350 README.md357

专业领域语料库

医疗对话数据

大规模中文医疗对话数据集，包含数百万次医疗咨询和医患对话，对于构建医疗保健对话式AI至关重要。

资源名称	描述	存储库中的链接
Chinese-medical-dialogue-data	中文医疗对话数据集	Toyhom/Chinese-medical-dialogue-data
Medical-Dialogue-System	110万次医疗咨询，400万次医患对话	UCSD-AI4H/Medical-Dialogue-System
COVID-Dialogue	COVID-19和其他类型肺炎的对话数据	UCSD-AI4H/COVID-Dialogue

来源： README.md608 README.md609 README.md995

金融和法律语料库

金融和法律文本资源的集合，用于领域特定的NLP任务。

资源名称	描述	存储库中的链接
Financial-Knowledge-Graphs	小型金融知识图谱构建	jm199504/Financial-Knowledge-Graphs
awesome-financial-nlp	金融NLP研究资源	icoxfog417/awesome-financial-nlp
awesome-legal-nlp	法律NLP资源列表	maastrichtlawtech/awesome-legal-nlp

来源： README.md983 README.md980 README.md1006

京东客服对话数据

京东（中国主要电子商务平台）客服对话的42GB数据集，可用于构建客服聊天机器人。

资源名称	描述	存储库中的链接
JD Customer Service Data	42GB客服对话数据	jd-aig/nlp_baai

来源： README.md363

多语言语料库

平行文本语料库

用于机器翻译和跨语言NLP研究的平行文本语料库的集合。

资源名称	描述	存储库中的链接
WikiMatrix	85种语言，1,620个语言对，1.35亿个平行句子	facebook/LASER
OPUS-100	以英语为中心的跨语言语料库（100种语言）	EdinburghNLP/opus-100-corpus
Dakshina数据集	12种南亚语言的平行数据	google-research-datasets/dakshina

来源： README.md358 README.md384 README.md383

对话语料库

中文聊天语料库

一个收集自社交媒体平台、论坛和电视剧对话等多个来源的中文聊天数据。

资源名称	描述	存储库中的链接
chaotbot_corpus_Chinese	多来源中文聊天数据	codemayq/chaotbot_corpus_Chinese
qingyun	有趣的中文对话语料库	Doragd/Chinese-Chatbot-PyTorch-Implementation

来源： README.md346 README.md596

面向任务的对话数据集

专为面向任务的对话系统设计的数据集。

资源名称	描述	存储库中的链接
Task-Oriented-Dialogue-Dataset-Survey	面向任务的对话数据集调查	AtmaHou/Task-Oriented-Dialogue-Dataset-Survey
CrossWOZ	大规模跨领域中文面向任务的对话数据集	README.md中的github链接

来源: README.md351 README.md610

基准和评估数据集

中文语言理解基准

全面评估中文语言理解能力的基准。

资源名称	描述	存储库中的链接
CLUE	中文语言理解评估基准	CLUEbenchmark/CLUE
ChineseGLUE	中文通用语言理解评估	brightmart/ChineseGLUE
C-Eval	涵盖52个学科的13,948个选择题	SJTU-LIT/ceval
GAOKAO-Bench	中国高考基准	OpenLMLab/GAOKAO-Bench

来源: README.md372 README.md380 README.md138 README.md393

古代和经典文本语料库

中国诗歌和古典文本收藏

古代中国诗歌和古典文本的收藏。

资源名称	描述	存储库中的链接
AncientPoetry	古代中国诗歌数据库	panhaiqi/AncientPoetry
chinese-poetry	更全面的古代诗歌收藏	chinese-poetry/chinese-poetry
Classical-Modern	古典中文-现代中文平行语料库	NiuTrans/Classical-Modern

来源: README.md359 README.md360 README.md391

特定任务数据集

中国谣言数据集

用于谣言检测和事实核查系统的数据库。

资源名称	描述	存储库中的链接
Chinese_Rumor_Dataset	JSON格式的中国谣言	thunlp/Chinese_Rumor_Dataset

来源: README.md347 README.md373

问答和阅读理解

用于开发和评估问答及阅读理解模型的数据库。

资源名称	描述	存储库中的链接
Chinese QA Dataset	中文问答对	README.md中的百度链接
Chinese-RC-Datasets	中文阅读理解数据集	ymcui/Chinese-RC-Datasets
DRCD & CMRC 2018	中文抽取式阅读理解数据集	ymcui/Chinese-BERT-wwm

来源: README.md348 README.md385 README.md382

对联和创意文本数据集

用于创意文本生成任务的数据集。

资源名称	描述	存储库中的链接
couplet-dataset	700,000+ 对中国对联	wb14123/couplet-dataset

来源: README.md361 README.md365 README.md390

语料库数据应用

下图说明了语料库数据在各种中文 NLP 应用中的使用情况

来源: README.md554-578 README.md580-591 README.md592-623

近期新增资源

大语言模型数据集

专门用于训练和评估大型语言模型的几个数据集。

资源名称	描述	存储库中的链接
UltraChat	大规模、信息丰富、多轮对话数据	thunlp/UltraChat
MMC4	多模态数据集：58亿张图像，1亿份文档，400亿个词元	allenai/mmc4
LLM 的数据集	LLM 训练和评估的各种数据集	RUCAIBox/LLMSurvey

来源: README.md329-336

专门评估语料库

旨在评估语言模型特定能力的数据库。

资源名称	描述	存储库中的链接
Ambiguity Dataset	1,645个具有不同类型歧义的例子	alisawuffles/ambient
ConvFinQA	金融数据问答语料库	robustfin.github.io
CodeGPT-data	32K 中文代码对话数据集	zxx000728/CodeGPT

来源: README.md328 README.md333 README.md336

总结

funNLP 存储库提供了一个丰富的语料库和文本数据资源集合，涵盖了中文 NLP 和多语言处理的各个方面。这些资源为开发、训练和评估各种应用中的 NLP 模型奠定了基础。

语料库根据其领域、语言和预期用途的不同分为不同类别，使得查找适合特定 NLP 任务的资源更加容易。从通用中文文本集合到专业的特定领域数据集，从对话语料库到基准评估集，这些资源为中文 NLP 的研究和开发需求提供了全面的覆盖。