菜单

语料库与文本数据

相关源文件

介绍

本文档全面概述了funNLP存储库中可用的语料库和文本数据资源。这些资源构成了各种自然语言处理任务的基础,用作训练、微调和评估NLP模型的原材料。

重点主要放在中文资源上,但也包括多语言和英文语料库。收集范围涵盖了通用文本集合、特定领域语料库、对话数据集以及基准评估数据集。

有关词典和分词工具的信息,请参阅词典和分词

语料库分类

下图展示了funNLP存储库中可用的语料库和文本数据资源的主要类别

来源: README.md340-394

语料库处理流程

下图展示了从原始语料库到NLP应用的典型数据流

来源: README.md397-411 README.md487-497

通用中文语料库

中文词向量

一个全面的中文词向量集合,使用不同的嵌入技术在各种语料库上训练。这些预训练的词向量可以直接用于下游NLP任务。

资源名称描述存储库中的链接
Chinese-Word-Vectors各种中文词向量README.md中的github仓库链接

来源: README.md345

中文人名语料库

一个包含中文人名的语料库,可用于命名实体识别任务和需要准确识别中文姓名的系统。

资源名称描述存储库中的链接
Chinese-Names-Corpus中文人名数据集wainshine/Chinese-Names-Corpus

来源: README.md344

微信公众号语料库

一个包含微信公众号文本的3GB语料库,移除了HTML,纯文本内容。每行包含一篇文章,采用JSON格式,包括微信公众号名称、ID、文章标题和内容。

资源名称描述存储库中的链接
weixin_public_corpus3GB微信公众号文章,JSON格式README.md中的github链接

来源: README.md349

中文NLP语料库集合

多个全面的中文自然语言处理语料库集合,适用于各种NLP任务。

资源名称描述存储库中的链接
ChineseNlpCorpus中文NLP语料库集合SophonPlus/ChineseNlpCorpus
Chinese-NLP-Corpus中文自然语言处理数据集InsaneLife/ChineseNLPCorpus

来源: README.md350 README.md357

专业领域语料库

医疗对话数据

大规模中文医疗对话数据集,包含数百万次医疗咨询和医患对话,对于构建医疗保健对话式AI至关重要。

资源名称描述存储库中的链接
Chinese-medical-dialogue-data中文医疗对话数据集Toyhom/Chinese-medical-dialogue-data
Medical-Dialogue-System110万次医疗咨询,400万次医患对话UCSD-AI4H/Medical-Dialogue-System
COVID-DialogueCOVID-19和其他类型肺炎的对话数据UCSD-AI4H/COVID-Dialogue

来源: README.md608 README.md609 README.md995

金融和法律文本资源的集合,用于领域特定的NLP任务。

资源名称描述存储库中的链接
Financial-Knowledge-Graphs小型金融知识图谱构建jm199504/Financial-Knowledge-Graphs
awesome-financial-nlp金融NLP研究资源icoxfog417/awesome-financial-nlp
awesome-legal-nlp法律NLP资源列表maastrichtlawtech/awesome-legal-nlp

来源: README.md983 README.md980 README.md1006

京东客服对话数据

京东(中国主要电子商务平台)客服对话的42GB数据集,可用于构建客服聊天机器人。

资源名称描述存储库中的链接
JD Customer Service Data42GB客服对话数据jd-aig/nlp_baai

来源: README.md363

多语言语料库

平行文本语料库

用于机器翻译和跨语言NLP研究的平行文本语料库的集合。

资源名称描述存储库中的链接
WikiMatrix85种语言,1,620个语言对,1.35亿个平行句子facebook/LASER
OPUS-100以英语为中心的跨语言语料库(100种语言)EdinburghNLP/opus-100-corpus
Dakshina数据集12种南亚语言的平行数据google-research-datasets/dakshina

来源: README.md358 README.md384 README.md383

对话语料库

中文聊天语料库

一个收集自社交媒体平台、论坛和电视剧对话等多个来源的中文聊天数据。

资源名称描述存储库中的链接
chaotbot_corpus_Chinese多来源中文聊天数据codemayq/chaotbot_corpus_Chinese
qingyun有趣的中文对话语料库Doragd/Chinese-Chatbot-PyTorch-Implementation

来源: README.md346 README.md596

面向任务的对话数据集

专为面向任务的对话系统设计的数据集。

资源名称描述存储库中的链接
Task-Oriented-Dialogue-Dataset-Survey面向任务的对话数据集调查AtmaHou/Task-Oriented-Dialogue-Dataset-Survey
CrossWOZ大规模跨领域中文面向任务的对话数据集README.md中的github链接

来源: README.md351 README.md610

基准和评估数据集

中文语言理解基准

全面评估中文语言理解能力的基准。

资源名称描述存储库中的链接
CLUE中文语言理解评估基准CLUEbenchmark/CLUE
ChineseGLUE中文通用语言理解评估brightmart/ChineseGLUE
C-Eval涵盖52个学科的13,948个选择题SJTU-LIT/ceval
GAOKAO-Bench中国高考基准OpenLMLab/GAOKAO-Bench

来源: README.md372 README.md380 README.md138 README.md393

古代和经典文本语料库

中国诗歌和古典文本收藏

古代中国诗歌和古典文本的收藏。

资源名称描述存储库中的链接
AncientPoetry古代中国诗歌数据库panhaiqi/AncientPoetry
chinese-poetry更全面的古代诗歌收藏chinese-poetry/chinese-poetry
Classical-Modern古典中文-现代中文平行语料库NiuTrans/Classical-Modern

来源: README.md359 README.md360 README.md391

特定任务数据集

中国谣言数据集

用于谣言检测和事实核查系统的数据库。

资源名称描述存储库中的链接
Chinese_Rumor_DatasetJSON格式的中国谣言thunlp/Chinese_Rumor_Dataset

来源: README.md347 README.md373

问答和阅读理解

用于开发和评估问答及阅读理解模型的数据库。

资源名称描述存储库中的链接
Chinese QA Dataset中文问答对README.md中的百度链接
Chinese-RC-Datasets中文阅读理解数据集ymcui/Chinese-RC-Datasets
DRCD & CMRC 2018中文抽取式阅读理解数据集ymcui/Chinese-BERT-wwm

来源: README.md348 README.md385 README.md382

对联和创意文本数据集

用于创意文本生成任务的数据集。

资源名称描述存储库中的链接
couplet-dataset700,000+ 对中国对联wb14123/couplet-dataset

来源: README.md361 README.md365 README.md390

语料库数据应用

下图说明了语料库数据在各种中文 NLP 应用中的使用情况

来源: README.md554-578 README.md580-591 README.md592-623

近期新增资源

大语言模型数据集

专门用于训练和评估大型语言模型的几个数据集。

资源名称描述存储库中的链接
UltraChat大规模、信息丰富、多轮对话数据thunlp/UltraChat
MMC4多模态数据集:58亿张图像,1亿份文档,400亿个词元allenai/mmc4
LLM 的数据集LLM 训练和评估的各种数据集RUCAIBox/LLMSurvey

来源: README.md329-336

专门评估语料库

旨在评估语言模型特定能力的数据库。

资源名称描述存储库中的链接
Ambiguity Dataset1,645个具有不同类型歧义的例子alisawuffles/ambient
ConvFinQA金融数据问答语料库robustfin.github.io
CodeGPT-data32K 中文代码对话数据集zxx000728/CodeGPT

来源: README.md328 README.md333 README.md336

总结

funNLP 存储库提供了一个丰富的语料库和文本数据资源集合,涵盖了中文 NLP 和多语言处理的各个方面。这些资源为开发、训练和评估各种应用中的 NLP 模型奠定了基础。

语料库根据其领域、语言和预期用途的不同分为不同类别,使得查找适合特定 NLP 任务的资源更加容易。从通用中文文本集合到专业的特定领域数据集,从对话语料库到基准评估集,这些资源为中文 NLP 的研究和开发需求提供了全面的覆盖。