本文档全面概述了funNLP存储库中可用的语料库和文本数据资源。这些资源构成了各种自然语言处理任务的基础,用作训练、微调和评估NLP模型的原材料。
重点主要放在中文资源上,但也包括多语言和英文语料库。收集范围涵盖了通用文本集合、特定领域语料库、对话数据集以及基准评估数据集。
有关词典和分词工具的信息,请参阅词典和分词。
下图展示了funNLP存储库中可用的语料库和文本数据资源的主要类别
来源: README.md340-394
下图展示了从原始语料库到NLP应用的典型数据流
来源: README.md397-411 README.md487-497
一个全面的中文词向量集合,使用不同的嵌入技术在各种语料库上训练。这些预训练的词向量可以直接用于下游NLP任务。
| 资源名称 | 描述 | 存储库中的链接 |
|---|---|---|
| Chinese-Word-Vectors | 各种中文词向量 | README.md中的github仓库链接 |
来源: README.md345
一个包含中文人名的语料库,可用于命名实体识别任务和需要准确识别中文姓名的系统。
| 资源名称 | 描述 | 存储库中的链接 |
|---|---|---|
| Chinese-Names-Corpus | 中文人名数据集 | wainshine/Chinese-Names-Corpus |
来源: README.md344
一个包含微信公众号文本的3GB语料库,移除了HTML,纯文本内容。每行包含一篇文章,采用JSON格式,包括微信公众号名称、ID、文章标题和内容。
| 资源名称 | 描述 | 存储库中的链接 |
|---|---|---|
| weixin_public_corpus | 3GB微信公众号文章,JSON格式 | README.md中的github链接 |
来源: README.md349
多个全面的中文自然语言处理语料库集合,适用于各种NLP任务。
| 资源名称 | 描述 | 存储库中的链接 |
|---|---|---|
| ChineseNlpCorpus | 中文NLP语料库集合 | SophonPlus/ChineseNlpCorpus |
| Chinese-NLP-Corpus | 中文自然语言处理数据集 | InsaneLife/ChineseNLPCorpus |
大规模中文医疗对话数据集,包含数百万次医疗咨询和医患对话,对于构建医疗保健对话式AI至关重要。
| 资源名称 | 描述 | 存储库中的链接 |
|---|---|---|
| Chinese-medical-dialogue-data | 中文医疗对话数据集 | Toyhom/Chinese-medical-dialogue-data |
| Medical-Dialogue-System | 110万次医疗咨询,400万次医患对话 | UCSD-AI4H/Medical-Dialogue-System |
| COVID-Dialogue | COVID-19和其他类型肺炎的对话数据 | UCSD-AI4H/COVID-Dialogue |
来源: README.md608 README.md609 README.md995
金融和法律文本资源的集合,用于领域特定的NLP任务。
| 资源名称 | 描述 | 存储库中的链接 |
|---|---|---|
| Financial-Knowledge-Graphs | 小型金融知识图谱构建 | jm199504/Financial-Knowledge-Graphs |
| awesome-financial-nlp | 金融NLP研究资源 | icoxfog417/awesome-financial-nlp |
| awesome-legal-nlp | 法律NLP资源列表 | maastrichtlawtech/awesome-legal-nlp |
来源: README.md983 README.md980 README.md1006
京东(中国主要电子商务平台)客服对话的42GB数据集,可用于构建客服聊天机器人。
| 资源名称 | 描述 | 存储库中的链接 |
|---|---|---|
| JD Customer Service Data | 42GB客服对话数据 | jd-aig/nlp_baai |
来源: README.md363
用于机器翻译和跨语言NLP研究的平行文本语料库的集合。
| 资源名称 | 描述 | 存储库中的链接 |
|---|---|---|
| WikiMatrix | 85种语言,1,620个语言对,1.35亿个平行句子 | facebook/LASER |
| OPUS-100 | 以英语为中心的跨语言语料库(100种语言) | EdinburghNLP/opus-100-corpus |
| Dakshina数据集 | 12种南亚语言的平行数据 | google-research-datasets/dakshina |
来源: README.md358 README.md384 README.md383
一个收集自社交媒体平台、论坛和电视剧对话等多个来源的中文聊天数据。
| 资源名称 | 描述 | 存储库中的链接 |
|---|---|---|
| chaotbot_corpus_Chinese | 多来源中文聊天数据 | codemayq/chaotbot_corpus_Chinese |
| qingyun | 有趣的中文对话语料库 | Doragd/Chinese-Chatbot-PyTorch-Implementation |
专为面向任务的对话系统设计的数据集。
| 资源名称 | 描述 | 存储库中的链接 |
|---|---|---|
| Task-Oriented-Dialogue-Dataset-Survey | 面向任务的对话数据集调查 | AtmaHou/Task-Oriented-Dialogue-Dataset-Survey |
| CrossWOZ | 大规模跨领域中文面向任务的对话数据集 | README.md中的github链接 |
全面评估中文语言理解能力的基准。
| 资源名称 | 描述 | 存储库中的链接 |
|---|---|---|
| CLUE | 中文语言理解评估基准 | CLUEbenchmark/CLUE |
| ChineseGLUE | 中文通用语言理解评估 | brightmart/ChineseGLUE |
| C-Eval | 涵盖52个学科的13,948个选择题 | SJTU-LIT/ceval |
| GAOKAO-Bench | 中国高考基准 | OpenLMLab/GAOKAO-Bench |
来源: README.md372 README.md380 README.md138 README.md393
古代中国诗歌和古典文本的收藏。
| 资源名称 | 描述 | 存储库中的链接 |
|---|---|---|
| AncientPoetry | 古代中国诗歌数据库 | panhaiqi/AncientPoetry |
| chinese-poetry | 更全面的古代诗歌收藏 | chinese-poetry/chinese-poetry |
| Classical-Modern | 古典中文-现代中文平行语料库 | NiuTrans/Classical-Modern |
来源: README.md359 README.md360 README.md391
用于谣言检测和事实核查系统的数据库。
| 资源名称 | 描述 | 存储库中的链接 |
|---|---|---|
| Chinese_Rumor_Dataset | JSON格式的中国谣言 | thunlp/Chinese_Rumor_Dataset |
用于开发和评估问答及阅读理解模型的数据库。
| 资源名称 | 描述 | 存储库中的链接 |
|---|---|---|
| Chinese QA Dataset | 中文问答对 | README.md中的百度链接 |
| Chinese-RC-Datasets | 中文阅读理解数据集 | ymcui/Chinese-RC-Datasets |
| DRCD & CMRC 2018 | 中文抽取式阅读理解数据集 | ymcui/Chinese-BERT-wwm |
来源: README.md348 README.md385 README.md382
用于创意文本生成任务的数据集。
| 资源名称 | 描述 | 存储库中的链接 |
|---|---|---|
| couplet-dataset | 700,000+ 对中国对联 | wb14123/couplet-dataset |
来源: README.md361 README.md365 README.md390
下图说明了语料库数据在各种中文 NLP 应用中的使用情况
来源: README.md554-578 README.md580-591 README.md592-623
专门用于训练和评估大型语言模型的几个数据集。
| 资源名称 | 描述 | 存储库中的链接 |
|---|---|---|
| UltraChat | 大规模、信息丰富、多轮对话数据 | thunlp/UltraChat |
| MMC4 | 多模态数据集:58亿张图像,1亿份文档,400亿个词元 | allenai/mmc4 |
| LLM 的数据集 | LLM 训练和评估的各种数据集 | RUCAIBox/LLMSurvey |
来源: README.md329-336
旨在评估语言模型特定能力的数据库。
| 资源名称 | 描述 | 存储库中的链接 |
|---|---|---|
| Ambiguity Dataset | 1,645个具有不同类型歧义的例子 | alisawuffles/ambient |
| ConvFinQA | 金融数据问答语料库 | robustfin.github.io |
| CodeGPT-data | 32K 中文代码对话数据集 | zxx000728/CodeGPT |
来源: README.md328 README.md333 README.md336
funNLP 存储库提供了一个丰富的语料库和文本数据资源集合,涵盖了中文 NLP 和多语言处理的各个方面。这些资源为开发、训练和评估各种应用中的 NLP 模型奠定了基础。
语料库根据其领域、语言和预期用途的不同分为不同类别,使得查找适合特定 NLP 任务的资源更加容易。从通用中文文本集合到专业的特定领域数据集,从对话语料库到基准评估集,这些资源为中文 NLP 的研究和开发需求提供了全面的覆盖。