菜单

仓库信息

相关源文件

本页面提供有关 DeepSeek-R1 仓库结构、组织、许可详细信息和贡献指南的详细信息。它作为理解代码库如何组织和管理的参考。有关模型本身的更多信息,请参阅 模型架构,有关用法详细信息,请参阅 模型用法

存储库概览

DeepSeek-R1 仓库主要专注于提供对一系列推理专用语言模型的访问,包括文档、评估基准和部署说明。该仓库不包含实际的模型代码实现,而是通过 DeepSeek-V3 仓库引用了基础模型。

存储库结构图

来源: README.md1-29

主要存储库组件

该仓库包含以下主要组件:

组件描述目的
README.md主要文档文件提供模型、用法和基准的全面信息
LICENSEMIT 许可证文件详细说明了存储库和模型的许可条款
.github 目录GitHub 特定文件包含存储库管理的工作流
figures 目录图像资源包含基准可视化和其他图形
DeepSeek_R1.pdf技术论文提供有关模型架构和训练的深入技术细节

来源: README.md1-29

文档组织

主要文档包含在 README.md 文件中,该文件组织成以下部分

  1. 介绍
  2. 模型摘要
  3. 模型下载
  4. 评估结果
  5. 聊天网站和 API 平台
  6. 如何本地运行
  7. 许可证
  8. 引用
  9. 联系方式

此结构为用户提供了全面的指南,以了解、下载和使用 DeepSeek-R1 模型。

来源: README.md31-277

问题管理

该仓库包含一个自动化系统,用于管理 GitHub 问题,以保持项目组织有序且响应迅速。

问题管理工作流图

来源: .github/workflows/stale.yml1-31

陈旧问题管理

该仓库使用 GitHub 的 stale action 来自动管理不活动的 issue

  • issue 在 30 天不活动后会被标记为 stale(过时)
  • stale issue 会收到一条自动评论,通知贡献者
  • issue 在另外 14 天不活动后会被关闭
  • 带有“pinned”或“security”标签的 issue 将免于 stale 流程
  • Pull requests 不受 stale 工作流的影响(配置为 -1 天)

此自动化有助于通过将注意力集中在活动的 issue 上来维护干净的 issue 跟踪器。

来源: .github/workflows/stale.yml12-30

许可信息

DeepSeek-R1 仓库根据 MIT 许可证发布,该许可证提供了在使用、修改和分发方面的宽松权限。

许可证条款图

来源: LICENSE1-21 README.md256-261

许可证详情

MIT 许可证授予以下权限

  • 出于任何目的自由使用该软件
  • 自由修改、分发和销售该软件
  • 允许在私人和商业环境中使用该软件

唯一的要求是在软件的所有副本或实质性部分中包含原始版权声明和许可声明。

该许可证明确指出,该软件“按原样”提供,不提供任何形式的保证,并且作者或版权持有人不对任何索赔、损害或责任负责。

来源: LICENSE1-21

模型特定的许可

虽然仓库本身受 MIT 许可证保护,但一些蒸馏模型有不同的基础许可考虑因素

  1. DeepSeek-R1-Distill-Qwen 模型(1.5B、7B、14B、32B)

    • 源自 Qwen-2.5 系列
    • 原始 Qwen-2.5 模型在 Apache 2.0 许可下授权
    • 使用 DeepSeek-R1 精选的 800k 个样本进行了微调
  2. DeepSeek-R1-Distill-Llama 模型:

    • DeepSeek-R1-Distill-Llama-8B 源自 Llama3.1-8B-Base
    • DeepSeek-R1-Distill-Llama-70B 源自 Llama3.3-70B-Instruct
    • 受 respective Llama3.1 和 Llama3.3 许可证约束

所有模型均支持商业用途,并允许修改和衍生作品,包括用于训练其他 LLM 的蒸馏。

来源: README.md256-261

仓库文件组织

DeepSeek-R1 仓库的结构相对简单,目录很少

来源: README.md1-29

请注意,实际的模型代码和实现不包含在此仓库中。寻求在本地运行 DeepSeek-R1 模型的用户应参考 DeepSeek-V3 仓库以获取实现详细信息。

来源: README.md78-79 README.md166-168