本文档提供了llama.cpp的全面安装和使用介绍,涵盖了必备的安装方法、基本使用模式以及运行大型语言模型所需的初始设置。
有关包含特定平台配置的详细安装步骤,请参阅安装。有关全面的使用示例和命令行选项,请参阅基本用法。
llama.cpp提供了多种安装路径和使用模式,以适应不同的用户需求和技术背景。该系统由几个关键组件组成,协同工作以实现本地LLM推理。
该项目支持四种主要的安装方法,每种方法都有不同的复杂度和定制级别。
来源: README.md34-41 docs/install.md docs/docker.md docs/build.md
llama.cpp生态系统为不同的用例提供了几个重要的二进制文件。
| 组件 | 目的 | 主要功能 |
|---|---|---|
llama-cli | 交互式CLI | 文本补全和聊天 |
llama-server | HTTP API服务器 | 与OpenAI兼容的REST API |
llama-quantize | 模型优化 | 减小模型大小 |
llama-bench | 性能测试 | 基准测试推理速度 |
convert_hf_to_gguf.py | 模型转换 | 转换HuggingFace模型 |
来源: README.md303-514 tools/main tools/server tools/quantize
典型的首次用户工作流程包括三个主要阶段:安装、模型获取和初始使用。
来源: README.md44-54 README.md275-302 convert_hf_to_gguf.py
开始使用llama.cpp最简单的方法是使用llama-cli二进制文件进行文本补全。
来源: README.md44-54
对于会话交互,大多数模型会自动启用聊天模式。
来源: README.md310-334
将llama.cpp暴露为与OpenAI兼容的API
来源: README.md366-433
对于从源代码构建的用户,该项目使用CMake作为主要的构建系统,并提供广泛的配置选项。
来源: CMakeLists.txt1-30 .github/workflows/build.yml46-62
llama.cpp主要使用GGUF格式进行优化推理,但也提供了转换流行模型来源的工具。
| 源格式 | 转换工具 | 目标格式 |
|---|---|---|
| HuggingFace (safetensors/pytorch) | convert_hf_to_gguf.py | GGUF |
| 旧版GGML | convert-llama-ggmlv3-to-gguf.py | GGUF |
| Llama2.c | llama-convert-llama2c-to-ggml | GGUF |
来源: README.md292-301 convert_hf_to_gguf.py
最简单的方法是使用内置的HuggingFace集成。
来源: README.md282-289
完成基本设置后
来源: README.md527-540 docs/build.md tools/main/README.md tools/server/README.md