快速入门

快速入门概述

llama.cpp提供了多种安装路径和使用模式，以适应不同的用户需求和技术背景。该系统由几个关键组件组成，协同工作以实现本地LLM推理。

安装方法

该项目支持四种主要的安装方法，每种方法都有不同的复杂度和定制级别。

来源： README.md34-41 docs/install.md docs/docker.md docs/build.md

核心组件

llama.cpp生态系统为不同的用例提供了几个重要的二进制文件。

组件	目的	主要功能
`llama-cli`	交互式CLI	文本补全和聊天
`llama-server`	HTTP API服务器	与OpenAI兼容的REST API
`llama-quantize`	模型优化	减小模型大小
`llama-bench`	性能测试	基准测试推理速度
`convert_hf_to_gguf.py`	模型转换	转换HuggingFace模型

来源： README.md303-514 tools/main tools/server tools/quantize

初始设置工作流程

典型的首次用户工作流程包括三个主要阶段：安装、模型获取和初始使用。

来源： README.md44-54 README.md275-302 convert_hf_to_gguf.py

核心命令

基本文本补全

开始使用llama.cpp最简单的方法是使用llama-cli二进制文件进行文本补全。

来源： README.md44-54

交互式聊天模式

对于会话交互，大多数模型会自动启用聊天模式。

来源： README.md310-334

HTTP API服务器

将llama.cpp暴露为与OpenAI兼容的API

来源： README.md366-433

构建系统集成

对于从源代码构建的用户，该项目使用CMake作为主要的构建系统，并提供广泛的配置选项。

来源： CMakeLists.txt1-30 .github/workflows/build.yml46-62

模型管理

支持的模型格式

llama.cpp主要使用GGUF格式进行优化推理，但也提供了转换流行模型来源的工具。

源格式	转换工具	目标格式
HuggingFace (safetensors/pytorch)	`convert_hf_to_gguf.py`	GGUF
旧版GGML	`convert-llama-ggmlv3-to-gguf.py`	GGUF
Llama2.c	`llama-convert-llama2c-to-ggml`	GGUF

来源： README.md292-301 convert_hf_to_gguf.py

模型获取

最简单的方法是使用内置的HuggingFace集成。

来源： README.md282-289

下一步

完成基本设置后

安装详情：有关特定平台的构建说明、依赖项管理和故障排除，请参阅安装。
使用示例：有关全面的命令行选项、配置文件和高级用法模式，请参阅基本用法。
模型选择：在README.md72-152中探索支持的模型架构。
性能优化：考虑为您的硬件选择量化选项和后端。

来源： README.md527-540 docs/build.md tools/main/README.md tools/server/README.md