菜单

快速入门

相关源文件

本文档提供了llama.cpp的全面安装和使用介绍,涵盖了必备的安装方法、基本使用模式以及运行大型语言模型所需的初始设置。

有关包含特定平台配置的详细安装步骤,请参阅安装。有关全面的使用示例和命令行选项,请参阅基本用法

快速入门概述

llama.cpp提供了多种安装路径和使用模式,以适应不同的用户需求和技术背景。该系统由几个关键组件组成,协同工作以实现本地LLM推理。

安装方法

该项目支持四种主要的安装方法,每种方法都有不同的复杂度和定制级别。

来源: README.md34-41 docs/install.md docs/docker.md docs/build.md

核心组件

llama.cpp生态系统为不同的用例提供了几个重要的二进制文件。

组件目的主要功能
llama-cli交互式CLI文本补全和聊天
llama-serverHTTP API服务器与OpenAI兼容的REST API
llama-quantize模型优化减小模型大小
llama-bench性能测试基准测试推理速度
convert_hf_to_gguf.py模型转换转换HuggingFace模型

来源: README.md303-514 tools/main tools/server tools/quantize

初始设置工作流程

典型的首次用户工作流程包括三个主要阶段:安装、模型获取和初始使用。

来源: README.md44-54 README.md275-302 convert_hf_to_gguf.py

核心命令

基本文本补全

开始使用llama.cpp最简单的方法是使用llama-cli二进制文件进行文本补全。

来源: README.md44-54

交互式聊天模式

对于会话交互,大多数模型会自动启用聊天模式。

来源: README.md310-334

HTTP API服务器

将llama.cpp暴露为与OpenAI兼容的API

来源: README.md366-433

构建系统集成

对于从源代码构建的用户,该项目使用CMake作为主要的构建系统,并提供广泛的配置选项。

来源: CMakeLists.txt1-30 .github/workflows/build.yml46-62

模型管理

支持的模型格式

llama.cpp主要使用GGUF格式进行优化推理,但也提供了转换流行模型来源的工具。

源格式转换工具目标格式
HuggingFace (safetensors/pytorch)convert_hf_to_gguf.pyGGUF
旧版GGMLconvert-llama-ggmlv3-to-gguf.pyGGUF
Llama2.cllama-convert-llama2c-to-ggmlGGUF

来源: README.md292-301 convert_hf_to_gguf.py

模型获取

最简单的方法是使用内置的HuggingFace集成。

来源: README.md282-289

下一步

完成基本设置后

  1. 安装详情:有关特定平台的构建说明、依赖项管理和故障排除,请参阅安装
  2. 使用示例:有关全面的命令行选项、配置文件和高级用法模式,请参阅基本用法
  3. 模型选择:在README.md72-152中探索支持的模型架构。
  4. 性能优化:考虑为您的硬件选择量化选项和后端。

来源: README.md527-540 docs/build.md tools/main/README.md tools/server/README.md