SYCL 后端

架构概述

SYCL 后端采用分层架构，包括设备抽象、内存管理和操作调度

来源: ggml/src/ggml-sycl/ggml-sycl.cpp1-3000 ggml/src/ggml-sycl/common.hpp1-590 ggml/src/ggml-sycl/dpct/helper.hpp1-200

SYCL 后端通过集中的设备管理系统来发现和初始化可用的 SYCL 设备

初始化过程会查询设备能力，并根据检测到的 GPU 架构设置优化功能。像 GGML_SYCL_DEBUG 和 GGML_SYCL_DISABLE_OPT 这样的环境变量会控制运行时行为。

来源: ggml/src/ggml-sycl/ggml-sycl.cpp55-101 ggml/src/ggml-sycl/ggml-sycl.cpp193-254 ggml/src/ggml-sycl/common.hpp194-312

SYCL 后端实现了一个复杂的缓冲区管理系统，支持单设备和多设备（分割）张量存储

缓冲区类型	上下文类	目的
单设备	`ggml_backend_sycl_buffer_context`	标准的单 GPU 张量存储
分割设备	`ggml_backend_sycl_split_buffer_context`	多 GPU 张量分割
缓冲区类型	`ggml_backend_sycl_buffer_type_context`	缓冲区类型元数据和流

缓冲区系统包括量化张量的自动填充，以及针对不同 GPU 之间设备到设备内存复制限制的解决方法。

来源: ggml/src/ggml-sycl/ggml-sycl.cpp293-557 ggml/src/ggml-sycl/ggml-sycl.cpp771-942 ggml/src/ggml-sycl/common.hpp281-287

SYCL 后端通过一个全面的、按操作类型组织的内核系统来调度操作

每个操作模块都包含专门的 SYCL 内核，这些内核针对不同的量化格式和硬件能力进行了优化。

来源: ggml/src/ggml-sycl/ggml-sycl.cpp3000-4000 ggml/src/ggml-sycl/element_wise.cpp1-100 ggml/src/ggml-sycl/gemm.hpp1-50

SYCL 后端通过函数表和上下文结构实现了标准的 GGML 后端接口

后端维护每个设备的 SYCL 队列和内存池，并支持可选的图执行以提高支持硬件上的性能。

来源: ggml/src/ggml-sycl/ggml-sycl.cpp4000-5000 ggml/src/ggml-sycl/common.hpp315-436

SYCL 后端构建系统通过 CMake 配置支持多个 GPU 供应商

构建系统会自动为 NVIDIA/AMD 目标获取 oneMath，并支持 FP16 和 FP32 精度模式，以及相应的硬件特定优化。

来源: ggml/src/ggml-sycl/CMakeLists.txt1-190 ci/run.sh65-78 docs/backend/SYCL.md285-350