llama.cpp 本地部署大模型教程(极速上手版)
llama.cpp 是轻量高效的大模型本地推理框架,支持 CPU/GPU 加速、跨平台部署,核心是用 GGUF 格式量化模型,低配置也能流畅运行。
一、环境准备(极简版)
1. 系统与硬件要求
- 系统:Windows / Linux / macOS(全平台兼容)
- 内存:16GB+(7B模型最低8GB,13B+建议32GB)
- GPU(可选):NVIDIA(CUDA)、AMD(Vulkan)、Apple Silicon(Metal),加速推理速度
llama.cpp 是轻量高效的大模型本地推理框架,支持 CPU/GPU 加速、跨平台部署,核心是用 GGUF 格式量化模型,低配置也能流畅运行。