标签 llama.cpp 下的文章

llama.cpp 是轻量高效的大模型本地推理框架,支持 CPU/GPU 加速、跨平台部署,核心是用 GGUF 格式量化模型,低配置也能流畅运行。

一、环境准备(极简版)

1. 系统与硬件要求

  • 系统:Windows / Linux / macOS(全平台兼容)
  • 内存:16GB+(7B模型最低8GB,13B+建议32GB)
  • GPU(可选):NVIDIA(CUDA)、AMD(Vulkan)、Apple Silicon(Metal),加速推理速度

- 阅读剩余部分 -