llama.cpp是近期非常流行的一款专注于Llama/Llama-2部署的C/C++工具。本文利用llama.cpp来部署Llama 2 7B大语言模型,所采用的环境为Ubuntu 22.04及NVIDIA CUDA。文中假设Linux的用户目录(一般为/home/username)为当前目录。

安装NVIDIA CUDA工具

NVIDIA官方已经提供在Ubuntu 22.04中安装CUDA的官方文档。本文稍有不同的是我们安装的是CUDA 11.8而不是最新的CUDA版本。这是因为目前PyTorch 2.0的稳定版还是基于CUDA 11.8的,而在实际各种部署中笔者发现按照PyTorch 2.0稳定版来锚定CUDA版本能够避免很多麻烦。当然了,对于llama.cpp本身来说这并不重要,因此读者可以随意选择适合的CUDA版本。

$ wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.1-1_all.deb

$ sudo dpkg -i cuda-keyring_1.1-1_all.deb

$ sudo apt update

$ sudo apt install cuda-11-8

安装完NVIDIA CUDA(其实是NVIDIA GPU驱动)之后应该重启系统一次,这样可以使得Linux内核能够正常编译并加载基于dkms的内核驱动模块。这里建议重启完之后运行一次nvidia-smi来确信系统中的显卡能够被NVIDIA驱动所识别。

$ sudo shutdown -r now

复制

文章链接

评论可见,请评论后查看内容,谢谢!!!
 您阅读本篇文章共花了: