人工智能自然语言处理深度学习大语言模型部署：基于llama.cpp在Ubuntu 22.04及CUDA环境中部署Llama-2 7B

llama.cpp是近期非常流行的一款专注于Llama/Llama-2部署的C/C++工具。本文利用llama.cpp来部署Llama 2 7B大语言模型，所采用的环境为Ubuntu 22.04及NVIDIA CUDA。文中假设Linux的用户目录（一般为/home/username）为当前目录。

安装NVIDIA CUDA工具

NVIDIA官方已经提供在Ubuntu 22.04中安装CUDA的官方文档。本文稍有不同的是我们安装的是CUDA 11.8而不是最新的CUDA版本。这是因为目前PyTorch 2.0的稳定版还是基于CUDA 11.8的，而在实际各种部署中笔者发现按照PyTorch 2.0稳定版来锚定CUDA版本能够避免很多麻烦。当然了，对于llama.cpp本身来说这并不重要，因此读者可以随意选择适合的CUDA版本。

$ wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.1-1_all.deb

$ sudo dpkg -i cuda-keyring_1.1-1_all.deb

$ sudo apt update

$ sudo apt install cuda-11-8

安装完NVIDIA CUDA（其实是NVIDIA GPU驱动）之后应该重启系统一次，这样可以使得Linux内核能够正常编译并加载基于dkms的内核驱动模块。这里建议重启完之后运行一次nvidia-smi来确信系统中的显卡能够被NVIDIA驱动所识别。

$ sudo shutdown -r now

复制

文章链接

评论可见，请评论后查看内容，谢谢！！！

您阅读本篇文章共花了：

金钥匙

人工智能自然语言处理深度学习大语言模型部署：基于llama.cpp在Ubuntu 22.04及CUDA环境中部署Llama-2 7B

人工智能大语言模型之十六-基于LongLoRA的长文本上下文微调Llama-2

java 开发语言 foreach用法

发表评论取消回复

金钥匙

人工智能 自然语言处理 深度学习 大语言模型部署：基于llama.cpp在Ubuntu 22.04及CUDA环境中部署Llama-2 7B

人工智能 大语言模型之十六-基于LongLoRA的长文本上下文微调Llama-2

java 开发语言 foreach用法

相关文章

发表评论取消回复

人工智能自然语言处理深度学习大语言模型部署：基于llama.cpp在Ubuntu 22.04及CUDA环境中部署Llama-2 7B

人工智能大语言模型之十六-基于LongLoRA的长文本上下文微调Llama-2