本文將詳細闡述如何在亞馬遜云科技AWS上部署DeepSeek – R1,尤其針對DeepSeek – R1 – Distill – Qwen – 14B模型。部署過程涵蓋在Amazon EC2實例上安裝Ollama和Ollama Web UI,并通過應(yīng)用程序負載均衡器(Application Load Balancer)將其公開。
亞馬遜云科技官網(wǎng):點擊進入(注冊立享12個月免費Amazon EC2)
一、在Amazon EC2 GPU實例上使用Ollama和Ollama Web UI部署DeepSeek-R1
1、為Amazon EC2實例創(chuàng)建依賴項(Amazon IAM實例配置文件)
打開亞馬遜云科技管理控制臺,導(dǎo)航至Amazon IAM頁面,點擊“創(chuàng)建角色”。選擇“Amazon Web Services”作為受信任的實體類型,“Amazon EC2”作為用例。
注意:這些步驟采用了較為寬松的Amazon IAM托管策略,僅為在沙盒賬戶中簡化演示流程。在任何實際工作負載中,即便不是生產(chǎn)環(huán)境,也請遵循最小權(quán)限原則。
將兩個托管策略“AmazonS3FullAccess”和“AmazonSSMManagedInstanceCore”附加到“deepseek – r1”角色上,然后點擊“創(chuàng)建角色”。
2、設(shè)置Amazon EC2實例
打開亞馬遜云科技管理控制臺,進入Amazon EC2頁面,使用以下規(guī)格啟動一個Amazon EC2實例:
(1)AMI:選擇“Amazon Linux 2 AMI”。
(2)實例類型:選用“g4dn.xlarge”。
(3)網(wǎng)絡(luò)設(shè)置:點擊“編輯”,使用默認的 VPC 設(shè)置,創(chuàng)建一個新的安全組,并設(shè)置以下入站規(guī)則:
- 允許來自受信任 IP 范圍的 HTTP 流量(本示例中,允許來自“My IP”的 HTTP 流量);
- 允許來自 VPC CIDR 范圍、目標端口為 3000 的 TCP 流量(這是后續(xù)部署應(yīng)用程序負載均衡器時,能將流量轉(zhuǎn)發(fā)到 Amazon EC2 實例的必要條件);
- 允許來自 VPC CIDR 范圍的 HTTPS 流量。
(4)配置存儲:設(shè)置為 100GiB gp3。
(5)高級詳情:在 Amazon IAM 實例配置文件中選擇“deepseek – r1”。
3、通過SSM連接到Amazon EC2實例
待Amazon EC2實例啟動完成后,選中“deepseek – r1”,在“會話管理器”(Session Manager)選項卡下點擊“連接”。后續(xù)將使用 SSM 建立的終端來執(zhí)行部署操作。
二、在Amazon EC2實例上安裝并配置NVIDIA驅(qū)動程序
在會話管理器終端中運行以下命令,在“g4dn EC2 實例”上安裝NVIDIA GRID驅(qū)動程序:
sudo yum update -y sudo yum install gcc makesudo yum install -y gcc kernel-devel-$(uname -r) cd ~ aws s3 cp --recursive s3://ec2-linux-nvidia-drivers/latest/ . chmod +x NVIDIA-Linux-x86_64*.run mkdir /home/ssm-user/tmp chmod -R 777 tmp cd /home/ssm-user export TMPDIR=/home/ssm-user/tmp CC=/usr/bin/gcc10-cc ./NVIDIA-Linux-x86_64*.run --tmpdir=$TMPDIR
按照屏幕提示完成驅(qū)動程序安裝過程,選擇默認配置選項。安裝過程中可能會出現(xiàn)一些警告,確認后繼續(xù)安裝。安裝完成后,驗證驅(qū)動程序是否正確安裝,并禁用 GSP(GPU Safety Package):
nvidia - smi - q | head sudo touch /etc/modprobe.d/nvidia.conf echo "options nvidia NVreg_EnableGpuFirmware = 0" | sudo tee --append /etc/modprobe.d/nvidia.conf
1、在Amazon EC2實例上安裝并配置Docker
在會話管理器終端中運行以下命令,在 Amazon EC2 實例上安裝并啟動 Docker:
sudo yum install docker sudo usermod -a -G docker ec2 - user sudo systemctl enable docker.service sudo systemctl start docker.service
啟動 Docker 服務(wù)后,運行以下命令使用 NVIDIA 驅(qū)動程序配置 Docker:
curl -s -L https://nvidia.github.io/libnvidia - container/stable/rpm/nvidia - container - toolkit.repo | \ sudo tee /etc/yum.repos.d/nvidia - container - toolkit.repo sudo yum install -y nvidia - container - toolkit sudo nvidia - ctk runtime configure --runtime = docker sudo systemctl restart docker
2、在Amazon EC2實例上安裝并配置Ollama服務(wù)器和Ollama Web UI
運行以下命令部署 Ollama 服務(wù)器,并驗證其可訪問狀態(tài):
docker run -d --gpus = all -v ollama:/root/.ollama -p 11434:11434 --name ollama --restart always ollama/ollama curl localhost:11434
Ollama 服務(wù)器運行后,通過以下命令從 Ollama 庫中拉取 DeepSeek – R1 – Distill – Qwen – 14B 模型:
docker exec -it ollama ollama pull deepseek - r1:14b
最后,設(shè)置 Ollama Web UI,使用戶能通過網(wǎng)絡(luò)瀏覽器與 DeepSeek – R1 – Distill – Qwen – 14B 進行交互:
docker run -d -p 3000:8080 --add - host = host.docker.internal:host - gateway -v ollama - webui:/app/backend/data --name ollama - webui --restart always ghcr.io/ollama - webui/ollama - webui:main
三、配置應(yīng)用程序負載均衡器以通過網(wǎng)絡(luò)瀏覽器訪問DeepSeek-R1的Amazon EC2實例
在亞馬遜云科技管理控制臺中,進入Amazon EC2頁面,在左側(cè)導(dǎo)航欄選擇“負載均衡器”。選擇“應(yīng)用程序負載均衡器”(Application Load Balancer,簡稱 ALB)作為負載均衡器類型,然后點擊“創(chuàng)建”。
為應(yīng)用負載均衡器(ALB)進行以下配置:
1、方案:選擇“面向互聯(lián)網(wǎng)”。
2、負載均衡器 IP 地址類型:選擇“IPv4”。
3、網(wǎng)絡(luò)設(shè)置:選擇默認的 VPC 設(shè)置,并選擇 Amazon EC2 實例所在的可用區(qū)。
4、安全組:選擇在 Amazon EC2 配置步驟中創(chuàng)建的安全組。
在“監(jiān)聽器和路由”部分,使用默認的 HTTP:80 設(shè)置,然后點擊“創(chuàng)建目標組”。
將目標類型指定為“實例”,將目標組命名為“deepseek – tg”,然后點擊“下一步”。
將“deepseek – r1”實例注冊為目標,指定端口為 3000,并點擊“標記為待處理并包含”(Include as pending),然后點擊“創(chuàng)建目標組”(Create Target Group)。
最后,返回到應(yīng)用負載均衡器創(chuàng)建頁面,選擇“deepseek – r1”目標組,向下滾動并點擊“創(chuàng)建負載均衡器”。
四、通過ALB DNS訪問Ollama Web UI上的DeepSeek – R1
在亞馬遜云科技管理控制臺中,進入Amazon EC2頁面,在左側(cè)導(dǎo)航欄選擇“負載均衡器”。選擇上一步創(chuàng)建的“deepseek – alb”,獲取其DNS名稱。
使用您選擇的網(wǎng)絡(luò)瀏覽器訪問該ALB的DNS名稱,將看到一個如下的注冊頁面。
使用選擇的電子郵件地址和密碼進行注冊,即可開始探索部署在Amazon EC2上的 DeepSeek – R1 – Distill – Qwen – 14B 模型,該模型通過 Ollama 和 Ollama Web UI 提供服務(wù)。
雖然在GPU或AI芯片上部署DeepSeek – R1及其蒸餾模型能獲得最佳的延遲和吞吐量表現(xiàn),但并非所有應(yīng)用場景都需要如此高的性能。在某些情況下,將這些模型部署在CPU上可能具有更好的性價比。
相關(guān)推薦:
《阿里云GPU部署DeepSeek-R1-Distill模型教程》
-
廣告合作
-
QQ群號:4114653