DeepSeek-V3是由深度求索公司推出的一款具備6710億參數(shù)的專家混合(MoE)大語言模型,而DeepSeek-R1則是基于DeepSeek-V3-Base訓(xùn)練的高性能推理模型。通過阿里云Model Gallery,用戶可以輕松利用vLLM或BladeLLM加速部署功能,一鍵部署DeepSeek-V3及DeepSeek-R1系列模型。
阿里云官網(wǎng):點擊訪問
一、阿里云支持的模型列表
注意:
- DeepSeek-R1、DeepSeek-V3滿血版模型的參數(shù)量較大(671B),所需配置和成本較高(8卡96G顯存以上)。建議您選擇蒸餾版模型(機器資源較充足、部署成本較低);
- 根據(jù)測試,DeepSeek-R1-Distill-Qwen-32B模型的效果和成本較優(yōu),適合云上部署,可嘗試作為DeepSeek-R1的替代模型。您也可以選擇7B、8B、14B等其他蒸餾模型部署,Model Gallery還提供了模型評測功能,可以評測模型實際效果(評測入口在模型詳情頁右上角)。
表中給出的是最低所需配置機型,在Model Gallery的部署頁面的資源規(guī)格選擇列表中系統(tǒng)已自動過濾出模型可用的公共資源規(guī)格。
模型 |
最低配置 |
支持的最大Token數(shù) |
|||
部署方式為BladeLLM加速(推薦) |
部署方式為SGLang加速(推薦) |
部署方式為vLLM加速 |
部署方式為標準部署 |
||
DeepSeek-R1 |
8卡GU120(8 * 96 GB顯存) |
不支持 |
163840 |
4096 |
不支持 |
DeepSeek-V3 |
8卡GU120(8 * 96 GB顯存) |
不支持 |
163840 |
4096 |
2000 |
DeepSeek-R1-Distill-Qwen-1.5B |
1卡A10(24 GB顯存) |
131072 |
不支持 |
131072 |
131072 |
DeepSeek-R1-Distill-Qwen-7B |
1卡A10(24 GB顯存) |
131072 |
不支持 |
32768 |
131072 |
DeepSeek-R1-Distill-Llama-8B |
1卡A10(24 GB顯存) |
131072 |
不支持 |
32768 |
131072 |
DeepSeek-R1-Distill-Qwen-14B |
1卡GPU L(48 GB顯存) |
131072 |
不支持 |
32768 |
131072 |
DeepSeek-R1-Distill-Qwen-32B |
2卡GPU L(2 * 48 GB顯存) |
131072 |
不支持 |
32768 |
131072 |
DeepSeek-R1-Distill-Llama-70B |
2卡GU120(2 * 96 GB顯存) |
131072 |
不支持 |
32768 |
131072 |
部署方式說明:
- BladeLLM 加速部署:BladeLLM 是阿里云 PAI 自研的高性能推理框架;
- SGLang 加速部署:SGLang 是一個適用于大型語言模型和視覺語言模型的快速服務(wù)框架;
- vLLM 加速部署:vLLM 是一個業(yè)界流行的用于LLM推理加速的庫;
- 標準部署:不使用任何推理加速的標準部署;
推薦使用加速部署(BladeLLM、SGLang),性能和支持的最大Token數(shù)都會更優(yōu)。加速部署僅支持API調(diào)用方式,標準部署支持API調(diào)用方式及WebUI chat界面。
二、部署模型
1、進入Model Gallery頁面。
- 登錄PAI控制臺;
- 在頂部左上角根據(jù)實際情況選擇地域;
- 在左側(cè)導(dǎo)航欄選擇工作空間列表,單擊指定工作空間名稱,進入對應(yīng)工作空間;
- 在左側(cè)導(dǎo)航欄選擇快速開始 > Model Gallery。
2、在Model Gallery頁面右側(cè)的模型列表中,找到需要部署的模型卡片,例如DeepSeek-R1-Distill-Qwen-32B模型,單擊進入模型詳情頁面。
3、單擊右上角部署,選擇部署方式和部署資源后,即可一鍵部署,生成一個 PAI-EAS 服務(wù)。
說明:對于DeepSeek-R1、DeepSeek-V3的部署,除了公共資源組中的ml.gu8v.c192m1024.8-gu120、ecs.gn8v-8x.48xlarge機型(庫存可能較緊張)外,ecs.ebmgn8v.48xlarge機型也可以使用,但請注意該機型無法通過公共資源使用,請購買EAS專屬資源 。
三、使用推理服務(wù)
部署成功后,在服務(wù)頁面單擊查看調(diào)用信息獲取調(diào)用的 Endpoint 和 Token。
不同部署方式支持的服務(wù)調(diào)用方式不同,您可以在Model Gallery的模型介紹頁查看詳細說明。
|
BladeLLM部署 |
SGLang部署 |
vLLM部署 |
標準部署 |
WebUI |
不支持。可下載Web UI代碼,在本地啟動一個Web UI。注意:BladeLLM和vLLM的Web UI代碼不同。
|
支持 |
||
在線調(diào)試 |
支持。您可以在任務(wù)管理–部署任務(wù)選擇部署任務(wù)進入詳情頁找到在線調(diào)試的入口。 |
|||
API調(diào)用 |
completions 接口:<EAS_ENDPOINT>/v1/completions chat 接口: <EAS_ENDPOINT>/v1/chat/completions |
API 描述文件:<EAS_ENDPOINT>/openapi.json 模型列表:<EAS_ENDPOINT>/v1/models completions 接口: <EAS_ENDPOINT>/v1/completions chat 接口:<EAS_ENDPOINT>/v1/chat/completions |
<EAS_ENDPOINT> |
|
兼容OpenAI SDK |
不兼容 |
兼容 |
兼容 |
不兼容 |
請求數(shù)據(jù)格式 |
completions與chat請求數(shù)據(jù)格式不一樣。 |
相比BladeLLM,需要增加model參數(shù)。model參數(shù)的值可通過模型列表接口‘<EAS_ENDPOINT>/v1/models’獲取。 |
支持字符串和JSON類型。 |
1、BladeLLM加速部署
Completions請求數(shù)據(jù):
{"prompt":"hello world", "stream":"true"}
chat請求數(shù)據(jù):
{ "messages": [ { "role": "system", "content": "You are a helpful assistant." }, { "role": "user", "content": "Hello World!!" } ] }
2、SGLang/vLLM加速部署
以下示例中,<model_name>請?zhí)鎿Q為模型列表接口'<EAS_ENDPOINT>/v1/models’ API獲取的模型名稱。
Completions請求數(shù)據(jù):
{"model": "<model_name>", "prompt":"hello world"}
chat請求數(shù)據(jù): { "model": "<model_name>", "messages": [ { "role": "system", "content": "You are a helpful assistant." }, { "role": "user", "content": "Hello!" } ] }
3、標準部署
String類型 hello world
JSON類型
{ "max_new_tokens": 4096, "use_stream_chat": false, "prompt": "What is the capital of Canada?", "system_prompt": "Act like you are a knowledgeable assistant who can provide information on geography and related topics.", "history": [ [ "Can you tell me what's the capital of France?", "The capital of France is Paris." ] ], "temperature": 0.8, "top_k": 10, "top_p": 0.8, "do_sample": true, "use_cache": true }
如果是標準部署,支持Web應(yīng)用。在PAI-Model Gallery > 任務(wù)管理 > 部署任務(wù)中單擊已部署的服務(wù)名稱,在服務(wù)詳情頁面右上角單擊查看WEB應(yīng)用,即可通過ChatLLM WebUI進行實時交互。
四、關(guān)于成本
由于DeepSeek-V3和DeepSeek-R1模型較大,模型部署費用較高,建議用于正式生產(chǎn)環(huán)境。
您還可以選擇部署經(jīng)過知識蒸餾的輕量級模型,這些模型的參數(shù)量顯著減少,從而大幅降低部署成本。
如果您從未使用過EAS,可以前往阿里云試用中心領(lǐng)取PAI-EAS試用資源。領(lǐng)取成功后,可以在Model Gallery選擇最低配置為 A10 的模型(如DeepSeek-R1-Distill-Qwen-7B)進行部署,并在部署時修改資源規(guī)格為試用活動中的機型。
對于長期使用的模型,您可以采用公共資源組搭配節(jié)省計劃的方式,或者購買預(yù)付費EAS資源組來節(jié)約成本。
如果是非生產(chǎn)環(huán)境使用,可以在部署時打開競價模式,但需滿足一定條件才能競價成功,且有資源不穩(wěn)定的風(fēng)險。
-
廣告合作
-
QQ群號:4114653