久久99精品久久久大学生,好爽毛片一区二区三区四,国产在线精品一区二区不卡

DeepSeek-V3是由深度求索公司推出的一款具備6710億參數(shù)的專家混合（MoE）大語言模型，而DeepSeek-R1則是基于DeepSeek-V3-Base訓(xùn)練的高性能推理模型。通過阿里云Model Gallery，用戶可以輕松利用vLLM或BladeLLM加速部署功能，一鍵部署DeepSeek-V3及DeepSeek-R1系列模型。

阿里云官網(wǎng)：點擊訪問

一、阿里云支持的模型列表

注意：

DeepSeek-R1、DeepSeek-V3滿血版模型的參數(shù)量較大（671B），所需配置和成本較高（8卡96G顯存以上）。建議您選擇蒸餾版模型（機器資源較充足、部署成本較低）;
根據(jù)測試，DeepSeek-R1-Distill-Qwen-32B模型的效果和成本較優(yōu)，適合云上部署，可嘗試作為DeepSeek-R1的替代模型。您也可以選擇7B、8B、14B等其他蒸餾模型部署，Model Gallery還提供了模型評測功能，可以評測模型實際效果（評測入口在模型詳情頁右上角）。

表中給出的是最低所需配置機型，在Model Gallery的部署頁面的資源規(guī)格選擇列表中系統(tǒng)已自動過濾出模型可用的公共資源規(guī)格。

模型	最低配置	支持的最大Token數(shù)
模型	最低配置	部署方式為BladeLLM加速（推薦）	部署方式為SGLang加速（推薦）	部署方式為vLLM加速	部署方式為標準部署
DeepSeek-R1	8卡GU120（8 * 96 GB顯存）	不支持	163840	4096	不支持
DeepSeek-V3	8卡GU120（8 * 96 GB顯存）	不支持	163840	4096	2000
DeepSeek-R1-Distill-Qwen-1.5B	1卡A10（24 GB顯存）	131072	不支持	131072	131072
DeepSeek-R1-Distill-Qwen-7B	1卡A10（24 GB顯存）	131072	不支持	32768	131072
DeepSeek-R1-Distill-Llama-8B	1卡A10（24 GB顯存）	131072	不支持	32768	131072
DeepSeek-R1-Distill-Qwen-14B	1卡GPU L（48 GB顯存）	131072	不支持	32768	131072
DeepSeek-R1-Distill-Qwen-32B	2卡GPU L（2 * 48 GB顯存）	131072	不支持	32768	131072
DeepSeek-R1-Distill-Llama-70B	2卡GU120（2 * 96 GB顯存）	131072	不支持	32768	131072

部署方式說明：

BladeLLM 加速部署：BladeLLM 是阿里云 PAI 自研的高性能推理框架；
SGLang 加速部署：SGLang 是一個適用于大型語言模型和視覺語言模型的快速服務(wù)框架；
vLLM 加速部署：vLLM 是一個業(yè)界流行的用于LLM推理加速的庫；
標準部署：不使用任何推理加速的標準部署；

推薦使用加速部署（BladeLLM、SGLang），性能和支持的最大Token數(shù)都會更優(yōu)。加速部署僅支持API調(diào)用方式，標準部署支持API調(diào)用方式及WebUI chat界面。

二、部署模型

1、進入Model Gallery頁面。

登錄PAI控制臺；
在頂部左上角根據(jù)實際情況選擇地域；
在左側(cè)導(dǎo)航欄選擇工作空間列表，單擊指定工作空間名稱，進入對應(yīng)工作空間；
在左側(cè)導(dǎo)航欄選擇快速開始 > Model Gallery。

2、在Model Gallery頁面右側(cè)的模型列表中，找到需要部署的模型卡片，例如DeepSeek-R1-Distill-Qwen-32B模型，單擊進入模型詳情頁面。

3、單擊右上角部署，選擇部署方式和部署資源后，即可一鍵部署，生成一個 PAI-EAS 服務(wù)。

說明：對于DeepSeek-R1、DeepSeek-V3的部署，除了公共資源組中的ml.gu8v.c192m1024.8-gu120、ecs.gn8v-8x.48xlarge機型（庫存可能較緊張）外，ecs.ebmgn8v.48xlarge機型也可以使用，但請注意該機型無法通過公共資源使用，請購買EAS專屬資源。

三、使用推理服務(wù)

部署成功后，在服務(wù)頁面單擊查看調(diào)用信息獲取調(diào)用的 Endpoint 和 Token。

不同部署方式支持的服務(wù)調(diào)用方式不同，您可以在Model Gallery的模型介紹頁查看詳細說明。

	BladeLLM部署	SGLang部署	vLLM部署	標準部署
WebUI	不支持。可下載Web UI代碼，在本地啟動一個Web UI。注意：BladeLLM和vLLM的Web UI代碼不同。 BladeLLM：BladeLLM_github、?BladeLLM_oss vLLM、SGLang：vLLM_github、vLLM_oss `python webui_client.py --eas_endpoint "<EAS API Endpoint>" --eas_token "<EAS API Token>"`			支持
在線調(diào)試	支持。您可以在任務(wù)管理–部署任務(wù)選擇部署任務(wù)進入詳情頁找到在線調(diào)試的入口。
API調(diào)用	completions 接口：<EAS_ENDPOINT>/v1/completions chat 接口： <EAS_ENDPOINT>/v1/chat/completions	API 描述文件：<EAS_ENDPOINT>/openapi.json 模型列表：<EAS_ENDPOINT>/v1/models completions 接口： <EAS_ENDPOINT>/v1/completions chat 接口：<EAS_ENDPOINT>/v1/chat/completions		<EAS_ENDPOINT>
兼容OpenAI SDK	不兼容	兼容	兼容	不兼容
請求數(shù)據(jù)格式	completions與chat請求數(shù)據(jù)格式不一樣。	相比BladeLLM，需要增加model參數(shù)。model參數(shù)的值可通過模型列表接口‘<EAS_ENDPOINT>/v1/models’獲取。		支持字符串和JSON類型。

單擊查看請求數(shù)據(jù)示例

1、BladeLLM加速部署

Completions請求數(shù)據(jù)：

{"prompt":"hello world", "stream":"true"}

chat請求數(shù)據(jù)：

{
"messages": [
{
"role": "system",
"content": "You are a helpful assistant."
},
{
"role": "user",
"content": "Hello World!!"
}
]
}

2、SGLang/vLLM加速部署

以下示例中，<model_name>請?zhí)鎿Q為模型列表接口'<EAS_ENDPOINT>/v1/models’ API獲取的模型名稱。

Completions請求數(shù)據(jù)：

{"model": "<model_name>", "prompt":"hello world"}

chat請求數(shù)據(jù)：

{
"model": "<model_name>",
"messages": [
{
"role": "system",
"content": "You are a helpful assistant."
},
{
"role": "user",
"content": "Hello!"
}
]
}

3、標準部署

String類型

hello world

JSON類型

{
"max_new_tokens": 4096,
"use_stream_chat": false,
"prompt": "What is the capital of Canada?",
"system_prompt": "Act like you are a knowledgeable assistant who can provide information on geography and related topics.",
"history": [
[
"Can you tell me what's the capital of France?",
"The capital of France is Paris."
]
],
"temperature": 0.8,
"top_k": 10,
"top_p": 0.8,
"do_sample": true,
"use_cache": true
}