九游體育娛樂網并可進行修改以確保職業安全-九游(中國)jiuyou·官方網站-登錄入口

本文先容了英特爾 ? 至強 ? 處理器在 AI 推理領域的上風,怎么使用一鍵部署的鏡像進行純 CPU 環境下基于 AMX 加速后的 DeepSeek-R1 7B 蒸餾模子推理,以及純 CPU 環境下部署 DeepSeek-R1 671B 滿血版模子實踐。
大模子因其參數領域巨大、結構復雜,經常需要強勁的狡計資源來扶植其推理經過,這使得算力成為大模子應用的中樞要素。跟著 DeepSeek-R1 模子的問世,九行八業紛繁張開了對于怎么接入大模子智商的平凡調研與探索,市集對大模子推理算力的需求呈現出爆發式增長的趨勢。
舉例在醫療、金融、零賣等領域,企業蹙迫但愿通過接入 DeepSeek 大模子來普及決策服從和業務智商,從而激動行業的翻新發展。在這一配景下,算力的供給和優化成為激動大模子落地應用的轉折成分。
頻年來,CPU 制程和架構的普及以及英特爾 ? 高檔矩陣擴張 AMX(Advanced Matrix Extensions)加速器的面世帶來了算力的快速普及。英特爾對大模子推理等多個 AI 領域握續深切連絡,提供全目的的 AI 軟件扶植,兼容主流 AI 軟件且提供多種軟件神志普及 CPU 的 AI 性能。現在,已有充分的數據露出 CPU 皆備不錯用于大模子推理場景。
CPU 適用于以下大模子推理場景:
場景 1: 大模子推理需要的內存跨越了單塊 GPU 的顯存容量,需要多塊或更高配 GPU 卡,采選 CPU 決議,不錯訓斥本錢;
場景 2: 應用肯求量小,GPU 哄騙率低,采選 CPU 推理,資源永訣的粒度更小,可有用訓斥起建本錢;
場景 3: GPU 資源緊缺,CPU 更容易獲取,且不錯勝任大模子推理。
天翼云 EMR 實例 DeepSeek-R1-Distill-Qwen-7B 蒸餾模子部署實踐
本節踐諾主要先容如安在天翼云 EMR 實例上,基于 Intel ?? xFasterTransformer 加速庫和 vllm 推理引擎完成模子部署,并展示有關性能狡計。
職業部署
為了陋劣用戶使用,天翼云融合英特爾制作了一鍵部署的云主機鏡像,內置 DeepSeek-R1-Distill-Qwen-7B 模子、vLLM 推理框架、xFT 加速庫以及 open-webui 前端可視環境。您可在天翼云限制臺接納下列資源池和鏡像,洞開云主機進行體驗。

完成云主機洞開明,推理職業會在 5 分鐘內自動啟動,您無需進行任何其他操作。
注:如需在云主機外造訪職業,您需要綁定彈性 IP,并在安全組內放行 22/3000/8000 端口。
模子使用
open-webui 前端使用
鏡像已內置 open-webui,并已完成和 vllm 的勾通設置,可平直通過以下地址進行造訪 :
http:// [ 彈性 IP ] :3000/
注:1. 初次掀開頁面時,您需要先完成料理員注冊,以進行后續的用戶料理。注冊數據均保存在云實例的 /root/volume/open-webui 目次下。
2. 若是初次掀開對話頁面時莫得模子可供接納 , 請您稍等幾分鐘讓模子完成加載即可。

vllm api 調用
鏡像內置 vllm 職業可平直通過如下地址造訪:
# 根旅途 http:// [ 彈性 IP ] :8000/# 查詢現存模子 http:// [ 彈性 IP ] :8000/v1/models# 其他 api 接口參閱 vllm 文檔
注:vllm 職業設置有 API_KEY,您可在云實例的 /root/recreate_container.sh 文獻濫觴稽察到現時值,并可進行修改以確保職業安全。
性能狡計
借助于英特爾 AMX 的加速智商,本推理職業大概取得顯赫的性能普及,天翼云完成測試并給出參考狡計如下:
基本參數
vcpu 數:24(物理核 12)
內存:64GB
硬盤:60G 通用型 SSD
模子:DeepSeek-R1-Distill-Qwen-7B(bf16)
batch size:1
輸入 token 個數:30-60
輸出 token 個數:256
性能數據
平均 token 生成速率:

首 token 時延:

在天翼云 c8e 系列 24vcpu 云主機上,啟用 AMX 加速智商后,DeepSeek 7B 蒸餾模子(BF16)推理速率大概獨特 9token/s,知足日常使用需求。
基于英特爾 ? 至強 ? 6 處理器部署滿血版 DeepSeek-R1 671B 實踐性能狡計
DeepSeek R1 671B 滿血版模子以其不凡的性能,為用戶帶來了極致的結尾體驗,不外其部署本錢也羈系小覷。若采選傳統的 GPU 部署神志,需要 8-16 張 GPU 才智提供彌漫的扶植,這無疑大幅增多了硬件購置、能耗以及保養等方面的本錢。
在這么的配景下,天翼云基于英特爾 ? 提供的至強 ? 6 處理器職業器進行了 DeepSeek R1 671B 滿血版 Q4_K_M 模子的部署嘗試,測試結尾如下 :
1-instance 1-socket:
平均微辭性能 9.7~10 token/s
2-instance 1-socket:
平均 7.32 token/s 和 7.38token/s, 共 14.7token/s
從上頭測試數據不錯看到,采選單實例單 socket 部署下,DeepSeek R1 671B 滿血版模子可達到平均 9.7~10 token/s 的微辭量,而在雙實例部署時勢中,總體微辭量普及至 14.7 token/s。單顆 CPU 系統的微辭性能不錯達到普通用戶淺近使用的需要。
英特爾?至強?6 處理器簡介
英特爾 ? 至強 ? CPU 為 DeepSeek R1 671B 模子的部署提供了一個極具競爭力的決議。英特爾 ? 至強 ? CPU 具備扶植 T 級超大內存的智商,這使得它在權重存儲與加載方面推崇高效。對于像 DeepSeek R1 671B 這么的超大模子,其所需的顯存容量在多卡 GPU 設置下才智知足,而英特爾 ? 至強 ? CPU 大概憑借其強勁的內存扶植智商,為該模子提供考究的入手環境。
此外,DeepSeek R1 模子采選的 MOE(Mixture of Experts)結構,通過參數稀薄化的神志,使得在單 token 推理時僅需激活極少各人參數。這種性格顯赫訓斥了推理經過中的算力條目,與 CPU 的狡計特色相契合,使得模子在 CPU 系統上的入手愈加高效。這意味著在英特爾 ? 至強 ? CPU 上部署 DeepSeek R1 671B 模子,不僅大概充分闡揚模子的性能上風,還能有用訓斥部署本錢,幸免了對多數 GPU 的依賴。
如需復現以上性能測試結尾,請參看附錄 2
回首
通過本次實踐,不管是在天翼云 EMR 云實例上結合 xFasterTransformer 部署 DS R1 distill Qwen-7B 蒸餾模子,依然基于英特爾 ? 至強 ? 6 處理器部署滿血版 DeepSeek-R1 671B 模子,均考據了 CPU 系統在 DeepSeek 大模子推理上的可行性和合乎業界浩蕩條目的性能推崇。CPU 系統不僅大概機動頂住不同領域的模子需求,不管是輕量化蒸餾模子依然全功能滿血模子,都能高效知足用戶場景需求,提供了一種低本錢、經濟高效的搞定決議。
附錄 1 ? 英特爾 ? 至強 ? 可擴張處理器與 AI 加速本事最新英特爾?至強?可擴張處理器居品英特爾第五代?至強?可擴張處理器(代號 Emerald Rapids)——為 AI 加速而生
第五代英特爾 ? 至強 ? 處理器以專為 AI 使命負載量身定制的設想理念,終明晰中樞架構和內存系統的雙重飛躍。其 64 中樞設想搭配高達 320MB 的三級緩存(每中樞由 1.875MB 普及至 5MB),相較上代緩存容量終了近三倍增長,為大領域并行 AI 推理提供充裕的土產貨數據存儲空間。與此同期,處理器扶植 DDR5-5600 高速內存,單路最大 4TB 的容量保證了大數據處理時的帶寬和蔓延上風。基于這些硬件普及,Emerald Rapids 舉座性能較上一代普及 21%,AI 推感性能平均普及 42%,在大說話模子推理場景中可終了最高 1.5 倍的性能加速,同期大幅訓斥總領有本錢達 77%。
英特爾?至強?6 處理器(代號 GNR Granite Rapids)——引頸 CPU AI 算力變嫌
全新 GNR 處理器專為頂住東談主工智能、數據分析及科學狡計等狡計密集型任務而設想。該居品在內核數目、內存帶寬及專用 AI 加速器方面均終了轉折打破:
中樞與性能:每 CPU 配備多達 128 個性能中樞,單路中樞數較上一代翻倍,同期平均單核性能普及達 1.2 倍、每瓦性能普及 1.6 倍,進一步強化了 CPU 在大模子推理中的并立處賢達商;
AI 加速功能:內置英特爾 ? 高檔矩陣擴張(AMX)新增對 FP16 數據類型的扶植,使得生成式 AI 和傳統深度學習推理任務均能取得顯赫加速;
內存與 I/O 打破:扶植 DDR5-6400 內存及英特爾首款引入的 Multiplexed Rank DIMM ( MRDIMM ) 本事,有用將內存帶寬普及至上一代的 2.3 倍;同期,高達 504MB 的三級緩存和低蔓延設想確保數據大概更快加載,為復雜模子素質和推理裁減反映時辰。
英特爾 ? 至強 ? 6 處理器不僅通過更多的中樞和更高的單線程性能普及了 AI 大模子推賢達商,同期也大概行為機頭 CPU 為 GPU 和其他加速器提供高速數據供給,進一步裁減舉座模子素質時辰。在知足攙和使命負載需求的同期,其 TCO 平均訓斥 30%,大模子推理加速最高可達 2.4 倍。
不管是第五代至強依然全新的至強 6 處理器,英特爾均通過在中樞架構、緩存系統、內存本事和專用 AI 加速器方面的全面變嫌,提供了業界率先的 AI 狡計扶植。這兩款居品為數據中心和高性能狡計平臺在 AI 推理、素質以及種種化使命負載下提供了強勁而高效的算力保險。

△圖 1 英特爾高檔矩陣擴張(AMX)英特爾全目的的 AI 軟件生態扶植
英特爾過甚配合股伴憑借多年 AI 積蓄,圍繞至強 ? 可擴張處理器打造了完善的軟件生態:平凡扶植主流開源框架,通過插件優化及種種化開源用具鏈,使用戶在 x86 平臺上大概毛糙開發、部署通用 AI 應用,無需手動調遣,同期確保從末端到云的全程安全保護。
其中,xFasterTransformer(xFT)是英特爾官方開源的 AI 推理框架,專為大說話模子在至強 ? 平臺上深度優化。xFT 不僅扶植多種數據精度(FP16、BF16、INT8、INT4),還能哄騙多 CPU 節點終了分散式部署,顯赫普及推感性能并訓斥本錢。其直爽的裝置和與主流 Serving 框架(如 vLLM、FastChat、MLServer、MindSpore Transformer、PaddlePaddle)的兼容性,匡助用戶快速加速大模子應用。在 3.1 節中基于天翼云 EMR 云主機和 xFasterTransformer 加速引擎終明晰對與 DeepSeek R1 蒸餾模子的高效推理部署。

△圖 2 英特爾提供 AI 軟件用具 全面兼容主流 AI 開發框架附錄 2 CPU 環境下部署 DeepSeek-R1 671B 模子實踐環境設置
硬件設置
CPU:Intel ? Xeon ? 6980P Processor, 128core 2.00 GHz
內存 24*64GB DDR5-6400
存儲 1TB NVMe SSD
軟件環境
OS: Ubuntu 22.04.5 LTS
Kernel: 5.15.0-131-generic
llama.cpp: github bd6e55b
cmake: 3.22.0
gcc/g++: 11.4.0
Python: 3.12.8
git: 2.34.1
BIOS ?關閉 sub NUMA 有關設置。
注:版塊是指本測試中職業器上裝置的版塊,并?條目的最低版塊。
部署模范 1. 裝置 llama.cpp
參考 llama.cpp 官?的裝置證實,咱們的模范如下。
# 下載 llama.cpp 推理框架源碼 git clone https://github.com/ggerganov/llama.cpp.git cd llama.cpp# 事先準備 intel oneapi 庫 source /opt/intel/oneapi/setvars.sh# 基于 oneapi 庫對 llama.cpp 進行編譯 cmake -B build -DGGML_BLAS=ON -DGGML_BLAS_VENDOR=Intel10_64lp -DCMAKE_C_COMPILER=icx -DCMAKE_CXX_COMPILER=icpx -DGGML_NATIVE=ON cmake --build build --config Release -j$nproc
2. 下載模子?件
社區提供了從 1bit 到 8bit 不同版塊的量化選項,具體區別不錯參考社區網頁。咱們接納了使用最受迎接的 Q4_K_M 版塊。若是追求最好結尾,提出使用 Q8_0 版塊。


# 下載 unsloth 制作的社區版量化模子 ( hf-mirror 和 modelscpoe 源都可 ) git clone — no-checkout https://hf-mirror.com/unsloth/DeepSeek-R1-GGUFcd DeepSeek-R1-GGUF/# 提出 nohup 實施 , 瞻望至少需要半天時辰 , 同期確保磁盤容量彌漫 400G.git lfs pull — include= " DeepSeek-R1-Q4_K_M/* "
3. 模子加載和運?
使用 llama-cli,指定模子文獻旅途并啟用交互時勢,DeepSeek R1 滿血版就不錯在 CPU 上成功入手了。
build/bin/llama-cli -m /tmp/DeepSeek-R1-Q4_K_M/DeepSeek-R1-Q4_K_M-00001-of- 00009.gguf -i
底下用幾個示例展現 DeepSeek-R1 671B 滿血版強勁的的 reasoning 推賢達商 :
測試模子自我剖釋 :
考據推理能?的經典"草莓"問題 :

"等燈等燈"的意旨真諦 :

4. 性能及優化
那么 CPU 運?滿?版 R1 的性能奈何樣呢?咱們作念了有關性能測試。對于 Q4_K_M 模子,使?如下號召進行 :
export MODEL_PATH=/tmp/DeepSeek-R1-Q4_K_M/DeepSeek-R1-Q4_K_M-00001-of-00009.ggufnumactl -C 0-127 -m 0 ./build/bin/llama-cli -m $MODEL_PATH -t 128 — temp 0.6 -s 42 -no-cnv — no-kv-offload -ctk q4_0 -c 8192 -n 128 -p "以寥寂的夜行者為題寫一篇 750 字的散文,描繪一個東談主在城市中夜晚漫無目的行走的熱誠與所見所感,以及夜的稀薄予以的特有感悟。"
這?使? numactl 來指定使?單路 CPU ( 0-127, 6980P 有 128 核 ) ,以及這?路 CPU 的內存節點(numa0),幸免跨 numa 傳輸以獲取最好性能。
llama.cpp 是土產貨編譯的,編譯的時候使? Intel oneAPI 不錯有用普及它的性能。英特爾嘗試?了 oneAPI ?的 Intel C++ 編譯器和數學加速庫 MKL,結合 jemalloc 內存料理優化,推理速率不錯達到每秒 9.7~10 詞元 ( TPS, tokens per second ) 。
上?的實驗是在單路 CPU 上進?的,咱們?在兩路 CPU 上各?獨?啟動 1 個模子實例,總速率不錯達到 14.7TPS ( 7.32TPS+7.38TPS ) 。
再進?步,英特爾不雅察到基于現存的 llama.cpp 軟件?案,在 CPU 平臺莫得終了?效的各人并?和張量并?等優化,CPU 核?利?率和帶寬資源莫得充分闡揚出來,6980P 的 128 核?運? 1 個模子還有不少性能儲備。瞻望不錯不息增多實例數來取得更好的總 TPS。
另外,經常情況下,CPU 的 SNC ( Sub-NUMA Clustering ) 勸誘不錯取得更?的帶寬,然而受限于軟件并未優化終了考究匹配,這次實驗關閉了 SNC 測試。
以下?式的系統設置也有助于普及性能:
BIOS ?關閉 AMP prefetcher
? cpupower 掀開 CPU 的 pstate 性能時勢
提? CPU 的 uncore 頻率
關閉超線程 ( Hyper-Threading )
注 : 為了加速檢會進程,咱們結尾了詞元輸出?度 ( -n 128 ) 。經過考據,增多輸出?度 ( 舉例 -n 512 ) 對于生成性能狡計的影響不大。
* 本文系量子位獲授權刊載九游體育娛樂網,不雅點僅為原作家總共。
