九游體育娛樂網并可進行修改以確保職業安全-九游(中國)jiuyou·官方網站-登錄入口

發布日期：2025-03-13 21:24 點擊次數：125

本文先容了英特爾 ? 至強 ? 處理器在 AI 推理領域的上風，怎么使用一鍵部署的鏡像進行純 CPU 環境下基于 AMX 加速后的 DeepSeek-R1 7B 蒸餾模子推理，以及純 CPU 環境下部署 DeepSeek-R1 671B 滿血版模子實踐。

大模子因其參數領域巨大、結構復雜，經常需要強勁的狡計資源來扶植其推理經過，這使得算力成為大模子應用的中樞要素。跟著 DeepSeek-R1 模子的問世，九行八業紛繁張開了對于怎么接入大模子智商的平凡調研與探索，市集對大模子推理算力的需求呈現出爆發式增長的趨勢。

舉例在醫療、金融、零賣等領域，企業蹙迫但愿通過接入 DeepSeek 大模子來普及決策服從和業務智商，從而激動行業的翻新發展。在這一配景下，算力的供給和優化成為激動大模子落地應用的轉折成分。

頻年來，CPU 制程和架構的普及以及英特爾 ? 高檔矩陣擴張 AMX（Advanced Matrix Extensions）加速器的面世帶來了算力的快速普及。英特爾對大模子推理等多個 AI 領域握續深切連絡，提供全目的的 AI 軟件扶植，兼容主流 AI 軟件且提供多種軟件神志普及 CPU 的 AI 性能。現在，已有充分的數據露出 CPU 皆備不錯用于大模子推理場景。

CPU 適用于以下大模子推理場景：

場景 1: 大模子推理需要的內存跨越了單塊 GPU 的顯存容量，需要多塊或更高配 GPU 卡，采選 CPU 決議，不錯訓斥本錢；

場景 2: 應用肯求量小，GPU 哄騙率低，采選 CPU 推理，資源永訣的粒度更小，可有用訓斥起建本錢；

場景 3: GPU 資源緊缺，CPU 更容易獲取，且不錯勝任大模子推理。

天翼云 EMR 實例 DeepSeek-R1-Distill-Qwen-7B 蒸餾模子部署實踐

本節踐諾主要先容如安在天翼云 EMR 實例上，基于 Intel ?? xFasterTransformer 加速庫和 vllm 推理引擎完成模子部署，并展示有關性能狡計。

職業部署

為了陋劣用戶使用，天翼云融合英特爾制作了一鍵部署的云主機鏡像，內置 DeepSeek-R1-Distill-Qwen-7B 模子、vLLM 推理框架、xFT 加速庫以及 open-webui 前端可視環境。您可在天翼云限制臺接納下列資源池和鏡像，洞開云主機進行體驗。

完成云主機洞開明，推理職業會在 5 分鐘內自動啟動，您無需進行任何其他操作。

注：如需在云主機外造訪職業，您需要綁定彈性 IP，并在安全組內放行 22/3000/8000 端口。

模子使用

open-webui 前端使用

鏡像已內置 open-webui，并已完成和 vllm 的勾通設置，可平直通過以下地址進行造訪 :

http:// [ 彈性 IP ] :3000/

注：1. 初次掀開頁面時，您需要先完成料理員注冊，以進行后續的用戶料理。注冊數據均保存在云實例的 /root/volume/open-webui 目次下。

2. 若是初次掀開對話頁面時莫得模子可供接納 , 請您稍等幾分鐘讓模子完成加載即可。

vllm api 調用

鏡像內置 vllm 職業可平直通過如下地址造訪：

# 根旅途 http:// [ 彈性 IP ] :8000/# 查詢現存模子 http:// [ 彈性 IP ] :8000/v1/models# 其他 api 接口參閱 vllm 文檔

注：vllm 職業設置有 API_KEY，您可在云實例的 /root/recreate_container.sh 文獻濫觴稽察到現時值，并可進行修改以確保職業安全。

性能狡計

借助于英特爾 AMX 的加速智商，本推理職業大概取得顯赫的性能普及，天翼云完成測試并給出參考狡計如下：

基本參數

vcpu 數：24（物理核 12）

內存：64GB

硬盤：60G 通用型 SSD

模子：DeepSeek-R1-Distill-Qwen-7B（bf16）

batch size：1

輸入 token 個數：30-60

輸出 token 個數：256

性能數據

平均 token 生成速率：

首 token 時延：

在天翼云 c8e 系列 24vcpu 云主機上，啟用 AMX 加速智商后，DeepSeek 7B 蒸餾模子（BF16）推理速率大概獨特 9token/s，知足日常使用需求。

基于英特爾 ? 至強 ? 6 處理器部署滿血版 DeepSeek-R1 671B 實踐性能狡計

DeepSeek R1 671B 滿血版模子以其不凡的性能，為用戶帶來了極致的結尾體驗，不外其部署本錢也羈系小覷。若采選傳統的 GPU 部署神志，需要 8-16 張 GPU 才智提供彌漫的扶植，這無疑大幅增多了硬件購置、能耗以及保養等方面的本錢。

在這么的配景下，天翼云基于英特爾 ? 提供的至強 ? 6 處理器職業器進行了 DeepSeek R1 671B 滿血版 Q4_K_M 模子的部署嘗試，測試結尾如下 :

1-instance 1-socket：

平均微辭性能 9.7~10 token/s

2-instance 1-socket：

平均 7.32 token/s 和 7.38token/s，共 14.7token/s

從上頭測試數據不錯看到，采選單實例單 socket 部署下，DeepSeek R1 671B 滿血版模子可達到平均 9.7～10 token/s 的微辭量，而在雙實例部署時勢中，總體微辭量普及至 14.7 token/s。單顆 CPU 系統的微辭性能不錯達到普通用戶淺近使用的需要。

英特爾?至強?6 處理器簡介

英特爾 ? 至強 ? CPU 為 DeepSeek R1 671B 模子的部署提供了一個極具競爭力的決議。英特爾 ? 至強 ? CPU 具備扶植 T 級超大內存的智商，這使得它在權重存儲與加載方面推崇高效。對于像 DeepSeek R1 671B 這么的超大模子，其所需的顯存容量在多卡 GPU 設置下才智知足，而英特爾 ? 至強 ? CPU 大概憑借其強勁的內存扶植智商，為該模子提供考究的入手環境。

此外，DeepSeek R1 模子采選的 MOE（Mixture of Experts）結構，通過參數稀薄化的神志，使得在單 token 推理時僅需激活極少各人參數。這種性格顯赫訓斥了推理經過中的算力條目，與 CPU 的狡計特色相契合，使得模子在 CPU 系統上的入手愈加高效。這意味著在英特爾 ? 至強 ? CPU 上部署 DeepSeek R1 671B 模子，不僅大概充分闡揚模子的性能上風，還能有用訓斥部署本錢，幸免了對多數 GPU 的依賴。

如需復現以上性能測試結尾，請參看附錄 2

回首

通過本次實踐，不管是在天翼云 EMR 云實例上結合 xFasterTransformer 部署 DS R1 distill Qwen-7B 蒸餾模子，依然基于英特爾 ? 至強 ? 6 處理器部署滿血版 DeepSeek-R1 671B 模子，均考據了 CPU 系統在 DeepSeek 大模子推理上的可行性和合乎業界浩蕩條目的性能推崇。CPU 系統不僅大概機動頂住不同領域的模子需求，不管是輕量化蒸餾模子依然全功能滿血模子，都能高效知足用戶場景需求，提供了一種低本錢、經濟高效的搞定決議。

附錄 1 ? 英特爾 ? 至強 ? 可擴張處理器與 AI 加速本事最新英特爾?至強?可擴張處理器居品英特爾第五代?至強?可擴張處理器（代號 Emerald Rapids）——為 AI 加速而生

第五代英特爾 ? 至強 ? 處理器以專為 AI 使命負載量身定制的設想理念，終明晰中樞架構和內存系統的雙重飛躍。其 64 中樞設想搭配高達 320MB 的三級緩存（每中樞由 1.875MB 普及至 5MB），相較上代緩存容量終了近三倍增長，為大領域并行 AI 推理提供充裕的土產貨數據存儲空間。與此同期，處理器扶植 DDR5-5600 高速內存，單路最大 4TB 的容量保證了大數據處理時的帶寬和蔓延上風。基于這些硬件普及，Emerald Rapids 舉座性能較上一代普及 21%，AI 推感性能平均普及 42%，在大說話模子推理場景中可終了最高 1.5 倍的性能加速，同期大幅訓斥總領有本錢達 77%。

英特爾?至強?6 處理器（代號 GNR Granite Rapids）——引頸 CPU AI 算力變嫌

全新 GNR 處理器專為頂住東談主工智能、數據分析及科學狡計等狡計密集型任務而設想。該居品在內核數目、內存帶寬及專用 AI 加速器方面均終了轉折打破：

中樞與性能：每 CPU 配備多達 128 個性能中樞，單路中樞數較上一代翻倍，同期平均單核性能普及達 1.2 倍、每瓦性能普及 1.6 倍，進一步強化了 CPU 在大模子推理中的并立處賢達商；

AI 加速功能：內置英特爾 ? 高檔矩陣擴張（AMX）新增對 FP16 數據類型的扶植，使得生成式 AI 和傳統深度學習推理任務均能取得顯赫加速；

內存與 I/O 打破：扶植 DDR5-6400 內存及英特爾首款引入的 Multiplexed Rank DIMM ( MRDIMM ) 本事，有用將內存帶寬普及至上一代的 2.3 倍；同期，高達 504MB 的三級緩存和低蔓延設想確保數據大概更快加載，為復雜模子素質和推理裁減反映時辰。

英特爾 ? 至強 ? 6 處理器不僅通過更多的中樞和更高的單線程性能普及了 AI 大模子推賢達商，同期也大概行為機頭 CPU 為 GPU 和其他加速器提供高速數據供給，進一步裁減舉座模子素質時辰。在知足攙和使命負載需求的同期，其 TCO 平均訓斥 30%，大模子推理加速最高可達 2.4 倍。

不管是第五代至強依然全新的至強 6 處理器，英特爾均通過在中樞架構、緩存系統、內存本事和專用 AI 加速器方面的全面變嫌，提供了業界率先的 AI 狡計扶植。這兩款居品為數據中心和高性能狡計平臺在 AI 推理、素質以及種種化使命負載下提供了強勁而高效的算力保險。

△圖 1 英特爾高檔矩陣擴張（AMX）英特爾全目的的 AI 軟件生態扶植

英特爾過甚配合股伴憑借多年 AI 積蓄，圍繞至強 ? 可擴張處理器打造了完善的軟件生態：平凡扶植主流開源框架，通過插件優化及種種化開源用具鏈，使用戶在 x86 平臺上大概毛糙開發、部署通用 AI 應用，無需手動調遣，同期確保從末端到云的全程安全保護。

其中，xFasterTransformer（xFT）是英特爾官方開源的 AI 推理框架，專為大說話模子在至強 ? 平臺上深度優化。xFT 不僅扶植多種數據精度（FP16、BF16、INT8、INT4），還能哄騙多 CPU 節點終了分散式部署，顯赫普及推感性能并訓斥本錢。其直爽的裝置和與主流 Serving 框架（如 vLLM、FastChat、MLServer、MindSpore Transformer、PaddlePaddle）的兼容性，匡助用戶快速加速大模子應用。在 3.1 節中基于天翼云 EMR 云主機和 xFasterTransformer 加速引擎終明晰對與 DeepSeek R1 蒸餾模子的高效推理部署。

△圖 2 英特爾提供 AI 軟件用具全面兼容主流 AI 開發框架附錄 2 CPU 環境下部署 DeepSeek-R1 671B 模子實踐環境設置

硬件設置

CPU：Intel ? Xeon ? 6980P Processor, 128core 2.00 GHz

內存 24*64GB DDR5-6400

存儲 1TB NVMe SSD

軟件環境

OS: Ubuntu 22.04.5 LTS

Kernel: 5.15.0-131-generic

llama.cpp: github bd6e55b

cmake: 3.22.0

gcc/g++: 11.4.0

Python: 3.12.8

git: 2.34.1

BIOS ?關閉 sub NUMA 有關設置。

注：版塊是指本測試中職業器上裝置的版塊，并?條目的最低版塊。

部署模范 1. 裝置 llama.cpp

參考 llama.cpp 官?的裝置證實，咱們的模范如下。

# 下載 llama.cpp 推理框架源碼 git clone https://github.com/ggerganov/llama.cpp.git cd llama.cpp# 事先準備 intel oneapi 庫 source /opt/intel/oneapi/setvars.sh# 基于 oneapi 庫對 llama.cpp 進行編譯 cmake -B build -DGGML_BLAS=ON -DGGML_BLAS_VENDOR=Intel10_64lp -DCMAKE_C_COMPILER=icx -DCMAKE_CXX_COMPILER=icpx -DGGML_NATIVE=ON cmake --build build --config Release -j$nproc

2. 下載模子?件

社區提供了從 1bit 到 8bit 不同版塊的量化選項，具體區別不錯參考社區網頁。咱們接納了使用最受迎接的 Q4_K_M 版塊。若是追求最好結尾，提出使用 Q8_0 版塊。

# 下載 unsloth 制作的社區版量化模子 ( hf-mirror 和 modelscpoe 源都可 ) git clone — no-checkout https://hf-mirror.com/unsloth/DeepSeek-R1-GGUFcd DeepSeek-R1-GGUF/# 提出 nohup 實施 , 瞻望至少需要半天時辰 , 同期確保磁盤容量彌漫 400G.git lfs pull — include= " DeepSeek-R1-Q4_K_M/* "

3. 模子加載和運?

使用 llama-cli，指定模子文獻旅途并啟用交互時勢，DeepSeek R1 滿血版就不錯在 CPU 上成功入手了。

build/bin/llama-cli -m /tmp/DeepSeek-R1-Q4_K_M/DeepSeek-R1-Q4_K_M-00001-of- 00009.gguf -i

底下用幾個示例展現 DeepSeek-R1 671B 滿血版強勁的的 reasoning 推賢達商 :

測試模子自我剖釋 :

考據推理能?的經典"草莓"問題 :

"等燈等燈"的意旨真諦 :

4. 性能及優化

那么 CPU 運?滿?版 R1 的性能奈何樣呢？咱們作念了有關性能測試。對于 Q4_K_M 模子，使?如下號召進行 :

export MODEL_PATH=/tmp/DeepSeek-R1-Q4_K_M/DeepSeek-R1-Q4_K_M-00001-of-00009.ggufnumactl -C 0-127 -m 0 ./build/bin/llama-cli -m $MODEL_PATH -t 128 — temp 0.6 -s 42 -no-cnv — no-kv-offload -ctk q4_0 -c 8192 -n 128 -p "以寥寂的夜行者為題寫一篇 750 字的散文，描繪一個東談主在城市中夜晚漫無目的行走的熱誠與所見所感，以及夜的稀薄予以的特有感悟。"

這?使? numactl 來指定使?單路 CPU ( 0-127, 6980P 有 128 核 ) ，以及這?路 CPU 的內存節點（numa0），幸免跨 numa 傳輸以獲取最好性能。

llama.cpp 是土產貨編譯的，編譯的時候使? Intel oneAPI 不錯有用普及它的性能。英特爾嘗試?了 oneAPI ?的 Intel C++ 編譯器和數學加速庫 MKL，結合 jemalloc 內存料理優化，推理速率不錯達到每秒 9.7~10 詞元 ( TPS, tokens per second ) 。

上?的實驗是在單路 CPU 上進?的，咱們?在兩路 CPU 上各?獨?啟動 1 個模子實例，總速率不錯達到 14.7TPS ( 7.32TPS+7.38TPS ) 。

再進?步，英特爾不雅察到基于現存的 llama.cpp 軟件?案，在 CPU 平臺莫得終了?效的各人并?和張量并?等優化，CPU 核?利?率和帶寬資源莫得充分闡揚出來，6980P 的 128 核?運? 1 個模子還有不少性能儲備。瞻望不錯不息增多實例數來取得更好的總 TPS。

另外，經常情況下，CPU 的 SNC ( Sub-NUMA Clustering ) 勸誘不錯取得更?的帶寬，然而受限于軟件并未優化終了考究匹配，這次實驗關閉了 SNC 測試。

以下?式的系統設置也有助于普及性能：

BIOS ?關閉 AMP prefetcher

? cpupower 掀開 CPU 的 pstate 性能時勢

提? CPU 的 uncore 頻率

關閉超線程 ( Hyper-Threading )

注 : 為了加速檢會進程，咱們結尾了詞元輸出?度 ( -n 128 ) 。經過考據，增多輸出?度 ( 舉例 -n 512 ) 對于生成性能狡計的影響不大。

* 本文系量子位獲授權刊載九游體育娛樂網，不雅點僅為原作家總共。

国产欧美一区二区三区沐欲_亚洲欧美网站在线观看_久久久久免费看黄a片app_成人激情文学综合网_午夜视频www_久久成人在线视频_日本99精品_欧美久久久久久久久久久久_精品日韩av一区二区_三级资源在线

九游體育娛樂網并可進行修改以確保職業安全-九游(中國)jiuyou·官方網站-登錄入口

熱點資訊

相關資訊