首發(fā) | 昆侖芯 | 國產AI卡Deepseek訓練推理全版本適配、性能卓越，一鍵部署等您來

ainet.cn 2025年02月06日

編者按：本文是昆侖芯適配DeepSeek系列推文第一篇，將于近期分別推出在昆侖芯P800上進行DeepSeek-V3/R1推理、訓練的深度文章，干貨滿滿、持續(xù)關注!

短短兩周，DeepSeek成為全球增速最快的AI應用。憑借卓越的性能和廣泛的應用場景，這匹大模型黑馬已然成為行業(yè)標桿，為千行百業(yè)提供了AI解決方案新選擇。蛇年開工當天，昆侖芯新一代產品P800萬卡集群點亮的消息引發(fā)關注，三萬卡集群也將于近日點亮，為國產AI算力注入強大勢能。

昆侖芯在大模型時代爆發(fā)出卓越的競爭力，而這正是基于十余年真實業(yè)務場景歷練以及獨特的自研優(yōu)勢。作為國產AI芯片引領者，昆侖芯已完成Deepseek訓練推理全版本適配，且性能卓越、成本效率極致，一鍵部署，為廣大開發(fā)者提供更快、更強、更省的訓推體驗。

全版本：率先完成訓練推理DeepSeek全版本適配

在模型適配方面，昆侖芯領先業(yè)界。在DeepSeek-V3/R1上線不久，昆侖芯便率先完成全版本模型適配，這其中包括DeepSeek MoE 模型及其蒸餾的Llama/Qwen等小規(guī)模dense模型(詳見下方海報)。

同時，昆侖芯也已全面適配文心系列、Llama、Qwen、ChatGLM、Baichuan等各類大模型的推理和訓練任務，性能優(yōu)勢明顯。在各個行業(yè)客戶、合作伙伴的業(yè)務場景中，昆侖芯已實際上線運行各類大模型任務;通過千卡和萬卡集群為客戶提供了穩(wěn)定的服務和優(yōu)秀的性能表現。

性能卓越：前瞻產品定義、極致成本效率

得益于昆侖芯前瞻的產品定義，昆侖芯產品性能表現卓越，成本優(yōu)勢領先。

昆侖芯P800可以較好的支撐Deepseek系列MoE模型大規(guī)模訓練任務，全面支持MLA、多專家并行等特性，僅需32臺即可支持模型全參訓練，高效完成模型持續(xù)訓練和微調。

P800顯存規(guī)格優(yōu)于同類主流GPU20%-50%，對MoE架構更加友好，且率先支持8bit推理，單機8卡即可運行 671B 模型。正因如此，昆侖芯相較同類產品更加易于部署，同時可顯著降低運行成本，輕松完成DeepSeek-V3/R1全版本推理任務。

開發(fā)者友好：一鍵部署、即刻上線

P800生態(tài)完備，易用性強，可以實現對訓練和推理任務的快速適配。P800快速適配支持了Deepseek-V3/R1的持續(xù)全參數訓練，LoRA等PEFT能力，提供給用戶開箱即用的訓練體驗?；诶鲂就暾能浖鷳B(tài)棧，兩個步驟即可輕松實現在昆侖芯P800上進行DeepSeek-V3/R1推理部署，對廣大開發(fā)者十分友好。

歡迎體驗：兩步完成DeepSeek-V3/R1模型推理部署

1 .資源準備

主要是鏡像和模型，鏡像提供完整的依賴環(huán)境開箱即用。

模型準備

昆侖芯P800支持8bit推理，下載官方權重后使用如下命令進行量化(后文附有下載方式);其他不同尺寸蒸餾模型則通過huggingface下載即可。