智庫觀點：解碼DeepSeek -- 飛象網

2025年春節期間，DeepSeek爆火出圈，發布開源大模型，在數學、代碼、自然語言推理等任務上表現追平OpenAI，在美國對我國AI產業鏈全方位打壓遏制的背景下，成功走出了一條低成本、高性能、國產化“突圍之路”并震驚世界，為加速國產AI大模型降本提效、生態繁榮注入了強大動力。

出圈情況

DeepSeek憑借“低成本+高性能”模型全球破圈。DeepSeek早前發布的V3模型每訓練1萬億tokens僅需在2048塊H800 GPU集群上耗時3.7天，總計278萬 GPU小時、557.6萬美元的訓練成本，約為GPT-o1的1/20、Llama 3.1的1/10。

新發布的R1模型API服務價格為每百萬輸入tokens 1-4元、每百萬輸出tokens 16元，遠低于同期 OpenAI o1 API定價水平，且在邏輯、數學及中文任務中表現優異。DeepSeek應用程序霸榜蘋果應用商店第一名，獲全球主流公有云公司平臺接入。

成功原因

DeepSeek通過較少算力實現高性能模型表現，主要通過算法創新和工程優化等方式大幅提升模型效率。一是成功走通“純”強化學習（RL）路徑。DeepSeek-R1拋開以預設思維鏈模板和監督式微調等為特點的AI推理能力傳統訓練方法，僅依靠簡單的獎懲信號來指導優化模型行為，不僅省去了SFT和復雜的獎懲模型對計算資源的需求，還促使模型以“頓悟”的形式學會思考。二是實現算法、框架和硬件的優化協同。為大幅減少內存占用和計算量，DeepSeek系列模型在算法層面引入專家混合模型、多頭隱式注意力、多token預測，框架層面實現FP8混合精度訓練，硬件層面采用優化的流水線并行策略，同時高效配置專家分發與跨節點通信，實現最優效率配置和資源節約。

DeepSeek具有擁抱AI的創始基因豐富的算力資源儲備、極具天賦的本土人才團隊。一是自帶AI創始基因。創始人梁文鋒畢業于浙江大學電子信息工程和計算機科學專業，早年創立對沖基金“幻方量化”，實現投資策略全面AI化，2023年5月成立深度求索，聚焦發展通用人工智能。二是豐富的算力資源儲備。幻方量化曾投資超過10億元，先后研發了AI超級計算機“螢火一號”和“螢火二號”。其中，“螢火二號”搭載了約1萬張英偉達A100顯卡。三是極具天賦的本土人才團隊。DeepSeek團隊工程師和研發人員幾乎都來自清華大學、北京大學、中山大學、北京郵電大學等國內頂尖高校，鮮有“海歸”，以走出校園不久的博士為主，也有部分成員有英偉達、微軟等國外企業工作或實習經歷。

產業影響

一是DeepSeek打破大模型發展路徑依賴，基本確立了符合中國實際的AI發展道路。DeepSeek 打破了 AI 大模型發展對算力和標注數據的高度依賴，展示了通過改進模型架構和訓練方法，以較少的數據標注量和算力消耗提升模型推理能力的可行性，標志著我國在硬件上長期存在代際差距的情況下，可采取軟硬協同方式實現對海外頂尖大模型的性能追趕和成本領先。

二是DeepSeek提升行業對模型的后訓練和推理需求，長期提振算力需求。DeepSeek R1在 V3 的基礎上進行了兩次強化學習，明顯提升了訓練的探索時間和推理思考時間，將在后訓練階段延續Scaling Law法則。隨著高性能低成本模型的出現將大幅降低國內AI賦能千行百業的應用開發門檻，推動AI產業鏈從“訓練驅動”向“推理驅動”轉變，帶動推理算力需求加速釋放。

三是DeepSeek以模型開源推動AI平權，開源路線有望打造應用繁榮的“安卓時刻”。DeepSeek完全開源了模型權重，允許其他開發者將模型用于商業用途并進行模型蒸餾。已發布了基于R1蒸餾Llama與Qwen的6個小模型，在多項基礎測試集中性能對標 o1-mini，被Facebook首席人工智能科學家楊立昆譽為“開源模型對閉源模型的勝利”。開源模型通過知識蒸餾快速打造高性能、輕量化小模型，將驅動端側模型在手機、電腦、眼鏡等智能硬件上的部署應用，形成AI應用百花齊放的格局。

韩国三级一区-韩国三级香港三级日本三级la-韩国三级香港三级日本三级-韩国三级视频网站-日韩欧美一及在线播放-日韩欧美一二三区

智庫觀點：解碼DeepSeek