2025年春節期間,DeepSeek爆火出圈,發布開源大模型,在數學、代碼、自然語言推理等任務上表現追平OpenAI,在美國對我國AI產業鏈全方位打壓遏制的背景下,成功走出了一條低成本、高性能、國產化“突圍之路”并震驚世界,為加速國產AI大模型降本提效、生態繁榮注入了強大動力。
出圈情況
DeepSeek憑借“低成本+高性能”模型全球破圈。DeepSeek早前發布的V3模型每訓練1萬億tokens僅需在2048塊H800 GPU集群上耗時3.7天,總計278萬 GPU小時、557.6萬美元的訓練成本,約為GPT-o1的1/20、Llama 3.1的1/10。
新發布的R1模型API服務價格為每百萬輸入tokens 1-4元、每百萬輸出tokens 16元,遠低于同期 OpenAI o1 API定價水平,且在邏輯、數學及中文任務中表現優異。DeepSeek應用程序霸榜蘋果應用商店第一名,獲全球主流公有云公司平臺接入。
成功原因
DeepSeek通過較少算力實現高性能模型表現,主要通過算法創新和工程優化等方式大幅提升模型效率。一是成功走通“純”強化學習(RL)路徑。DeepSeek-R1拋開以預設思維鏈模板和監督式微調等為特點的AI推理能力傳統訓練方法,僅依靠簡單的獎懲信號來指導優化模型行為,不僅省去了SFT和復雜的獎懲模型對計算資源的需求,還促使模型以“頓悟”的形式學會思考。二是實現算法、框架和硬件的優化協同。為大幅減少內存占用和計算量,DeepSeek系列模型在算法層面引入專家混合模型、多頭隱式注意力、多token預測,框架層面實現FP8混合精度訓練,硬件層面采用優化的流水線并行策略,同時高效配置專家分發與跨節點通信,實現最優效率配置和資源節約。
DeepSeek具有擁抱AI的創始基因豐富的算力資源儲備、極具天賦的本土人才團隊。一是自帶AI創始基因。創始人梁文鋒畢業于浙江大學電子信息工程和計算機科學專業,早年創立對沖基金“幻方量化”,實現投資策略全面AI化,2023年5月成立深度求索,聚焦發展通用人工智能。二是豐富的算力資源儲備。幻方量化曾投資超過10億元,先后研發了AI超級計算機“螢火一號”和“螢火二號”。其中,“螢火二號”搭載了約1萬張英偉達A100顯卡。三是極具天賦的本土人才團隊。DeepSeek團隊工程師和研發人員幾乎都來自清華大學、北京大學、中山大學、北京郵電大學等國內頂尖高校,鮮有“海歸”,以走出校園不久的博士為主,也有部分成員有英偉達、微軟等國外企業工作或實習經歷。
產業影響
一是DeepSeek打破大模型發展路徑依賴,基本確立了符合中國實際的AI發展道路。DeepSeek 打破了 AI 大模型發展對算力和標注數據的高度依賴,展示了通過改進模型架構和訓練方法,以較少的數據標注量和算力消耗提升模型推理能力的可行性,標志著我國在硬件上長期存在代際差距的情況下,可采取軟硬協同方式實現對海外頂尖大模型的性能追趕和成本領先。
二是DeepSeek提升行業對模型的后訓練和推理需求,長期提振算力需求。DeepSeek R1在 V3 的基礎上進行了兩次強化學習,明顯提升了訓練的探索時間和推理思考時間,將在后訓練階段延續Scaling Law法則。隨著高性能低成本模型的出現將大幅降低國內AI賦能千行百業的應用開發門檻,推動AI產業鏈從“訓練驅動”向“推理驅動”轉變,帶動推理算力需求加速釋放。
三是DeepSeek以模型開源推動AI平權,開源路線有望打造應用繁榮的“安卓時刻”。DeepSeek完全開源了模型權重,允許其他開發者將模型用于商業用途并進行模型蒸餾。已發布了基于R1蒸餾Llama與Qwen的6個小模型,在多項基礎測試集中性能對標 o1-mini,被Facebook首席人工智能科學家楊立昆譽為“開源模型對閉源模型的勝利”。開源模型通過知識蒸餾快速打造高性能、輕量化小模型,將驅動端側模型在手機、電腦、眼鏡等智能硬件上的部署應用,形成AI應用百花齊放的格局。