非營利 AI 研究機構 Epoch AI 最新發布報告,指出 AI 企業難以從推理模型中,持續榨取巨大性能收益,最快在一年內,推理模型的進步將放緩。
報告基于公開數據和假設,強調了計算資源的限制和研究開銷的增加。AI 行業長期依賴這些模型來提升基準表現,但這種依賴性正面臨挑戰。
該機構分析師 Josh You 指出推理模型的興起,源于其在特定任務上的出色表現。例如,OpenAI 的 o3 模型在最近幾個月里,主要提升數學和編程技能。
而這些推理模型通過增加計算資源來解決問題,從而提升性能,不過作為代價,這些推理模型需要更多計算來處理復雜任務,因此比傳統模型耗時更長。

IT之家注:推理模型的訓練過程先是基于海量數據訓練一個常規模型,然后應用強化學習技術。該技術像給模型提供“反饋”一樣,幫助它優化對難題的解決方案。這種方法推動了 AI 的快速迭代,但也暴露了潛在的瓶頸。
OpenAI 等前沿 AI 實驗室正加大對強化學習的投資。公司表示,在訓練 o3 時,使用了約 10 倍于前代 o1 的計算資源,大部分用于強化學習階段。研究者 Dan Roberts 透露,OpenAI 的未來計劃將優先強化學習,并投入更多計算力,甚至超過初始模型訓練的水平。
這種策略加速了模型的改進,但 Epoch 的分析提醒,這種改進并非沒有上限,計算資源的增加會遇到物理和經濟約束。
Josh You 在分析中詳細解釋了性能增長的差異。標準 AI 模型訓練的性能目前每年翻番,而強化學習的性能每 3-5 個月增長十倍。這種快速增長可能到 2026 年與整體 AI 前沿進展趨同。
他強調,推理模型的規模化面臨不止計算問題,還包括高研究開銷:“如果研究需要持續的高開銷,推理模型可能無法達到預期規模”。