只花20美元+26分鐘 AI教母李飛飛復刻DeepSeek R1推理模型star4038 (2025-02-07 16:33:18)




花費 20 美元、半小時不到的時間就能訓練出一個媲美 DeepSeek-R1 和 OpenAI o1 的推理模型?!文/鉅亨網


花費 20 美元、半小時不到的時間就能訓練出一個媲美 DeepSeek-R1 和 OpenAI o1 的推理模型?!


[caption id="attachment_163529" align="alignnone" width="1200"]

花費 20 美元、半小時不到的時間就能訓練出一個媲美 DeepSeek-R1 和 OpenAI o1 的推理模型?!(圖/取自X@deepseek_ai)[/caption]



被譽為「AI 教母」的知名華裔美籍科學家李飛飛,其團隊最近發布一篇新論文,令人震驚的是,他們成功降低了復刻 DeepSeek R1 推理模型的成本。根據論文內容,利用阿里系開源的 Qwen2.5-32B-Instruct 模型進行監督微調(SFT),僅需在 16 個輝達 H100 GPU 上訓練 26 分鐘,而所需的算力租賃成本約為 20 美元。


研究人員指出,這種省時省錢的模型在數學競賽類問題上的表現甚至超過了 OpenAI 的 o1 預覽版,實驗結果顯示,s1-32B 的成績在 MATH 和 AIME24 數據集上超出 o1-preview 多達 27%。李飛飛團隊的研究成果已在 GitHub 上開源,連結為 https://github.com/simplescaling/s1



此外,研究團隊還提出了一種名為「預算控制」(budget forcing)的策略,旨在調整測試時的運算資源。具體方法是強制終止模型的推理過程,或在生成內容時多次附加「Wait」,以延長模型的思考時間。這種方法能夠促使模型自我檢查答案,從而修正錯誤的推理步驟。在論文中,研究者以經典的數 R 問題為例,展示了這個策略的有效性。



李飛飛團隊的 s1 模型可視為 Qwen2.5 和 Gemini 2.0 Flash Thinking Experimental 的結合體。透過精心篩選的 1000 個問題及其答案,研究人員記錄了 Gemini 2.0 Flash 的 “思考過程”,並利用這些資料建立訓練集,對 Qwen2.5-32B-Instruct 進行微調。



有趣的是,這種做法可能違反了 Google 的使用條款,Google 禁止使用者對其模型進行逆向工程以開發競爭產品。對此,谷歌尚未回應。



在論文中,研究人員強調,s1 模型希望找到實現強推理能力和「測試時擴展」的最簡單方法。與 DeepSeek 的「大規模強化學習」方法相比,SFT 的成本顯著降低,因為它使用的是高品質的標註數據,且只需少量樣本即可獲得良好性能。



李飛飛團隊的這項研究再次引發了業界的關注。僅需 20 美元的投入和半小時的訓練時間,就能達到與 OpenAI 等公司數百萬美元成果相媲美的效果。這無疑為學界的研究人員提供了新的機遇,使他們無需巨額資金即可在 AI 領域取得創新突破。



然而,推理模型的未來「商品化」仍然是一個值得關注的問題。如果少量資金就能複製出價值數百萬美元的 AI 模型,企業的競爭優勢又將何在?儘管蒸餾是一種有效的複現方法,但仍需有志向的創新者和巨人來推動 AI 的發展。


(本文已獲鉅亨網同意授權刊出)


這篇文章 只花20美元+26分鐘 AI教母李飛飛復刻DeepSeek R1推理模型 最早出現於 科技島-掌握科技新聞、科技職場最新資訊

加密貨幣
比特幣BTC 82858.62 -1,217.10 -1.45%
以太幣ETH 1935.08 8.07 0.42%
瑞波幣XRP 2.29 -0.05 -2.16%
比特幣現金BCH 335.21 -2.56 -0.76%
萊特幣LTC 90.42 -1.94 -2.10%
卡達幣ADA 0.704970 -0.01 -1.83%
波場幣TRX 0.240766 0.02 9.14%
恆星幣XLM 0.275357 0.00 0.81%
投資訊息
相關網站
股市服務區
行動版 電腦版
系統合作: 精誠資訊股份有限公司
資訊提供: 精誠資訊股份有限公司
資料來源: 台灣證券交易所, 櫃買中心, 台灣期貨交易所
依證券主管機關規定,使用本網站股票、期貨等金融報價資訊之會員,務請詳細閱讀「資訊用戶權益暨使用同意聲明書」並建議會員使用本網站資訊, 在金融和投資等方面,能具有足夠知識及經驗以判斷投資的價值與風險,同時會員也同意本網站所提供之金融資訊, 係供參考,不能做為投資交易之依據;若引以進行交易時,仍應透過一般合法交易管道,並自行判斷市場價格與風險。
請遵守台灣證券交易所『交易資訊使用管理辦法』等交易資訊管理相關規定本資料僅供參考,所有資料以台灣證券交易所、櫃買中心公告為準。 因網路傳輸問題造成之資料更新延誤,精誠資訊不負交易損失責任。