近來,中國人工智能(AI)公司深度求索(DeepSeek)發(fā)布的開源大模型DeepSeek-R1火遍全球,引發(fā)業(yè)內熱議:全民AI時代是否已經到來?
過去兩年多,以OpenAI為代表的美國公司開啟并引領了人工智能大模型投資熱潮,因為不缺芯片和算力,其主流思路是“越大越好”——以更強算力、更多數據訓練更大的模型,來獲得更高性能。這讓大模型能源消耗巨大,訓練成本驚人,也帶來了商業(yè)推廣難題:大模型投不起,小模型不好用。
DeepSeek改變了這一格局。他們在模型架構和訓練過程中進行深度優(yōu)化,在大幅降低計算資源消耗的同時,躋身世界頂級AI大模型之列,實現了“低成本”與“高性能”的兼得。同時,與OpenAI的閉源策略相反,DeepSeek免費開源其大模型,明示全部技術路線,更加推動了大模型技術從“奢侈品”向“日用品”的轉變。
從技術進步角度看,低成本開源大模型開啟競爭新賽道,AI的未來更值得期待。
低成本是技術普及的基本要求,買得起才能讓千家萬戶用得上。小汽車、個人電腦、手機的普及都是如此,人工智能產業(yè)大概也不會例外。這幾年,企業(yè)界和科技界已經為降低大模型成本作出了大量努力,DeepSeek模型正是其中的杰出成果,證明“此路可通”。
但大模型價格還沒有降到底。在降本增效這條路上,DeepSeek并非終點,而是一個新的起點。開源代碼、開放API(應用程序編程接口)及訓練方法,吸引全球開發(fā)者參與技術迭代。1月20日R1推出后,各國AI技術人員掀起“DeepSeek復現熱潮”。有美國科研團隊聲稱,僅用幾十美元成本租用云計算資源,便復現了模型。
DeepSeek使用專家混合架構MoE實現了更高的成本效益。而就在2月12日,字節(jié)跳動豆包大模型團隊宣布推出全新的稀疏模型架構UltraMem,優(yōu)化了推理性能,使得推理速度較MoE架構提升了2倍至6倍,推理成本最高可降低83%。
從商業(yè)應用角度看,DeepSeek重塑AI生態(tài)鏈,大模型展現了巨大商業(yè)潛力。
美國的AI龍頭公司一方面夸大開源AI的安全風險,力圖通過監(jiān)管抑制開源AI,另一方面又用巨大投入抬高大模型準入門檻。這就形成了“金字塔”生態(tài),科技巨頭壟斷大模型,中小企業(yè)依賴API。
而開源模型對于全球AI供應鏈至關重要,廣大發(fā)展中國家尤其需要開源AI技術。開源模型讓每個開發(fā)者都能輕松調用強大的AI工具,不再受大公司的約束,AI的進化速度和普及程度都明顯提升。http://m.designeddinner.com