2025-02-10
DeepSeek一夜爆紅!600萬美元打造OpenAI勁敵?DeepSeek-R1極低訓練成本真相大揭秘!
農曆新年期間,美國矽谷AI精英有如熱鍋上的螞蟻,只因中國初創公司深度求索(DeepSeek)推出旗下首個思考型AI模型「DeepSeek-R1」,其效能直逼OpenAI o1,但外界估計其訓練成本只有600萬美元左右,不到Meta、OpenAI的十分之一,引發美國高科技股一夕暴跌。但後來逐漸發現,DeepSeek的極低訓練成本「神話」卻是疑點重重,其真正成本可能遠比外界想像為高。究竟DeepSeek-R1是AI技術發展的新里程碑,還是精心策劃的騙局?
Read More
思考型AI時代降臨!OpenAI o1能力勝過GPT-4o、超越專家博士!能否改變AI競爭格局?
AI革命加速!OpenAI o3思考力大躍進!編程、科學知識更勝人類專家!離通用人工智能還有多遠?
DeepSeek-V3訓練成本比對手低
2024年12月26日,深度求索推出新版開源模型「DeepSeek-V3」,開發者可免費下載其原始程式碼,任意進行研究和修改。在多項基準測試中,它比起同屬開源、由Meta公司開發的Llama 3.1-405B,表現更為優秀。
深度求索在DeepSeek-V3的論文中提及,因受到美國出口管制,只能使用輝達(NVIDIA)為中國市場特供的低配版AI晶片H800 GPU來訓練模型,其間只用了2,048顆H800,訓練時長為278.8萬GPU小時,訓練成本為557.6萬美元(約4,350萬港元)。
至於Llama 3.1-405B,訓練時長為3,080萬GPU小時,成本足足是DeepSeek-V3的11倍。若說到最多人使用的OpenAI GPT-4o,則使用了25,000顆高階GPU,訓練成本更是高達1億美元(約7.8億港元)。這意味著中國AI公司已找到高效而低成本的模型訓練方式,即使手頭上沒有大量高階AI晶片,同樣可以建構先進的AI模型,惟當時未有引起太大關注。
DeepSeek-R1達到推理思考境界
真正令DeepSeek一夜爆紅的是,2025年1月20日釋出的另一個全新模型「DeepSeek-R1」。它與OpenAI o1同屬思考型AI模型,在回答用戶提問前,會花更多時間進行推理思考,藉由分步驟剖析問題,識別和修正當中錯誤,進而提供「更深思熟慮」的答案。當深度求索竟然可以研製出思考型模型,矽谷AI精英就開始坐不住了。
大家要知道,推理思考是AI從助理(Assistant)轉型為代理(Agent),再邁進通用人工智能(Artificial General Intelligence)聖殿的關鍵能力,也是OpenAI、Google、Anthropic等AI先驅的終極賽道。現時這條賽道上突然冒出一家名不經傳的中國AI初創,而且能以極低成本方式進行模型訓練,當然震驚了整個AI業界。同時,這亦引發外界質疑美國AI公司的運作效率是否較差,或者燒錢是否過多。
事實上,DeepSeek-R1論文中沒有披露其訓練成本等細節。外界只是以DeepSeek-V3論文所述的557.6萬美元訓練成本為基礎,估計R1訓練成本應該不會比V3高出多少,於是猜想可能是600萬美元左右。隨後,這兩個金額被各大傳媒應泛引用寫成報道,因而造就了DeepSeek-R1極低訓練成本的「神話」。
Deepseek網站因有大量用戶湧入,以致伺服器負荷過重,經常斷線,嚴重影響服務質素。筆者也要兩度嘗試進入網站,方可拍攝到其主頁畫面。(圖片來源:翻攝DeepSeek官網)
DeepSeek資本支出達16億美元
半導體研究機構SemiAnalysis認為,557.6萬美元只是最終訓練成本,估計深度求索擁有5萬顆NVIDIA高階到低階晶片,包括:10,000顆H100、10,000顆H800、以及一定數量的低配版H20,晶片投資額應在5億美元(約39億港元)以上,再加上營運成本約為9.44億美元(約73.6億港元),故此該公司總資本支出可能高達16億美元(約124.8億港元)。
Anthropic共同創辦人達里奧·阿莫代(Dario Amodei)指出,美國AI企業在計算模型訓練成本時,會納入訓練以外的研究開支,所以總額才會高達數十億美元;他認為,僅是計算最終訓練成本的做法,並不公平。
其實,DeepSeek-V3論文中已有說明,557.6萬美元只是訓練正式階段所耗的GPU使用成本,未有納入團隊研發費用,只是一直被人忽略了。因此有評論認為,對DeepSeek「神話」的炒作,只為引發美股暴跌,以便炒家放空牟利。
DeepSeek蒸餾OpenAI模型數據
DeepSeek另一備受爭議之處是,涉嫌偷用OpenAI模型的數據來訓練自家模型。一般來說,OpenAI等AI公司進行模型訓練,先要搜集、篩選和分類大量原始知識數據,供模型從頭學起,歷時需要數月,成本動輒數千萬美元以上。
DeepSeek-R1論文指出,為求降低成本,團隊採用蒸餾(Distillation)技術,意指把成熟大模型的知識資料抽取出來,然後輸入到新的小模型;如此一來,便可以省去蒐集和整理原始數據的時間和成本。因此在蒸餾技術下,開發者可以在幾個星期、甚至幾天內製作出一個幾乎跟成熟大模型同樣好的模型。
OpenAI於2025年1月29日表示,有證據顯示DeepSeek曾使用OpenAI模型來訓練自家模型,並暗示此舉或許違反OpenAI服務條款。根據OpenAI服務條款,用戶可以透過OpenAI提供的API介面,將其AI技術跟自家應用軟件結合使用,但卻嚴禁用戶複製其任何服務或使用其輸出來開發跟OpenAI競爭的模型。
雖然深度求索涉嫌違反OpenAI服務條款,但OpenAI執行長山姆·奧特曼(Sam Altman)卻大方地表示,暫時未有計劃控告DeepSeek,並強調會繼續創造優異產品,以模型實力引領世界。
Deepseek手機App自2025年1月26日榮登Apple App Store榜首以來,18天內下載量已突破1,600萬次。(圖片來源:翻攝Apple App Store)
DeepSeek或有助加快AI普及化
隨著傳媒不斷報道DeepSeek,使用人數也與日俱增。據悉,其每日活躍用戶數已達2,215萬,等於ChatGPT的4成左右。但近日有不少用戶投訴,DeepSeek伺服器經常陷入繁忙狀態,導致回答延遲,有時甚至要等上15分鐘方可獲得回覆。
DeepSeek創辦人梁文鋒(右)行事低調,鮮少在傳媒鏡頭前曝光。他於2025年1月20日出席中國國務院總理李強主持召開的專家與企業家座談會,才讓人有機會一睹其廬山真面目。(圖片來源:翻攝央視官網)
由此看來,就算DeepSeek能以較低成本來訓練模型,但當模型上線開放給用戶使用,始終要有龐大的AI基建來支撐日常運作。深度求索表示,因為伺服器容量不足,所以限制其API介面服務的存取,而且暫時不會提供新的折扣優惠;同時又限制新用戶註冊,只開放給擁有中國地區手機號碼的人開設新帳戶。
那麼,DeepSeek-R1是否徒具虛名,不值一顧?答案當然不是。DeepSeek-R1採用了AI蒸餾、強化學習(RL)、自監督學習(SSL)、混合專家模型(MoE)、多頭潛在注意力架構(MLA)等多項先進技術,讓它即使搭配中低階AI晶片運作,也可以有理想表現。雖然上述技術不算是甚麼新發明,但把所有技術整合於同一模型上,始終是一個創新做法。
DeepSeek-R1的出現,打破了投入大量資金、以高階AI晶片堆疊高運算力的迷思,預計未來很多歐美AI公司在參考DeepSeek-R1的設計後,將會推出更多低成本的AI模型,有助加速生成式AI的普及進程。
《經濟通》所刊的署名及/或不署名文章,相關內容屬作者個人意見,並不代表《經濟通》立場,《經濟通》所扮演的角色是提供一個自由言論平台。
《說說心理話》親友自殺離世遺屬如何自處?身邊親友應該怎樣陪他們走出人生最低谷?► 即睇