由中國私募巨頭幻方量化孵化嘅AI初創公司DeepSeek,上周一(20日)推出開源推理模型R1後,短短七日內引爆全球AI界。DeepSeek模型好明顯係利用其他大模型作為訓練素材,甚至曾經出現「call me by your name」嘅搞笑失誤,被稱為「AI界拼多多」,不過唔緊要,由於其超強CP值,DeepSeek模型喺今日衝上蘋果花旗國同神州嘅免費App下載榜冠軍。
AI模型價錢愈捲愈平已經係大趨勢,而DeepSeek嘅價錢更平到你唔信,V3模型API輸出每百萬token只需要0.28美元,而OpenAI-o1每輸出百萬tokens需要60美元。點解可以咁平,因為DeepSeek嘅訓練方法極為慳錢,即使晶片性能較差、資金同GPU使用時間更少,都仍然可以站在Open AI巨人肩上,同對方比肩,Meta急到要開4個「作戰室」研究點抄橋,Meta CEO朱克伯格更超預期大手筆課金最多650億美元急起直追。
DeepSeek嘅殺手鐧就係將「慳到盡」玩成技術革命:用2048張性能比H100低嘅H800 GPU,靠注自創MLA架構壓縮數據,同FP8低精度訓練(即係將數據精度由「高清」降到「夠用就算」,慳埋啲無謂運算),仲連GPU等數據傳輸嘅「發呆時間」都唔放過,係要逼到粒晶片24小時全速運轉,硬生生喺兩個月內練出媲美GPT-4o嘅模型。呢套「四両撥千斤」嘅玩法,連AI大神Andrej Karpathy都嚇親:正常要1.6萬張GPU先做到嘅嘢,DeepSeek用少過八分之一硬件就搞掂。
DeepSeek帶嚟嘅最革命創新,就係創辦人梁文鋒堅持將模型連訓練方法全部開源,DeepSeek仲用埋MIT協議(任改任賣唔使問),吸引咗Hugging Face全球開發者狂down 10.9萬次,連HuggingFace CEO都要發起Open R1計劃,號召全球復刻佢個模型。DeepSeek將佢嘅得意之作完全開源,意味住就算係小企業甚至個人,都可以喺較少嘅資源下,配置到媲美當今世上最先進嘅AI模型,令AI時代進一步加速到來,就算係被花旗國技術封鎖嘅國家同地區,都好可能用到最先進嘅AI產品。
華爾街亦開始動搖:A16Z創辦人Marc Andreessen大讚R1係「送畀世界嘅禮物」,OpenAI前政策主管Jack Clark更警告,中國大模型遲早同無人機、電動車一樣橫掃全球。但而家Meta嘅恐慌,與其話驚神州AI超車,不如話驚自己套「燒錢大法」被DeepSeek證明咗--燒錢堆GPU嘅時代可能完結,驚被時代淘汰。
就連早前侵侵宣布嘅總規模達到5000億美元嘅「星球之門計劃」亦被投資者懷疑,「而家AI係鬥性價比,唔係鬥燒錢速度。DeepSeek證明平嘢都可以好勁,仲點說服人科水5000億?」恐怕連共和黨金主都唔敢跟車太貼。請請!
*編者按:本欄搜羅即日熱門傳聞,惟消息未經證實,《經濟通》亦不保證內容之準確性;本文只供參考之用,並不構成要約、招攬或邀請、誘使、任何不論種類或形式之申述或訂立任何建議及推薦,讀者務請運用個人獨立思考能力自行作出投資決定,如因相關建議招致損失,概與《經濟通》、編者及作者無關。
【立即投票】今個農曆新年你會如何度過? ► 立即投票