中國科技新創公司DeepSeek發表的人工智能新模型震撼了美國的矽谷和華爾街。專家告訴美國之音,DeepSeek之所以可以用較低端的硬體和成本打造出一流的產品,其秘訣之一是模型蒸餾(Model Distillation)。另有專家說,鑑於DeepSeek對敏感議題審查嚴格,這可能會讓該AI模型走向國際市場面臨阻力。
中國科技新創公司DeepSeek的人工智能新模型在美國引起震動,同時震撼了華爾街和矽谷。DeepSeek的官方數據顯示,它使用約2000具英偉達專供外銷中國較低階的H800型GPU從事訓練。整個開發過程歷時約2個月,耗資約558萬美元,遠低於其西方競爭對手在AI模型建立的投入
新美國安全中心(CNAS)助理研究員盧比‧斯坎倫說:“DeepSeek 真的掌握了‘模型蒸餾’(Model Distillation)的方式,你知道,在模型蒸餾方面做了很多工作,但本質上,就是你只訓練模型中最有用的5%。所以如果你有一個模型,它正在工作來創造一個輸出,那麼這個模型中的5%正在做大部分工作。這個模型中的5%是所謂的‘專家’。因此,如果你真的把所有的計算能力和訓練資源都投入到模型的5%和最有幫助的5%上,這就是模」模型蒸餾「。然後,你就可以真正將你的運算能力和訓練資源集中在最關鍵的事情上,並獲得更好的答案。這就是 DeepSeek 真正能夠駕馭和掌握的東西。”
DeepSeek在蘋果應用商店免費下載量排名首位的同時,納斯達克指數科技板塊在1月27日暴跌3%以上。GPU製造商英偉達美國股價當日大跌近17%,市值蒸發5,890億美元,創下美股單日市值損失的歷史紀錄。DeepSeek最終會對美國AI產業帶來怎樣的影響目前還不清楚。但不少試用者發現它會對有關中國的敏感話題進行內容審查。
多倫多顧問公司 The Geopolitical Business 創辦人阿比舒爾普拉卡什說:“我確實認為,DeepSeek在西方將會遇到一些挑戰,不僅是在西方,也包括非西方世界。西方人會問天安門廣場的問題,印度人可能會問其他問題,日本人可能會問其他問題,俄羅斯人可能會問其他問題,這不僅是西方的問題,而是全世界的問題。我們不知道這個系統內建了什麼樣的審查制度,也不也不知道這會如何激怒世界各地的國家。”
論壇