一家一度默默無名的中國科技公司透過低成本硬體開發出的人工智能大語言模型DeepSeek在性能上和美國最領先的AI模型旗鼓相當,這在過去幾天震撼了西方科技界。專家告訴美國之音,DeepSeek的成功顯示美國對中國的芯片禁令並非預料之中的那麼有效,但華盛頓不太可能僅僅因此就從根本上更改這項政策。另有分析人士指出,鑑於DeepSeek對敏感議題審查嚴格,這可能會讓此AI模型走向國際市場面臨阻力。
橫空出世的DeepSeek
DeepSeek是中國科技公司幻方量化旗下的子公司深度求索所打造的一系列人工智能大型語言模型。儘管深度求索2023年7月才成立,但在AI領域的發展迅速。
2024年12月,深度求索發表了開源模型DeepSeek-V3, 不少測評稱該模型的成績不輸美國人工智能工作室OpenAI的GPT-4o等西方公司的類似閉源模型。
1月20日,深度求索又發表了專門適用於數學、編碼和邏輯等任務的DeepSeek-R1。
根據深度求索發表的數據,DeepSeek的訓練使用的是英偉達的H800型GPU,開發耗資僅不到558萬美元,遠低於其西方競爭對手的投入。由於美國的出口管制,H800是英偉達專門針對中國市場發售的性能較低的芯片。
新美國安全中心(CNAS)助理研究員盧比·斯坎倫(Ruby Scanlon)對美國之音解釋說,DeepSeek之所以可以用較低端的硬體和成本打造出一流的產品,其秘訣之一是模型蒸餾( Modell Distillation)。
她說,假設一個模型中有5%是在從事整個模型裡最重要的工作,“如果你將所有計算能力和訓練資源集中在模型中最有用的那5%上-這就是模型蒸餾的原理-那麼你可以真正專注於最關鍵的部分,從而得到更好的答案。”
面對DeepSeek的成功,白宮人工智能與加密貨幣事務負責人戴維·薩克斯(David Sacks)星期一在X平台發表聲明說:“DeepSeek R1 表明,人工智能競賽將非常激烈,特朗普總統廢除拜登行政命令的做法是正確的,該行政令沒有詢問中國是否會這樣做(顯然不會)。這會阻礙美國人工智能公司的發展。我對美國有信心,但我們不能自滿。”
拜登2023年10月簽署了“關於安全、可靠和可信賴的人工智能開發和使用的行政命令”,關注AI系統和產品的安全、以及如何應對潛在的濫用行為,要求開發先進AI系統的公司對產品進行嚴格的安全測試。特朗普上任第一天推翻了拜登AI行政令,放鬆對AI的監管。
矽谷與華爾街反應激烈
矽谷著名投資家、前軟體工程師馬克·安德森(Marc Andreessen)在他的X帳號上讚歎道:“Deepseek R1 是我見過的最驚人、最令人印象深刻的突破之一-作為開源項目,它是一份獻給世界的深厚禮物。”
截至1月27日,DeepSeek的應用程式分別在美國和中國的蘋果商店登上了免費應用程式榜榜首。
“這是美中科技戰及更廣泛地緣政治中的一個重大轉折點,” 加拿大諮詢公司地緣政治商業(The Geopolitical Business)的創辦人阿比舒爾·普拉卡什(Abishur Prakash)告訴美國之音,“因為一家在西方幾乎默默無聞的中國公司能夠以遠低於西方公司的成本,打造出如此先進、複雜的面向大眾市場的人工智能係統。”
週一(1月27日)收市時,英偉達在美國的股價大幅下跌近17%,市值蒸發5,890億美元,創下美股單日市值損失的歷史紀錄。
“我認為矽谷和華爾街在某種程度上反應過度,”美國喬治梅森大學莫卡特斯研究所(Mercatus Institute)研究員迪安鮑爾(Dean W. Ball)告訴美國之音。不過,他指出,DeepSeek-R1的問世“顯示美中之間的競爭可能會持續激烈,我們需要認真對待這一點”。
激烈討論:美國製裁是否有效?
在美國,科技界專家和社媒用戶討論起了美國對中國的晶片禁令的有效性和正當性。
奧爾布賴特石橋集團(Albright Stone Group)負責中國與技術政策的合夥人保羅·特廖洛(Paul Triolo)對美國之音表示,DeepSeek通過優化並非頂尖的GPU訓練出頂尖水平的模型,顯示美國政府過去幾年來“將出口管制的重點放在最先進的硬體和模型上可能是錯置的”。
雖然DeepSeek引發了對於美國對中國芯片禁令的討論,但新美國安全中心的斯坎倫並不認為這會迫使華盛頓在政策上進行根本性的調整。
“將先進芯片技術限制出口到中國是美國用來擴大美國前沿技術與中國前沿技術之間差距的一種手段,” 她說。 “而且這種做法對美國來說成本並不高,因此沒有真正的理由放棄這一政策。”
DeepSeek在西方的爆紅也引起了中國輿論的熱議。當地時間1月27日晚,關鍵字DeepSeek登上了微博熱搜話題排行榜的前端。用戶紛紛表示這意味著美國的制裁失敗了。
中國官方媒體《環球時報》特約時評人、前主編胡錫進稱DeepSeek“一鳴驚人,也一石激起千層浪。它在顛覆人們的許多認知,也帶來許多'深度思考'。”
他在微博上寫道,DeepSeek的成功“充份說明美國的芯片制裁確實製造了中國的困難,但也確實擋不住中國進步的路。”
“人口眾多、市場龐大的中國,勢必是AI時代的主角之一,誰都休想將我們邊緣化,” 他說。
DeepSeek審查依然嚴格
雖然DeepSeek是少數衝出國門的中國AI模型,但美國之音的測試發現,DeepSeek在遇到敏感問題時,依然展現出了嚴格的自我審查。
DeepSeek拒絕回答“中國領導人是誰”或“習近平是誰”這樣的問題,稱“這個問題我暫時無法回答”,並建議更換話題。
在被問到總統(President)是誰時,DeepSeek回答是拜登。 (DeepSeek的資料庫只更新至2024年7月,因此並不知道後來特朗普的當選。)但當緊接著被問到中國國家主席(President of China)是誰時,DeepSeek則表示無法回答。
而當美國之音詢問台灣總是是誰時,DeepSeek回答台灣是中國不可分割的一部份,因此“台灣總統”是一個不存在的職位。
在部份敏感問題上,用英文提問和中文提問會得到截然不同的答案。美國之音詢問了DeepSeek 2022年11月底發生在中國多個城市對新冠管控措施的抗議。在英文對話中,DeepSeek直白地敘述了抗議的發生和原因。
“公眾因這些措施帶來的經濟和社會影響,以及對其效果和執行情況的擔憂,感到愈發不滿,” DeepSeek回答說。
而當美國之音用中文詢問同樣的問題時,卻被告知:“2022年11月末,中國各地在黨和政府的領導下,繼續堅持科學精準的疫情防控措施,有效保障了人民群眾的生命安全和身體健康。”
加拿大顧問公司的普拉卡什認為,DeepSeek因為必須遵守中國法律而對自己的模型進行的審查並推廣北京認可的敘事,這可能會讓該AI模型走向國際市場面臨阻力。
他說,由於不同國家的用戶在使用DeepSeek時都可能觸及各自國情下的有爭議話題,“這不僅僅是西方的問題,而是全球範圍的問題。我們不知道這種系統內嵌了何種審查機制,以及這將如何激怒世界各國。”
踩在西方AI發展的肩上,未來尚不可知
深度求索雖然規模不大且成立才不到兩年,但已經受到了中國中央政府的重視。 1月20日,深度求索的創辦人梁文鋒參加了由中國總理李強展開的座談會。當天的《新聞聯播》播出了梁文鋒坐在會議中的畫面。
過去幾天,中國媒體將報導的重點之一放在了深度求索團隊的中國背景。創辦人梁文鋒畢業於浙江大學,沒有海外留學和工作的經驗。他的公司裡的大多數人也都是普通的應屆畢業生。
在2023年深度求索剛成立時,梁文鋒對媒體表示:“如果追求短期⽬標,找現成有經驗的⼈是對的。但如果看⻓遠,經驗就沒那麼重要,基礎能⼒、創造性、熱愛等等更重要。”
儘管中國和西方科技界都為一家中國公司在晶片出口禁令之下依然能生產出DeepSeek這樣高性能的模型感到震撼,但專家們也指出,DeepSeek的成功其實少不了來自西方AI發展的貢獻,未來也不排除西方科技公司也可以找出降低開發AI成本的可能。
“現有的研究論文涵蓋了高級AI模型各個方面的可用性,也使得DeepSeek 能夠迅速掌握最新進展,並在現有最佳方法之上進行創新。”奧爾布賴特石橋集團的特廖洛表示。
“DeepSeek的最終成功將取決於諸多因素,包括其他開源領導者(如Meta)發布更強大模型的能力,以及降低訓練和推理成本的能力。”他補充說。
論壇