無障礙鏈接

突發新聞

專訪杜奕瑾:DeepSeek改變美中AI競爭格局?


馬斯克旗下的人工智能公司xAI於2月18日發佈了新的大語言模型Grok3。在發表會上,xAI 的團隊表示Grok3在數學推理、科學運算及程式設計能力等關鍵基準測試中,已超越GoogleGemini、OpenAI的GPT-4o、Anthropic Claude 3.5及DeepSeek V3。在這4個被xAI對標的大模型中,3個屬於美國公司,DeepSeek一家屬於中國公司。有分析師認為,DeepSeek躋身世界主流模式並成為前沿對標物,說明它改變了美中人工智能競爭的格局。但也有人認為,DeepSeek的走紅得益於裹挾著民族主義情緒的過度行銷。為此,《縱深視角》專訪人工智能專家,台灣人工智能實驗室創辦人杜奕瑾先生,詳解DeepSeek的技術細節以及它所揭示的全球人工智能發展和美中人工智能競爭的新趨勢。

專訪杜奕瑾:DeepSeek改變美中AI競爭格局?
please wait

No media source currently available

0:00 0:06:39 0:00

DeepSeek 物美價廉?

DeepSeek託生於一家從事量化金融的中國公司“幻方量化”。 2024年12月,DeepSeek發表了新一代大語言模型V3,引起業界熱議。 2025年1月20日,DeepSeek又發佈了最新的推理模型R1,稱其性能比肩OpenAI的推理模型ChatGPT o1,這讓它的知名度迅速“破圈”。

台灣人工智能實驗室創辦人杜奕瑾先生認為,DeepSeek R1的出現,確實反映出美中人工智慧的技術差距正在縮小。

他在《縱深視角》的專訪中說,“大家過去覺得,在大型語言模型這個領域,中國應該是落後美國一到兩年。也就是說,在美國做出了一個推理模型,中國可能一到兩年後才會做到。但是就在最近,你會覺得這個時間好像是逼近了。以前你是看不到車尾燈,現在好像他車子就在後面的這種感覺。”

但是,杜奕瑾先生指出,DeepSeek R1的表現只能算逼近ChatGPT 的o1, 並沒有超越。而DeepSeek 能夠實現這一點,也並不是依賴突破性的技術創新。

他說,“DeepSeek使用到的,比如混合精度訓練、多專家模型MoE,再來就是這種從大模型去做模型蒸餾,這些都不是創新的,都是本來就有的。DeepSeek只是把這些放到一起之後,做了一個Benchmark(基準)。”

所謂“模型蒸餾”是指開發者使用更強大的模型輸出的結果來訓練小模型,從而以更低的成本取得更高性能。 OpenAI已經發表聲明稱,有證據顯示DeepSeek使用了OpenAI 的專有模型來訓練自己的模型,存在侵權行為。

不過,一些業內人士認為,模型蒸餾是人工智能領域的常規操作,就連OpenAI 也使用別人的資料來訓練自己的模型。

杜奕瑾先生指出,其實Open AI的ChatGPT o1原本就提供了模型蒸餾的方法,但依照它的使用規範,這個模型蒸餾只能用於它自己的ChatGPT o1-mini。 DeepSeek卻用此蒸餾出了ChatGPT的競品,這是違反OpenAI 的使用守則的。

“但是這算不算違反知識產權,算不算剽竊,”杜奕瑾先生說,“其實在法律上是還沒有定論的。”

DeepSeek 另一個為人津津樂道的地方在於它的代價。 DeepSeek在發表的技術報告中寫道:“DeepSeek-V3的完整訓練僅需2.788M GPU小時。假設H800 GPU的租賃價格為每GPU小時2美元,我們的總訓練成本僅為557.6萬美元。”

不過DeepSeek的成本問題遭到廣泛質疑。知名的SemiAnalysis發佈研究報告指出:DeepSeek論文中提到的600萬美元成本僅指預訓練運行的GPU成本,這只是模型總成本的一小部分,他們在硬體上的花費遠高於5億美元。例如為了開發新的架構創新,在模型開發過程中,需要投入大量資金來測試新想法、新架構思路,並進行消融實驗。開發和實現這些想法需要整個團隊投入大量人力和GPU運算時間。

杜奕瑾先生也不認可DeepSeek“物美價廉”的說法。他指出,OpenAI在研發o1的過程中已經把成本效率跑通了,只是因為o1過去在推理模型領域屬於壟斷,沒有競爭對手,所以賣價更高。 DeepSeek是o1蒸餾的結果,“模型參數少的小模型,原本就會比較便宜”。

“你如果說因為技術能力讓運作成本不那麼昂貴,我的感覺是,開源社群在模型效能的節省上其實都有不錯的成績,DeepSeek對我來講並沒有特別的傑出,”杜奕瑾說。

DeepSeek證明算力不重要了?

DeepSeek走紅之際,中國媒體熱炒DeepSeek利用演算法的最佳化降低算力需求,證明中國能夠打破西方對華晶片出口管制所帶來的算力困局。

對此,杜奕瑾先生認為,DeepSeek確實彰顯出人工智能的發展並不單純地依靠算力的堆疊,而算法等工程技術的進步也非常重要。但這並不代表算力的影響會降低。

“就像人們常說的,錢不是萬能的,但沒錢是萬萬不能的。算力也是這個道理,”他說。

杜先生認為,DeepSeek順應並凸顯了全球人工智能發展業已存在的趨勢,就是在開源的基礎上,用大模型去訓練出小模型。在這樣的趨勢之下,人工智能界將進入百花齊放的時代。以前AI模型是只有微軟、Google、Meta這樣的科技巨頭才玩得起的遊戲,但現在即使是只能買得起幾十片GPU的小公司也能參與進來,這恰恰會推動對算力的需求。

“算力的競爭是不會結束的,”杜奕瑾說,“而是有了開源模型的結果,大家才開始看到,原來在人工智能時代,決勝點不是只有在算力,還有就是你的軟體工程。那在後面其實大家會慢慢會注意到,決勝點其實是真正到落地的每個應用。”

DeepSeek為美國人工智能界敲響警鐘?

美國總統特朗普1月27日談到DeepSeek時說: “希望中國公司發佈的DeepSeek人工智能能成為我們行業的警鐘,提醒我們需要全力以赴進行競爭。”

台灣人工智能實驗室創辦人杜奕瑾認為,全球人工智能領域在技術上屬於“競合”關係,尤其在開源社群。

他在《縱深視角》的專訪中說:“全世界的技術人員,對於開源社群的貢獻,都是不容抹滅的,包括阿里巴巴的千問團隊,包含DeepSeek團隊,在歐洲還有Mistral, 在台灣有AI Lab。我們在技術上,只要大家可以堆疊的奉獻,都是可以合作的。

DeepSeek等中國人工智能模型在資料安全的問題上飽受質疑。尤其在中國的情報法和資料法規之下,外界擔心這些中國公司難以避免與中國政府分享使用者資料。此外,中國的AI模型明顯表現出在政治敏感問題上的自我審查,並且在“模型幻覺”和“模型偏見”這些問題上更為嚴重,這與訓練模型所使用的中文數據的質量以及算法“姓黨”有關。在這些層面上,美國的人工智慧公司更佔競爭優勢。

不過中國人工智能的崛起還是給美國業界帶來了一定的壓力,尤其對於OpenAI等堅持閉源策略的公司。

杜奕瑾說,”以軟體的產業來講,你選擇一定程度的開放,實際上你才會成為這中間的霸主,因為當你選擇開放的時候,你就會樹立標準的典範,那大家就會跟隨,你就會變成規範,你就會變成一個生態系。“

特朗普政府強調放鬆監管鼓勵創新,並加大人工智能領域的投資。特朗普上任第一天就撤銷了前總統喬·拜登於2023年簽署的一項行政命令,該命令旨在為越來越強大的生成式人工智慧開發設置一些護欄以保護隱私和國家安全等。上任第二天,特朗普會晤了幾家領先科技公司的領導人,包括Open AI首席執行官薩姆·奧爾特曼(Sam Altman)、甲骨文(Oracle)董事長拉里·埃里森(Larry Ellison)和軟銀(SoftBank)首席執行官孫正義(Masayoshi Son),宣佈私營部門將投資5000億美元用於基礎設施,該項目被稱為“星際之門”(Stargate)。

論壇

XS
SM
MD
LG