美國人工智能研究機構開發的AI解答程序ChatGPT自去年11月橫空出世後,其貌似對任何問題來者不拒的強大表現在全球爆紅,也引發中國用戶關注。百度公司最近宣布,將推出類似ChatGPT的中文工具。分析認為,百度雖具技術實力,但中文版的同類工具質量能否與美版媲美還有待觀察,其AI工具代入政治審查也將是必然。
Your browser doesn’t support HTML5
ChatGPT :AI的核心技術突破
基於人工智能(AI)技術的對話式聊天工具已經出現多年,常常用於虛擬客服、企業培訓等領域。不同於這些傳統的對話軟件,由美國OpenAI研究實驗室開發的ChatGPT可以進行的對話更為複雜,憑藉其海量數據儲備,對任何提問來者不拒,甚至可以說笑話、起名字、吟詩作對——這些語言功能以前被認為是機器人無法掌握的創意工作。
同時,ChatGPT還具備編寫和調試計算機程序的能力。美國賓夕法尼亞大學沃頓商學院教授克里斯蒂安·特爾維什(Christian Terwiesch)今年1月發表文章透露,ChatGPT通過了他主持的一次工商管理碩士(MBA)考試;最近,ChatGPT還通過了明尼蘇達大學法學院教授給出的四項學生測試。
業界認為,ChatGPT標誌著機器學習和人工智能的核心技術突破。
台灣AI實驗室創始人、曾任微軟公司AI部門亞太區研究總監的杜奕瑾最近在接受美國之音採訪時說:“它(ChatGPT)利用龐大的資料、龐大的深入學習網路,透過非常高階的高級電腦運算,透過這種運算出來的結果……透過理解完整的文件,去回答相對複雜的問題。”
杜奕瑾說:“要能回答的好,不管是文本的數量級、模型的複雜度、超級電腦的運算能力,都是有很大的突破才有辦法做到這個結果。
ChatGPT界面簡單,使用流暢,背後支撐的是美國科技公司的雄厚財力和技術實力,以及AI技術人才。
ChatGPT的技術依託於OpenAI實驗室的“生成型預訓練變換模型3”(簡稱GPT-3)。GPT-3這一大型語言模型出身谷歌公司2017年開發出的“Transformer”開放架構,可以寫出與人類語言難以區分的文章。
喬治·華盛頓大學助理教授、研究AI相關政策問題的專家杰弗裡·丁(Jeffrey Ding)對美國之音說:“早期的GPT-3模型基本上是在大量互聯網文本上訓練的,這方面的數據來自學術期刊文章,是在Reddit(網絡論壇)、維基百科等語料庫(corpus)上訓練的。”
他說:“因此,這需要大量的數據、大量的計算能力,以及大量優秀的研究人員和工程師來確保訓練以高效的方式進行……對於這些大型語言模型來說,入行門檻非常高。”
微軟公司給予OpenAI重要的資金支持,於2019年7月投資10億美元,並在不久之後取得了GPT-3的獨家授權。ChatGPT誕生後,今年1月23日,微軟宣布再向OpenAI提供數年的投資。據美國新聞網站Semafor此前報導,微軟這輪總注資金額可能高達100億美元。
在美國舊金山灣區一家知名科技公司AI項目任職的華裔科研人士對美國之音說,OpenAI去年招募大量人力來“訓練”(tutor)基於海量數據的人工智能模型,誕生的ChatGPT因此比GPT-3架構有了質的飛躍。
這名要求匿名的科研人員對美國之音說:“在ChatGPT之前……2020年、2021年版本的GPT-3是沒有人類(參與)的數據,它是通過大量因特網上的文本進行訓練。直到去年,它們開始把人加進去,雇了很多很多人來做標註,來把模型訓練得很好,比網上許多那些開源的模型、開源的large language model(大型語言模型),ChatGPT要比他們的質量好得非常多。一大半的功勞是歸功於這些人做的這些標註。”
這名科研人員估計,讓ChatGPT保持運作,至少需要上千、乃至上萬台GPU(圖形處理器)。
“這一塊只有最大的big tech(科技巨頭),比如微軟、Google、英偉達,這樣的公司內部可以有這樣的機群,這樣大的計算力。”他說。
百度躍躍欲試 文本質量有待觀察
彭博社1月29日報導說,中國搜索網站巨頭百度也將推出類似ChatGPT的工具,技術基礎將根植於百度的大規模機器學習模型ERNIE 3.0系統。
以搜索服務起家的百度已經在人工智能研究上花費了數十億美元,多年來一直試圖從網絡營銷過渡到下一代新興技術,例如雲服務、芯片、汽車自動駕駛等。
ChatGPT走紅後,中文用戶對此興趣濃厚。雖然美國的ChatGPT工具支持中文問答,但包括ChatGPT在內的OpenAI實驗室的服務不對中國境內用戶開放。此前曾有程序開發者將ChatGPT以微信小程序的形式接入微信平台,讓中國國內用戶參與使用,但自12月中旬以來,這一小程序因“違規”被微信暫停了服務。
據報導,百度計劃在今年3月推出中國版本的ChatGPT,最初版本將嵌入其搜索服務中,讓用戶獲得對話式的搜索結果。有中國媒體報導,百度首席執行官李彥宏表示,相關技術已經達到臨界點,百度在其中有較大的機會。
舊金山灣區的那名科研人員認為,百度是最早投身大規模語言模型的公司之一,有技術實力發展出自己的“ChatGPT”。他說:“他們(百度)的研發搞了很久了。而且百度的財力和人力是有的,數據是有的,它那麼多的搜索、網頁,百度雲存了很多的網頁,所以不缺數據。”
“國內人工費也便宜,所以標註數據可能比OpenAI還便宜,成本不高。”
美國科技網站TechMonitor.ai指出,百度研究人員與中國鵬城實驗室合作發布的“鵬城-百度·文心”(ERNIE 3.0 Titan)預訓練語言模型具有2600億個參數,超過ChatCPT的技術根基(GPT-3.5模型)1750億的參數數量。
不過,有研究人員說,中國互聯網的文本質量,可能將製約百度版本的ChatGPT服務質量。
喬治·華盛頓大學的杰弗裡·丁說:“就質量而言,百度在製作自己版本的ChatGPT時將面臨的挑戰之一是,互聯網上沒有那麼多高質量的中文文本,因為高質量中文文本的語料庫(corpus)比高質量英文文本的語料庫要小。許多在這一領域工作的中國研究人員都指出過這個關鍵的區別。”
“以頂尖的學術論文為例,高質量的英語文章比比皆是,而中文的卻沒有那麼多。”丁對美國之音說。
他還表示:“百度的資金和算力限制也比OpenAI更大。因此,這兩個因素可能會降低百度版本ChatGPT的潛在質量。”
百度版ChatGPT是否會“一本正經地胡說八道”?
目前ChatGPT一個突出問題是,這一聊天工具常常以看似嚴肅的方式,在一些問題上信口開河,以貌似客觀權威的文風給出具有誤導性的答案,甚至是嚴重的不實信息。人工智能專家將這一問題形容為“一本正經的胡說八道”。
在ChatGPT推出的早期階段,即使面對難以回答、或者俱有荒謬假設前提的問題,聊天機器人還是會自信滿滿地給出長篇大論的“答案”。比較有名的例子是,曾有用戶提問“為什麼氰化鉀炒菜特別香”,ChatGPT竟然將這一劇毒物質形容為一種美味的調料,稱“尤其適合加入印度咖哩”。
與此同時,有用戶指出,ChatGPT在一些政治議題上似乎進行自我審查,包括在敏感話題上避免提出批評中國政府的意見。分析認為,百度開發的中國版ChatGPT,在處理問題時的“政治審查”將更為深入。
美國獨立學者金培力(Philip J. Cunningham)是ChatGPT的先行使用者。他在對這一“機器人”的英語表達能力感到讚歎的同時,也感到其“寫作”有時空洞無物。
“它製造了一個客觀的語氣,但它並不客觀,但它發出一個非常令人信服的聲音,因為在某種程度上,它非常確信自己。”金培力對美國之音說。
“不僅僅是句式完美,而且它是有組織的。它引入一個主題,代入主要部分,然後總結,很好地成篇連貫在一起。所以這是一篇文章。……但如果你仔細看,它實際上幾乎什麼都沒說。”
金培力是記錄1989年學生運動的《天安門之月》(Tiananmen Moon)一書的作者。他發現,ChatGPT對“六四”話題似乎不願多談。當被問到1989年天安門事件時,ChatGPT強調,“中國政府沒有發布相關信息,所以我們不能切實了解情況”。
“我認為它非常適合《中國日報》之類的東西,如果你想寫一些不會冒犯任何人的東西的話。”金培力說。
觀察人士認為,百度版的ChatGPT也將不可避免地代入內容政治審查。百度去年8月推出的文本生成圖像AI模型ERNIE-ViLG就拒絕為“天安門廣場”等政治敏感話題和政治領導人的描述生成圖像。
“在中國,為廣泛消費者使用而推出的任何人工智能技術都將面臨遵守國家審查準則的壓力,而且這些人工智能技術很可能是通過大量官方媒體文章培訓出來的,這些文章在廣泛的問題上都要堅持北京的官方立場。”福坦莫大學法學教授、美國外交關係協會高級研究員明克勝(Carl Minzner)通過電子郵件對美國之音說。
“在美國,人們說,不要說任何種族主義的話,然後就訓練機器不要帶有種族主義;在中國,人們訓練機器不要批評習近平,不要批評共產黨。這很容易。” 金培力表示。
他說:“(在美國)更多的是對'政治正確'的擔憂;在中國,擔心更多的是對當權者的批評。”
中國出台法規對付AI“深度偽造”
不過,也有分析人士指出,近年來以文字轉圖像生成軟件和ChatGPT智能聊天軟件為代表的“生成式人工智能”(Generative AI)將為所有國家的政府和社會提出如何監管和如何甄別虛假信息的挑戰。
新美國基金會(New America)數字經濟研究員、斯坦福大學網絡政策中心“數字中國”(DigiChina)項目主編魏光明(Graham Webster)說:“依靠這些黑箱算法傳遞信息的風險在於,沒有人在這一過程中檢查信息到底是不是好的。”
他對美國之音說:“人們可能會相信某些東西是真的,因為輸出(的信息)聽起來令人信服,但可能不是真的。這不僅僅是在中國,世界各地的人們、政府、公司、用戶都必鬚麵對這個問題。”
中國今年1月10日開始正式實施針對“深度偽造”(deep fake)的《互聯網信息服務深度合成管理規定》,要求服務提供商對那些“可能導致公眾混淆或者誤認的”AI生成內容進行“顯著標識”。
不過,即使中國能夠要求科技平台對“深偽”的圖像內容進行類似於水印的標註,如何對容易複製和流傳的文字進行“顯著標識”,將為執政者帶來技術難題。