編者按:這篇文章是香港科技大學(xué)校董會主席、美國國家工程院外籍院士沈向洋(Harry Shum)在2024年9月5日開幕的2024年外灘大會上的演講實錄。在題為《大模型時代的機遇和挑戰(zhàn)——技術(shù)融合 產(chǎn)業(yè)躍遷》的演講中,沈向洋院士分享了他對算力、數(shù)據(jù)、大模型、以及AI Agent、AI 治理等話題的思考。
精彩觀點:
摩爾說我們18個月漲一倍算力,現(xiàn)在GPU算力是一年漲四倍。如果18個月只是漲一倍,那么十年下來大概上漲100倍。一年漲四倍,那么十年下來就是100萬倍。我再強調(diào)一遍,100萬倍。
如果大家關(guān)注大模型,都知道大模型整個模型越來越大,參數(shù)量越來越大。所以算力要求,隨著參數(shù)的增長,實際上還不僅僅是線性增長,更加像是一個平方向的增長。
真正做大模型的公司,如果你一萬張卡都沒有,你就根本不要講自己是在干大模型的公司了。
GPT-5出來的時候,到底會用多少數(shù)據(jù)?我們現(xiàn)在只能猜一猜,我猜大概會是200個T的數(shù)據(jù)。
今天你要做通用大模型,那肯定至少是萬張卡,而且再向前走,1萬張A卡都不行了,要一萬張H卡。行業(yè)大模型需要千卡級別的資源。每家企業(yè)要做企業(yè)大模型,可能需要百卡訓(xùn)練。
我覺得接下來,人工智能的發(fā)展很重要的一點,從各個國家、全球的角度來講,一定要做主權(quán)人工智能,所謂的Sovereign AI。主權(quán)人工智能背后一定需要有個主權(quán)云Sovereign cloud,來支持Sovereign AI的發(fā)展。
GPT-3出來了以后,大家講有個東西叫做智能,有個東西叫做智能涌現(xiàn)。但實際上,為什么涌現(xiàn)出來,什么時候涌現(xiàn)出來,是什么方式涌現(xiàn)出來,都是講不清楚的。
以下是“智能超參數(shù)”根據(jù)演講視頻整理而來的演講實錄,enjoy:
大家早上好,非常高興又回到美麗的上海,跟大家一起分享一下最近在人工智能的科研方面、產(chǎn)業(yè)方面的一些心得和體會。今天我講的題目是《大模型時代的機遇和挑戰(zhàn)——技術(shù)融合 產(chǎn)業(yè)躍遷》。
我們今天大會的主題是科技的發(fā)展和未來可持續(xù)發(fā)展。其實我們應(yīng)該首先看一看人類歷史的發(fā)展。它實際上從頭到尾就是一個技術(shù)發(fā)展的歷史,推動了人類整體發(fā)展。
如果我們聚焦到最近,就不要講以前發(fā)明的火、發(fā)明了輪子,那么現(xiàn)在最近這些年的這樣的一個發(fā)展,大家可以看得到整個科研的發(fā)展,科技的發(fā)展的話,它實際上整體是在加速的。剛才Kevin Kelly的三個觀點里面也提到了一個加速的發(fā)展。
現(xiàn)在這個階段,今天我們在這里,主要討論的實際上是人工智能的發(fā)展。人工智能的發(fā)展也非常有趣。就是剛才Michael講的,這樣一些跟人工智能有關(guān)的字,Cybermetics、AI等。
最近這些年,對普羅大眾來講,大家對人工智能的理解,我覺得可能有三件事情是非常家喻戶曉的。第一個事情當(dāng)然就是ChatGPT,實際上是從文生成文;第二個實際上是 DALL-E,就是所謂的文生成圖;第三個是 Sora,是文生成視頻。
很神奇的事情,這三件事情,首先都是由OpenAI這樣一個初創(chuàng)公司首先推出來的。當(dāng)然接下來很多公司在競爭,做非常類似的東西。比如ChatGPT,我今天來外灘大會來演講,沒有什么思路,我就問問ChatGPT——我到外灘大會來演講,到底應(yīng)該講些什么東西?
今天早上我們香港科大謝源教授跟我講,今天晚上要不要一起看足球,中國對日本,我也問了問ChatGPT或者類似的一些產(chǎn)品,說今天晚上中國對日本有沒有戲?現(xiàn)在這些人工智能可以回答得非常好,洋洋灑灑講了半天,大概率是沒啥希望,說不定還是可以爆冷的。
中間這個例子,實際上我非常喜歡的。這是人類歷史上第一次一張人工智能生成的照片,成為一張雜志的封面,有史以來第一次。也就兩年前,有一個數(shù)字藝術(shù)家Karen Cheng,用DALL-E系統(tǒng),給了一段話提示符,說在浩瀚的星空中,一個女宇航員在火星上昂首闊步走向一個廣角鏡頭。那么人工智能的這種生成能力,實際上已經(jīng)相當(dāng)驚人。更不要講今年早些時候出來的Sora文生視頻,可以生成 60秒鐘的高清視頻。
到了今天這個時刻,我們應(yīng)該怎么樣去思考大模型,特別是對產(chǎn)業(yè)方面,到底有什么樣的一些深入影響?
前面的演講者也都提到了,實際上整個人工智能的發(fā)展,特別是過去這段時間深度學(xué)習(xí)的發(fā)展,最重要的事情,實際上是三件事情——算法,算力、數(shù)據(jù)。我接下來跟大家分享一下最近這段時間自己的一些思考。
第一個思考——算力是門檻。今天做大模型,做深度學(xué)習(xí),首先最重要的事情實際上你要有算力。這里畫了一張圖。從2010、2012年開始,包括Geoffrey Hinton的學(xué)生做AlexNet,從那時候開始,所有這些大模型每年需要的算力是以一個什么樣的規(guī)模向前成長。
開始幾年的話,有六七倍的成長,最近這幾年穩(wěn)定下來,大概每年有一個四倍的成長。每年四倍的成長是什么概念?大家平時不想這個問題,我先留一個題目給大家。你現(xiàn)在先想一想,待會我再問你。每年漲四倍,十年漲幾倍?
算力這樣一個增長,很重要的一件事情,就是今天大家要大模型。如果大家關(guān)注大模型,都知道大模型整個模型越來越大,參數(shù)量越來越大。所以算力要求,隨著參數(shù)的增長,實際上還不僅僅是線性增長,更加像是一個平方向的增長。為什么呢?因為模型大了以后,你還要有更多數(shù)據(jù)來去訓(xùn)練大模型。所以整體對算力的要求,過去這些年是非常非常的大。英偉達(dá)股票之所以這樣高舉不下,這是最重要的一個原因。
這幾年我演講,講了一句話叫做——講卡傷感情,沒卡沒感情。今天如果復(fù)旦的教授問校長,我是個人才嗎?其實很簡單了,你就問校長給不給我100張卡。
你一定要去弄個公司做大模型,不要說做大模型,(就是)做行業(yè)模型,就要跟投資人講,你能保證給我錢買1000張卡嗎。真正做大模型的公司,如果你一萬張卡都沒有,你就根本不要講自己是在干大模型的公司了。所以我就講——講卡傷感情,沒卡沒感情。
但沒卡以后,沒錢以后最大的一個問題是什么呢?就是貧窮。以前講叫貧窮限制了我們的想象力,我覺得現(xiàn)在是貧窮扭曲了我們的想象力,就不敢去想這樣可以有突破性的一些問題。
講起卡,這個必須要講一講整個計算機芯片行業(yè)的發(fā)展。從原來的摩爾定律,已經(jīng)變成了黃氏定律。以前CPU的增長,大家都知道英特爾非常了不起。摩爾說我們18個月漲一倍算力,現(xiàn)在GPU算力是一年漲四倍。如果18個月只是漲一倍,那么十年下來大概也就是上漲100倍。一年漲四倍,那么十年下來那就是100萬倍。我再強調(diào)一遍,100萬倍。
剛才王院士也講了,1000倍就是一個什么樣的進(jìn)展。那么100萬倍是什么樣一個情況?為什么會這樣呢?
這是我的第二個思考,就是這里面數(shù)據(jù)的重要性。給大家看一個關(guān)于數(shù)據(jù)的數(shù)據(jù)。GPT-3出來的時候,兩個T的token。GBT-4的時候,從外面看到的數(shù)據(jù),當(dāng)時大概是 12個T左右的數(shù)據(jù)。那么它后來還在不斷加數(shù)據(jù),我們猜的話,現(xiàn)在GPT-4大概是20T的數(shù)據(jù)。
今天大家望穿秋水,天天在等GPT-5什么時候會出來?那么GPT-5出來的時候,到底會用多少數(shù)據(jù)?我們現(xiàn)在只能猜一猜,我猜大概會是 200個T的數(shù)據(jù)。實際上你在互聯(lián)網(wǎng)上挖來挖去,挖不出200T的數(shù)據(jù)了。這200T的數(shù)據(jù)怎么出來的?實際上你還要再想其他辦法。
當(dāng)GPT-3出來的時候,GPT-4出來的時候,這個給我的非常大的震撼,實際上是好像我們互聯(lián)網(wǎng)40年,天天大家急急忙忙的,今天寫個網(wǎng)站,明天弄個東西搬到網(wǎng)上去,激動的不得了。首先是(數(shù)據(jù))被Google利用了,弄來做搜索。然后今天再想想,可能最主要的是積累了這個東西,就是用來做ChatGPT,就是為了這樣一個AI的時刻。
做到今天了,下一步到底要干什么?我講就是非常清晰的,就是這樣一條思路,特別是最近DALL-E、Sora實際上也給大家指明了一個方向。就是從原來的語言模型、文本,接下來要做多模態(tài),我們仔細(xì)做computer vision的同學(xué)們,就有用武之地了。
未來再向前走,Sora模型雖然做的非常好了,大家也可以看得到,實際上這樣一個多模態(tài)Sora模型,它還不是那么強大。實際上這里面的物理性質(zhì)是不能保證的,做不到世界模型。未來肯定是要往具身智能走,一定要往機器人走。機器人這件事情,當(dāng)然這里面的一個特別的形態(tài),實際上就是自動駕駛。
技術(shù)上來講,肯定是要走一條生成和理解綜合起來的一條道路,這樣一個AGI。當(dāng)然大家有不同的看法,比如(王)小川,一直覺得不需要視頻,不需要視覺,也是有希望走向AGI的。
這里就介紹一下我?guī)讉€學(xué)生做的一個公司階躍星辰,這樣一個多模態(tài)可能是今年大模型公司里面做的最好的一個多模態(tài)的工作了。
今天不舉其他例子,就講一個最左邊這個例子。比如,你把一張圖上傳到躍問這個APP上面去,你問他為什么圖中這個行為被稱之為無效技能?你看一下也搞不清楚為什么叫無效技能。這個APP會告訴你,為什么叫無效技能呢?因為小朋友躺在街上打滾,他媽媽無動于衷,一直繼續(xù)看手機,所以小孩這個技能叫做無效技能。當(dāng)然視頻分析現(xiàn)在也可以做的很好,圖片分析都可以做的很好。
第四個思考,毫無疑問大模型現(xiàn)在只是對整個行業(yè)的影響,剛才王院士也講到了,AI+有很多很多機會。
那么我再回到對算力的需求。今天你要做通用大模型,那肯定至少是萬張卡,而且再向前走,1萬張A卡都不行了,要一萬張H卡。行業(yè)大模型需要千卡級別的資源。自己一家公司,每家企業(yè)要做企業(yè)大模型,可能需要百卡訓(xùn)練。
但是我自己特別激動人心的事情,實際上是個人大模型?,F(xiàn)在像聯(lián)想、微軟在推的AIPC,蘋果所謂的apple intelligence,都是朝著personal intelligence這個方向向前發(fā)展。
這里我給大家分享一個數(shù)據(jù),到7月底,中國備案大模型一共是197個。197個備案的大模型里面,可以看得到,大概是30%是通用大模型,70%是行業(yè)大模型,未來肯定是越來越多的行業(yè)大模型。
這里我簡單給大家看一個例子。這個是財躍公司做的一個“財躍”大模型,可以對整個金融行業(yè)進(jìn)行一個分析。比如說英偉達(dá)的財報出來了,然后很快可以做出一些非常好的結(jié)果。
第五個分享,大家都在講大模型出來,人工智能時代真正了不起的超級應(yīng)用是什么?實際上超級應(yīng)用一直存在,就是大家干不出來。實際上,超級應(yīng)用就是AI Agent。
ChatGPT雖然很了不起,很強大,但是還遠(yuǎn)遠(yuǎn)沒有到agent的一個地步。整個agent這件事情,實際上是把人的生產(chǎn)力提高到了一個非常大的高度。從進(jìn)來到出去,整個一個工作。
今天大家都知道,在公司里面,工作上整個工作流是非常之復(fù)雜的。GPT到今天,基本上還是相對比較單點的突破。真正向前走的話,要把整個工作流弄起來。今天時間關(guān)系,我就不展開講了,就是你要把這個行業(yè)進(jìn)行一個分析,從大模型應(yīng)用框架,到平臺,到知識技能、任務(wù)、對話全部要接起來,才可以做到這樣的結(jié)果。
這是非常簡單的一個例子,比如說讓AI顧問為您定制健康美麗方案。
演示視頻對話內(nèi)容:
“您好,我是您的健康美麗顧問,非常高興為您服務(wù)。請告訴我您的需求,我將為您量身定制個性化的方案,祝你煥發(fā)自信和活力。
給我推薦一個好用的洗面奶吧。
當(dāng)然可以。在為您推薦洗面奶之前,我想了解一下您的年齡、性別和膚質(zhì),這樣我才能更準(zhǔn)確的為您推薦適合您的產(chǎn)品。
我是混合干皮。
小西馬上幫您進(jìn)行查詢,了解了您的膚質(zhì),我可以為您推薦一款適合混合干皮膚的洗面奶,佰草集凈透保濕潔面乳。這款洗面奶采用氨基酸型潔面配方,溫和清潔肌膚。”
我想大家都看到了,剛才這個視頻里面,真正做到這樣一個虛擬員工,這樣一個工作流,你要把整個技能、數(shù)據(jù)庫跟你公司的所有數(shù)據(jù)打通,配以底層大模型,可以做出很了不起的事情。在應(yīng)用方面,我對很多中國公司接下來的發(fā)展是充滿信心的。
第六點,實際上就回到,WAIC世界人工智能大會今年的主題,就是AI治理這件事情。這個事情非常重要,而且每個國家對這件事情看法也很不一樣。這件事情,AI對民眾的沖擊,公司的沖擊,政府監(jiān)管的沖擊,社會發(fā)展的沖擊,現(xiàn)在大家都在擔(dān)心。比如講美大選,人工智能對大選產(chǎn)生一些影響,會不會有人用人工智能的一些技術(shù)去操縱大選的一些結(jié)果。它的確是非常的困難。
今年7月5號的時候,我有幸跟三個圖靈將得主,包括我的導(dǎo)師羅杰·瑞迪(Raj Reddy),曼紐爾·布盧姆(Manuel Blum),還有姚期智先生一起討論這樣一個問題。特別是今天,剛才王院士前面講到阿里云,就是基礎(chǔ)設(shè)施,我也非常贊同。
我覺得接下來,人工智能的發(fā)展很重要的一點,從各個國家、全球的角度來講,一定要做主權(quán)人工智能,所謂的Sovereign AI。主權(quán)人工智能背后一定需要有個主權(quán)云Sovereign cloud,來支持Sovereign AI的發(fā)展。
時間已經(jīng)差不多了,所以我很快把最后兩點跟大家分享一下。
大家很激動地講大模型這件事情,但我想問一個問題,GPT給我們帶來的沖擊,有多少是人機交互的震撼,還有多少到底是機器智能的發(fā)展?大家好像覺得是機器智能的發(fā)展。我想感謝Michael,剛才提到IA這個詞,讓我不必再解釋了。
約翰·馬可夫(John Markoff),原來紐約時報的專欄作家,寫了一本非常好的書叫《machines of loving Grace》(注:國內(nèi)叫做《與機器人共舞》),梳理了過去50年計算機科學(xué)發(fā)展的兩條主線。
一條主線就是AI,Artificial intelligence,是我導(dǎo)師的導(dǎo)師約翰·麥卡錫(John McCarthy)創(chuàng)造了這個詞。第二個就是IA這條線,就是這幫做UI的人講的,這個世界最重要的事情是智能增強intelligence augmentation。
如果你沿著這條道路想,實際上我們過去這幾十年的進(jìn)展,主要是人機交互里面的一個突破。而且你要去想,人工智能這件事情,相當(dāng)長的時間它還是一個工具。那這樣想的話,你就可以看得到過去這四五十年的話,整個行業(yè)的進(jìn)展。
原來圖形用戶界面出來一個了不起的東西,叫做windows,產(chǎn)生了一家偉大的公司叫微軟?;ヂ?lián)網(wǎng)時代來了,出來一個東西叫搜索,出來一家公司叫谷歌,然后就到了移動互聯(lián)網(wǎng),現(xiàn)在到了AI時代了,它的人機交互最本質(zhì)的是什么?最本質(zhì)的是對話,就像ChatGPT這樣。那么ChatGPT加上微軟會不會成為AI時代最偉大的公司?我想只有時間才能夠驗證。
最后我也想鼓勵大家研究,雖然GPT已經(jīng)弄得如火如荼了,大家都等著GPT-5出來,說不定哪天還有GPT-6。實際上,我們應(yīng)該從做學(xué)問的角度,回過頭來再想想,實際上今天對智能的理解還是非常非常有限,這個跟物理學(xué)真的是非常不一樣。
我們念物理的話,上到浩瀚的星空,下到微小的量子,希望弄一個大一統(tǒng)的理論能夠解釋。但是今天深度學(xué)習(xí),雖然系統(tǒng)做的好像很像模像樣,但是大多數(shù)東西不可以解釋,也不是很魯棒。GPT-3出來了以后,大家就講有個東西叫做智能,有個東西叫做智能涌現(xiàn)。但實際上,為什么涌現(xiàn)出來,什么時候涌現(xiàn)出來,是什么方式涌現(xiàn)出來,都是講不清楚的。
去年,我在廈門科技大學(xué)聚集了一批海內(nèi)外的一些計算機科學(xué)家,特別是一些數(shù)學(xué)非常好的科研人員,大家一起討論,要深刻討論涌現(xiàn)智能背后的數(shù)據(jù)原理到底是什么。
實際上今天人工智能的發(fā)展,還在一個相對比較早期的階段,但是行業(yè)上已經(jīng)有很多應(yīng)用,我們真的下定決心去做了,特別是有王堅院士弄的基礎(chǔ)設(shè)施在后面加持,我對未來發(fā)展充滿信心。
謝謝大家。