9月11日報道,今日上午,在2025 Inclusion·外灘大會開幕式上,2024年圖靈獎得主、“強化學習之父”理查德·薩頓(Richard Sutton)發(fā)表主旨演講。他認為,人類數(shù)據(jù)紅利正逼近極限,人工智能(AI)正在進入以持續(xù)學習為核心的“經(jīng)驗時代”,潛力將遠超以往。
知識來自于經(jīng)驗,可以從經(jīng)驗中學習。一個智能體的智能程度,取決于它能預(yù)測并控制自身輸入信號的程度。經(jīng)驗是一切智能的核心與基礎(chǔ)。
強化學習帶領(lǐng)我們進入了新的經(jīng)驗時代,但要釋放全部潛力,還需要兩項目前尚不成熟的技術(shù)——持續(xù)學習(continual learning)和元學習(meta-learning)技術(shù)。
面對外界對AI帶來偏見、失業(yè)甚至人類滅絕的擔憂,薩頓認為,這種對AI的恐懼被夸大了,并且是被某些從中獲利的組織和個人煽動起來的。
“人類最卓越的超能力,就在于比其他任何動物都更擅長協(xié)作。”在薩頓看來,AI和人類繁榮將來自于去中心化協(xié)作。目標不同的智能體,可以通過去中心化的協(xié)作實現(xiàn)雙贏。
他預(yù)測當今人類的智力水平,很快將會被超級人工智能,或者超級智能增強的人類遠遠超越,權(quán)力和資源會流向最聰明的智能體。
在人類的發(fā)展進程中,AI的替代將是不可避免的。
薩頓認為,人類的獨特之處在于“把設(shè)計推向極致”,創(chuàng)造出能自己設(shè)計的事物,這也正是今天通過AI所追求的目標。
人類至少是催化劑,是助產(chǎn)士,更是開啟宇宙第四大時代——“設(shè)計時代”的先驅(qū)。
“AI是宇宙演化的必然下一步,我們應(yīng)以勇氣、自豪和冒險精神來迎接它。”薩頓說。
以下是理查德·薩頓演講全文:
很高興在2025年外灘大會上發(fā)言,我的主題是人工智能。
在接下來的發(fā)言中,我將圍繞這個主題談三個方面:我想談?wù)効茖W發(fā)展趨勢,政治影響,以及哲學意義。
一、數(shù)據(jù)紅利逼近極限,AI進入“經(jīng)驗時代”
我們處在“人類數(shù)據(jù)時代”。AI被訓(xùn)練來預(yù)測人類的語言和標簽,并由人類專家不斷微調(diào)。
今天大多數(shù)機器學習的目的,是把人類已有的知識轉(zhuǎn)移到一個靜態(tài)、沒有自主學習能力的AI上。
但是,我們逐漸開始達到人類數(shù)據(jù)的極限,我們開始意識到,這種方法通常無法生成新的知識,它并不適合持續(xù)學習,它不能持續(xù)不斷地學習,而持續(xù)學習對智能的效用至關(guān)重要。
播客主持人Dwarkesh Patel意識到了這一點。他在播客中說:“但根本問題在于,大語言模型并不會隨時間推移而變得更聰明,這和人類不一樣。這種缺乏持續(xù)學習能力的情況,是一個非常非常大的瓶頸。在很多任務(wù)上,大模型的基準表現(xiàn)可能優(yōu)于人類的平均水平,但我們沒辦法給模型提供高層次的反饋,只能接受它本身自帶的能力,只能不斷折騰調(diào)整提示詞,但在實踐中,這根本達不到人類那種學習和進步的程度。人類真正的優(yōu)勢,并不在于單純的智力極限,而在于他們能夠不斷積累上下文,反思失敗,并在實踐中一點點改進、提升效率。”
關(guān)于“智能”的根本科學爭議是,它究竟是大量知識的積累,還是快速學習的能力。
當然,智能只是一個詞,我們可以按自己的意愿使用它,但我們應(yīng)該清楚它歷來是如何被使用的。
我們看看傳統(tǒng)的智力測量方法,也就是“智商”,或者IQ,它等于你掌握的知識量除以你所積累的經(jīng)驗。所以,在我看來這個定義正是在衡量學習的速度,學習速度,是常識所理解的“智力”的關(guān)鍵。
現(xiàn)在我們正進入“經(jīng)驗時代”,我們需要一種新的數(shù)據(jù)源,它隨著智能體的變強大而不斷增長和完善,就像電腦游戲中的自我博弈一樣。
這類數(shù)據(jù)也可以不依賴自我博弈,而是由智能體以第一人稱與世界互動直接生成,我稱之為“經(jīng)驗”。這正是人類和其他動物的學習方式,也是 AlphaGo 創(chuàng)造第“37 步”的方式,也是AlphaProof近期在國際數(shù)學奧林匹克中獲得了銀牌的方式。
觀察嬰兒與各種玩具玩耍的視頻,我們會看到他所獲取的數(shù)據(jù),取決于他自己的一舉一動。孩子和這個玩具玩一段時間,然后轉(zhuǎn)向下一件玩具,所以他獲得的數(shù)據(jù)由他的行為決定。關(guān)鍵在于,我們需要與智能體的智力水平和認知發(fā)展相匹配的數(shù)據(jù),這正是可以從自身經(jīng)驗里得到的東西。
關(guān)于經(jīng)驗思維模式,是智能體與世界交換信號,這些信號構(gòu)成了它的“經(jīng)驗”。
我這里說的“經(jīng)驗”,并不是含糊的概念,而是指這三項很具體的要素:觀察、行動和獎勵。這三種信號在智能體與世界之間來回傳遞,這就是我定義的“經(jīng)驗”——這是生命的數(shù)據(jù)。
所以我很篤定認為,知識來自于經(jīng)驗,因此可以從經(jīng)驗中學習。一個智能體的智能程度,取決于它能預(yù)測并控制自身輸入信號的程度,特別是獎勵信號。經(jīng)驗是一切智能的核心與基礎(chǔ),這就是基于經(jīng)驗的思維方式。強化學習領(lǐng)域正是基于這種思維方式。
總而言之,在人工智能未來的科學趨勢上,未來如果能創(chuàng)造出超級智能體和由超級智能增強的人類,將為世界帶來純粹的福祉。
完全智能的智能體必須從經(jīng)驗中學習,這超出了大型語言模型的范疇,令人驚嘆且實用,將作為世界知識的可定制接口。
我們已經(jīng)使用強化學習進入了新的經(jīng)驗時代,但要釋放經(jīng)驗的全部潛力,還需要我們現(xiàn)在還不具備的持續(xù)學習和元學習技術(shù)。
二、AI已經(jīng)被高度政治化,對AI的恐懼被夸大
現(xiàn)在,我想對AI的政治影響談一點看法。
首先要指出的是,今天AI已經(jīng)成為高度政治化的議題。AI是國家地緣政治競爭的焦點,公眾也感到恐懼。除地緣政治之外,公眾擔心AI會帶來偏見、失業(yè)甚至導(dǎo)致人類滅絕。
一些國家正在陸續(xù)立法,限制AI模型的能力,更有人呼吁暫停AI研究,將其與核武器和生物武器相提并論。
總而言之,對人工智能的規(guī)制、管控和對齊的呼聲此起彼伏,這就是現(xiàn)實:AI已經(jīng)被高度政治化。
我的觀點是,這種對AI的恐懼被夸大了,并且是被某些從中獲利的組織和個人煽動起來的。
但實際上,這些問題在人類幾千年來一直在應(yīng)對的挑戰(zhàn)并無不同。
讓我們提出一個問題,在一個由智能體構(gòu)成的社會里,類似人類社會,在一個人工智能社會,“目標是唯一的,還是多元的?”
在強化學習中,我認為這是明確的,每個智能體都有自己的目標,也有自己的獎勵。同樣,在自然界中,每只動物都有它自己的痛苦和快樂。
回看我們的經(jīng)濟,只有當每個人有不同的目標和能力,經(jīng)濟才能運行得最好。經(jīng)濟并不真正依賴于人們擁有共同目標,盡管我們常把這類說法掛在嘴邊。
只要我們審視現(xiàn)實世界、經(jīng)濟和社會,我們可以說智能體也能夠共存,不同的智能體可以和平共處,即便它們的目標不同,我們并不需要所有人都對齊同一個目標。
為了進一步展開,我需要多說明幾句。
我們需要定義兩個詞:“去中心化”的定義是每個智能體追求自己的目標,這正是我們經(jīng)濟體系的運行方式;“協(xié)作”,就是目標不同的智能體,通過互動實現(xiàn)雙贏。
我認為,協(xié)作就是我們的偉大超能力,人類最卓越的超能力就在于我們比其他任何動物都更擅長協(xié)作。
協(xié)作之所以能實現(xiàn),在于語言和貨幣——這兩樣都是人類獨有的。
人類最偉大的成功在于協(xié)作本身:經(jīng)濟、市場與政府。
人類的重大失敗正是協(xié)作失?。簯?zhàn)爭、偷竊與腐敗。
“去中心化協(xié)作”是“共同目標”的替代方案,在我看來,“去中心化協(xié)作”更優(yōu)雅,它更可持續(xù)、更強韌、更靈活,適應(yīng)性更強,它并不需要控制人們的目標。
正如我所說,人類比其他任何動物都擅長協(xié)作,但我們?nèi)匀蛔龅眠h遠不夠。我們?nèi)匀挥袘?zhàn)爭、盜竊,我們?nèi)匀挥懈瘮?、欺詐。協(xié)作之路依然很艱難,協(xié)作并非總能達成,至少需要兩個代理人互相信任。一旦協(xié)作缺失,總有人能從中獲利:軍火商、獨裁者、騙子、盜賊。
因此,協(xié)作必須依靠制度:既要促進協(xié)作,還要懲治騙子、欺詐者和勒索者。中心化的機構(gòu)能幫助協(xié)作實現(xiàn),他們可以懲罰盜賊和作弊者,但如果中心化機構(gòu)走向僵化,長遠來看也會阻礙協(xié)作。
放眼當下,有很多呼聲希望對AI進行中心化控制:對齊AI的目標,暫停甚至終止AI研究,限制可投入的算力,限制AI行業(yè)的競爭程度,或借此確保AI的安全。這些主張如出一轍,根源都是恐懼,說到底,這都是基于“我們對他們”的思維,認為他人不可信任,妖魔化對方。