3月6日消息,當(dāng)?shù)貢r間3月5日,美國計算機學(xué)會宣布,安德魯·巴托和理查德·薩頓獲得 2024 年 ACM A.M. 圖靈獎,以表彰他們在強化學(xué)習(xí)方向的研究。
據(jù)了解,自 20 世紀(jì) 80 年代起,巴托和薩頓在一系列論文中提出了強化學(xué)習(xí)的核心思想、構(gòu)建了數(shù)學(xué)基礎(chǔ)并開發(fā)了重要算法,使其成為創(chuàng)建智能系統(tǒng)的關(guān)鍵方法之一。
獲獎后,“強化學(xué)習(xí)之父”薩頓在采訪中探討了AI的發(fā)展進程,同時給予了青年研究員們一些個人建議。
當(dāng)被主持人問道AI領(lǐng)域智能愿景,在這么多年即將要實現(xiàn),是不是特別激動時。
薩頓坦然表示:沒錯,但也不盡然,我并不認(rèn)同“一切都能迅速地大功告成”的觀點。
他繼續(xù)補充道:AI確實已經(jīng)取得巨大進展,但我不認(rèn)可那種急于求成的心態(tài)。
“我認(rèn)為這是一場馬拉松,而非短跑沖刺,前面的路還很長,AI偉大、具影響力的那些方面尚未到來。”
隨后,主持人又問到了其對于研究者,尤其是年輕的研究者的建議。
薩頓認(rèn)為:“跑馬拉松”挺不容易的,保持動力也不簡單,我的建議是,要志存高遠,但別驕傲自滿!”
說到這一點,他與主持人相視哈哈大笑。
隨后,他繼續(xù)補充道:我始終敬佩年輕人不盲從權(quán)威的態(tài)度,因為沒有人能獨斷AI的發(fā)展方向,在科學(xué)領(lǐng)域不存在所謂的權(quán)威,這就賦予了任何人的能力和權(quán)力。
同時,薩頓謙遜強調(diào):這也許令人有些失落,因為你或許曾視我為權(quán)威,而我本可利用這一名號,但我必須坦誠,我不能。
眾所周知,ACM A.M. 圖靈獎素有 “計算機界諾貝爾獎” 之稱,以英國數(shù)學(xué)家艾倫·圖靈(Alan Turing)命名,他奠定了計算的數(shù)學(xué)基礎(chǔ),通常被認(rèn)為是理論計算機科學(xué)和人工智能的創(chuàng)始人。
另外,該獎從1966年開始頒發(fā),2014年起獎金為 100 萬美元,由谷歌公司提供。
在這里,特別強調(diào)一下什么是“強化學(xué)習(xí)”?
人工智能(AI)領(lǐng)域關(guān)注構(gòu)建智能體,即能感知與行動的實際存在,而更智能的智能體現(xiàn)在其能選擇更優(yōu)的行動方案。因此,“某些行動優(yōu)于其他”的概念是 AI 的核心。
獎勵(reward,源于心理學(xué)與神經(jīng)科學(xué)的術(shù)語)表示提供給智能體與其實際行為質(zhì)量相關(guān)的信號。
強化學(xué)習(xí)(RL) 則是通過獎勵信號學(xué)習(xí)更成功行為的過程。
20 世紀(jì) 80 年代初,受心理學(xué)啟發(fā),巴托與博士生薩頓開始將強化學(xué)習(xí)定義為通用問題框架。
在此后的數(shù)十年間,巴托和薩頓與其他研究人員共同開發(fā)了強化學(xué)習(xí)的許多基本算法。
比如,他們二人編寫的經(jīng)典教材《強化學(xué)習(xí):導(dǎo)論》(Reinforcement Learning: An Introduction,1998)被引用超 7.5 萬次,至今仍是該領(lǐng)域標(biāo)準(zhǔn)參考資料。
在這本書的影響下,成千上萬的研究者能夠理解并參與到這個新興領(lǐng)域,并繼續(xù)激發(fā)今天計算機科學(xué)領(lǐng)域的大量重要創(chuàng)新。
盡管巴托和薩頓的算法誕生于數(shù)十年前,但其與深度學(xué)習(xí)算法的結(jié)合(由2018年圖靈獎獲得者Bengio、Hinton和LeCun開創(chuàng)),從而導(dǎo)致了深度強化學(xué)習(xí)的出現(xiàn),并在過去 15 年取得多項重大突破。
突出的例子是 AlphaGo 程序在 2016 年和 2017 年戰(zhàn)勝了優(yōu)秀的人類圍棋選手。近一項重大成就則是聊天機器人 ChatGPT 的開發(fā)。
本文鏈接:http://www.88neiyi.com/news-133993.html新晉圖靈獎得主薩頓:AI發(fā)展是場馬拉松 具影響力的方面尚未到來