☰

強化學習之父Sutton最新萬字採訪：炮轟深度學習只是瞬時學習，持續學習纔是智能突破的關鍵

來源：AI寒武紀

前兩週加拿大阿爾伯塔大學（University of Alberta）機器智能研究所與強化學習傳奇人物 Rich Sutton 錄了期播客，也就是 AI Scaling Law 信仰之文《苦澀的教訓》的作者！Sutton 教授十分低調，很少接受採訪，但這一次他分享了非常有意義的對 AI 行業的看法：AI 研究需要重新關注 “持續學習” 能力，而不是僅僅追求在固定數據集上的性能。我們會在未來幾十年內完全理解智能的本質，這將從根本上改變人類對自身的理解，並帶來深遠的技術和社會影響

照例先給Rich Sutton教授採訪內容劃個重點（完整採訪附在文後）

持續學習與深度學習

深度學習過於關注"瞬時學習"（transient learning），在廠裡學成後就固定下來了；這種方法雖然在非線性映射方面取得了成功，但犧牲了持續學習的能力；現在 AI 領域過於關注"我們能做什麼"，而不是"我們還不能做什麼”

1986 年反向傳播的發現帶來了非線性學習能力，但反向傳播只是梯度下降，而梯度下降中沒有任何東西能驅使學習系統找到能很好泛化的特徵，它只是找到能很好解決現有問題的特徵；這個權衡在當時是可以接受的，但現在需要改變

Sutton 認爲真正的突破應該來自於對學習目標的重新思考，而不是簡單地改進現有的優化方法

目標與心智

Sutton 相信獎勵假說，即所有的目標追求都可以被理解爲最大化一個單一的、外部接收到的標量信號

爲了實現這個“總體目標”，我們爲自己設置許多子問題，比如我有個子問題是如何拿起茶杯併成功送到嘴邊而不灑出來，所有這些都是對解決總體目標有用的子問題

複雜的高層次目標，如獲得博士學位、建立家庭等都是爲了優化這個基礎的目標獎勵

這種觀點可能讓人感到不適，但 Sutton 認爲這恰恰表明我們正在接近真相 - 從微小的事物也可以產生非常抽象的東西，現在的 LLM 不就是很好的例子麼？（《苦澀的教訓》建議多讀幾遍）

如果你能規劃，能通過試錯學習，這就是 Sutton 認爲的“心智”；

這一切都涉及到模型，我們通過試錯學習，建立世界模型，並能夠使用該模型進行規劃，這並不是過分的要求，所以 Sutton 還是挺支持 LeCun 的研究的

對研究方法的建議

要保持日常寫作習慣，記錄並發展自己的想法；

要中立對待流行趨勢，選擇真正重要且有潛力的問題；

研究者專注於未解決的問題，而不是已經成功的領域；

完整採訪中文文字版（英文采訪視頻請自行搜索Rich Sutton’s new path for AI）

人工智能新道路：與Rich Sutton的對話

主持人A:Rich，非常感謝你做客我們的播客“大約正確”。我們一直想邀請你，今天終於實現了，真是太好了！

Rich Sutton:謝謝Scott，很榮幸來到這裡。

主持人B:我們之前在播客中討論過幾次強化學習，但我們很想知道強化學習的哪些方面吸引了你？你爲什麼開始研究這個領域？

Rich Sutton:我一直對與世界互動並從中學習的系統很感興趣，而強化學習正是如此。它需要一個目標，我們將其形式化爲獎勵。但令人驚訝的是，回溯人工智能的發展，從我70年代開始研究人工智能以來，很少有研究關注系統與世界互動、從中學習並實現目標。即使在早期控制論、模式識別和監督學習中，這些系統也沒有目標，它們只是試圖識別模式。模式識別是智能的重要組成部分，但它並不會爲了目標而與世界互動。所以，這方面一直讓我覺得有所缺失。當我開始研究時，並沒有強化學習這個領域，是我們創造了它，因爲當時沒有人做這方面的研究。

主持人A:你是否記得某個時刻，讓你突然意識到“啊，我想研究這個以目標爲導向的方向”？

Rich Sutton:這是一個逐漸形成的想法。我們研究了人們研究過的所有不同領域，比如模式識別、控制理論等等，一直在尋找“在哪裡可以找到一個系統，它試圖做某事並從中學習”。那時有老虎機問題（Bandits），你可以反覆執行某個動作直到獲得最大獎勵，但這已經是最接近的了，它們並沒有類似“我記得在這種情況下我應該這樣做，在那種情況下我應該那樣做，以便實現我的目標”的機制。

主持人B:老虎機問題本質上是無狀態的，對吧？你只是反覆做同一件事。

Rich Sutton:是的，它是無狀態的。

主持人A:你認爲爲什麼人工智能會從預測開始？

Rich Sutton:根據我對歷史的理解，它並不是真正從預測開始的。我認爲早期研究者一開始就想讓系統通過互動來實現目標。後來他們倒退回模式識別，因爲模式識別更清晰、更簡單。然後他們逐漸忘記了一些最早期的研究，比如1954年Farley和Clark的研究，他們討論了試錯學習。後來，試錯學習逐漸變成了監督學習，成了一條更清晰的前進道路。

主持人B:這是一種簡化。

Rich Sutton:是的，一直以來都是如此。很抱歉從這麼早的歷史開始。

持續學習與深度學習

主持人A:沒關係，這很有趣，打好基礎很重要。而且邀請你的好處之一就是你還記得這些事情。讓我們回到現在，你目前在強化學習領域思考哪些問題？哪些方面讓你感興趣？

Rich Sutton:我只能通過談論整個人工智能領域來描述它，談談人工智能中正在發生什麼、沒有發生什麼以及需要發生什麼。我仍然認爲人工智能是與世界互動以實現目標。我想這意味着我們在談論強化學習。但如果你只是爲了實現目標而與世界互動，那麼你就必須建立一個世界模型，你必須有一個目標，你必須在多個時間尺度上對世界進行建模，你必須學習理解世界的正確結構、特徵和概念。我還沒提到你必須嘗試不同的事情，看看哪些有效，這就是強化學習的起點。我想說，多年來，我們已經開發出了很好的線性映射方法。如果你需要學習線性關係，那麼我們做得很好，我們可以在線學習，可以持續學習。

主持人B:你能舉一個線性關係的例子嗎？哪些情況下線性關係很有效？

Rich Sutton:所有算法實際上都是爲線性情況定義的，對於非線性情況，你會得到線性TD Lambda、非線性TD Lambda、Q學習，它們都有線性版本。線性版本學習速度很快，並且可以隨着世界的變化而適應，但它們無法學習非線性映射，無法學習異或，無法學習新的特徵。1986年我們發現了反向傳播算法，我們開始能夠學習非線性映射。但這就像一個惡魔的選擇，當我們想學習非線性事物時，我們不得不放棄快速變化和持續學習的能力。

主持人A:你必須放棄嗎？我的意思是，我不認爲你應該放棄。

Rich Sutton:最初發現的方法無法持續學習。它們能夠學習非線性事物，這太令人興奮和強大了，以至於我們爲了學習非線性映射而放棄持續學習的能力，這是一個很好的權衡。

主持人B:這是一個很好的權衡，但我們堅持得太久了。

Rich Sutton:而且，不知何故，我覺得這個領域的美學已經改變了，這個領域想要專注於他們能做什麼，而不是注意到他們不能做什麼。

主持人A:你認爲這是什麼原因造成的？

Rich Sutton:原因很簡單，我們能做某些事情，所以我們就會去做這些事情。所有的深度學習都是關於“我們能用數據集做什麼？我們從中學習，然後凍結我們學習到的系統，然後在世界上運行它”。ChatGPT根本不學習，但構建它需要大量的學習。我們在語言方面取得了驚人的成就，但我們不得不放棄持續學習的能力。在正常使用過程中，ChatGPT並不會學習。這是對研究人員的考驗：他是想看看我們不能做什麼並努力解決這個問題，還是想看看我們能做什麼並繼續深入研究？這就像在路燈下找鑰匙的問題：我丟了鑰匙，我會在路燈下找，因爲那裡是我能看到的地方，儘管那可能不是鑰匙所在的地方。我認爲做所有不同的事情都沒問題，但我認爲重要的觀察是，這個領域絕大多數都朝着一個方向發展，朝着……

主持人A:所以以至於如果你想說“我們有一些事情做不到”，你會受到強烈反對。他們會說：“是的，但我們可以做所有這些其他事情，所以不要批評我們。”

Rich Sutton:是的，我認爲這是一個很大的影響。在早期，機器學習更加開放，“這是一個有趣的問題，讓我們試試”。然後，在某個時候，深度學習……這個領域進入了一個階段，除非你做一些複雜的事情，比如Atari遊戲，否則你無法發表論文。你有一些新想法？它在大問題上是如何工作的？我認爲這種情況正在逐漸緩解，人們對我們不能做什麼更感興趣了，關於持續學習的整個事情正是現在更容易被接受的研究方向。

主持人B:你能定義一下什麼是持續學習嗎？

Rich Sutton:持續學習就是持續學習，而不是在工廠裡學習，然後當你進入世界時就被凍結。有時我會嘗試尋找,如果我們有持續學習，這幾乎是正常的，那麼什麼應該是不正常的呢？不正常的，我試着稱之爲“短暫學習”（transient learning）。深度學習所做的就是短暫學習，你在一個特殊的階段學習，然後學習就結束了，你再也不會學習了。這就是短暫學習，這是不尋常的

主持人A:片段式學習（episodic learning）？

Rich Sutton:我不能用這個詞，因爲強化學習以一種非常特殊的方式使用“片段”這個詞。

主持人B:這確實讓我覺得很合理。我的意思是，想想我們是如何學習的，我不會每天回家後就忘記我所做的一切。每當我獲得新信息時……

主持人A:也許不好的日子會忘記。

主持人B:所以我很想知道，爲什麼這沒有成爲默認的學習方式？

Rich Sutton:它從一開始就是默認的，只是在最近幾十年裡，我們陷入了這種羣體思維，我們都以一種特定的方式思考。我喜歡這樣想：我們試圖創造什麼？我們試圖創造一個固定且表現非常好的系統嗎？我們的最終產品會是能夠隨着遇到新事物而繼續學習的東西嗎？當你每天來上班時，你會想“我真的很棒，我只需要做同樣的事情”嗎？還是你會想“他們付我錢是因爲我可以適應發生的事情，我可以靈活地學習新事物”？

主持人A:大多數時候，我不知道。兩者都很重要。

Rich Sutton:但適應性對我來說似乎總是很重要。硬性智能……智能是一種策略，還是一種適應任何情況的能力？

主持人B:當我們試圖構建這些可以持續學習的系統時，面臨哪些挑戰？

Rich Sutton:這是你問我的第一個問題，你問我“現在最令人興奮的事情是什麼？”，然後我開始長篇大論……這個領域已經做出了這種權衡：他們可以做非線性的事情，但前提是他們放棄持續學習。這是該領域非常強烈的趨勢，它取得了巨大的成功，我對此毫不介意。我介意的是，他們沒有給研究其他方向留下空間。但我是一個成功的學者，而且我老了，我可以做我想做的任何事情。所以我要去做我真正認爲最重要的事情，即使沒有其他人認爲它重要。我認爲是時候……早就應該有人弄清楚如何進行持續的非線性學習了。在我看來，這些根本不應該相互對立。我正在以一種特定的方式進行研究，專注於在線學習和單一任務，就像世界在逐漸變化，你必須不斷地跟隨它，並在這種環境中學習。我只是想填補這個空白，我們應該能夠進行非線性學習，並且仍然完全持續學習。

主持人B:爲什麼我們不能？是什麼阻礙了我們？

Rich Sutton:我們創造了所有這些專門的東西來使短暫學習工作得很好，比如回放緩衝區，我們進行歸一化的方式，以及像提前停止。我們已經開發了大量的技術和技巧來使短暫學習工作，所以這阻礙了對網絡進行持續學習，因爲……你不會在ImageNet上做得很好，因爲ImageNet是標準基準測試，它是爲短暫情況設計的。你不會馬上在Atari遊戲上做得很好，因爲我們開發了所有這些定製方法，使Atari遊戲在短暫學習方法下工作得很好。方法不同，問題也不同。你不能只是介入並在標準問題上做得更好，因爲所有標準問題都是爲短暫情況設計的。

主持人A:所以聽起來你好像在說，是時候退一步，看看更大的圖景，而不是這些狹隘的解決方案了。

Rich Sutton:絕對是這樣。你也可以從另一個角度說，人們沒有意識到這有多重要，這意味着當它被解決時，它將是一個更大、更重要的成果。如果你能負擔得起，做一個反向者是件好事。就像我說的，我很幸運，我可以做我想做的工作。讓我告訴你我對它的真實感受……我原以爲我在說實話，我原以爲其他人會做這件事。當我還是博士生時，我的同學Charles Anderson，也是Van Bardo的學生，他做了非線性部分，我要做強化學習的特定部分，然後我們會把它們放在一起，這會很好。然後我很失望，40年過去了，這些人還沒有解決這個問題。相反，非線性學習轉向了離線短暫學習，他們沒有給我提供我可以用來學習策略、學習價值函數、學習世界模型、學習世界轉移模型的方法。他們沒有弄清楚表徵學習，他們沒有弄清楚“讓我們弄清楚什麼是世界的正確表徵，那些能夠很好地泛化的表徵，讓我現在就能快速學習”。這絕對是強化學習，我想說也是人工智能前進的瓶頸。我們沒有能夠持續學習的方法，除了線性情況。我們沒有找到好的表徵的方法……我們總是要與傲慢作鬥爭，因爲傲慢會損害你看到真相的能力。但我所說的有點傲慢，我說“我給了這些人40年的時間來解決這個問題，他們沒有做到，現在我不得不自己做”。這大致上就是我所說的，這非常傲慢，至少第二部分是這樣，我就能在幾年內做好。我的意思是，我已經思考了很長時間，我真的希望我不必做這件事，這太遺憾了。

主持人A:我的意思是，他們已經奠定了一些基礎，對吧？他們所做的工作並非完全無用，它會幫助你。

Rich Sutton:也許你只是出於禮貌，但我感覺它不是基礎，它實際上是偏離解決方案的。它使得做正確的事情變得更加困難，因爲他們沒有說“這是一個我們需要解決的問題”，他們說我們已經完成了關於學習表徵的反向傳播論文，他們認爲這是如何學習表徵的解決方案。但是，表徵不應該是一般的，並且在許多情況下都有用嗎？然後無論你需要做什麼，你都在它上面學習一個線性映射。

主持人B:我同意這一點。

Rich Sutton:我認爲他們認爲反向傳播可以學習到好的表徵。

主持人B:啊，好吧，我同意你，我不這麼認爲。

Rich Sutton:啊，好吧，有趣。或者他們說這使得其他人更難說“這是一個未解決的問題，我要研究它”。他們說：“不，不，反向傳播已經解決了這個問題，如果你要研究它，你最好在反向傳播附近工作，並證明你比它更好。”

主持人B:那麼表徵有什麼問題呢？他們沒有做什麼？

Rich Sutton:反向傳播只是梯度下降，梯度下降中沒有任何東西會驅動學習系統找到能夠很好地泛化的特徵。它只是找到解決現有問題的特徵。

主持人B:所以這不是反向傳播的問題，而是反向傳播試圖解決的目標的問題，損失函數的問題。

Rich Sutton:所以聽起來只是在說服人們我們沒有正確的解決方案。

Rich Sutton:你可以這樣做，這是一種失敗的方法。你說：“沒有人研究這個，我必須首先說服人們這是正確的事情，然後我再研究它。” 但是，你會把所有時間都花在說服別人上，你永遠不會真正地研究它，所以你永遠不會真正地成功。其他人會說：“看，他說我們需要做這件事，但他沒有取得任何進展。” 浪費時間試圖說服其他人去做你認爲重要的事情是一個很好的失敗方法。

主持人B:那麼有什麼替代方案呢？

Rich Sutton:你必須是一個反向者，並且真正去做。你可以花一些時間試圖說服其他人，如果你希望發表論文，你必須這樣做。

主持人A:但在某種程度上，這就是我們在非線性環境中的朋友們所做的，對吧？他們忽略了所有人長達十年左右的時間，而所有人都告訴他們，他們所做的事情沒有任何原則。每個人都熱愛他們有原則的統計機器學習，而他們一直在埋頭苦幹。

Rich Sutton:是的，但他們總是有好的結果，他們總有一些可以指出的進步。

主持人A:“總是”這個詞說得太絕對了。我記得在我研究生早期，深度學習周圍肯定有很多噪音

主持人B:是的，而且人們仍然認爲這很愚蠢。

主持人A:所以，無論如何，也許應該讚揚他們堅持了下來。

Rich Sutton:這是關於荒野的故事。神經網絡在荒野中度過了它們的十年，所以沒有人認爲它好。所以我想我說的是，持續學習在荒野中度過了它的十年，現在它開始被接受了

主持人A:這很好。

Rich Sutton:一切都會迴歸，科學中的所有這些問題都是自我糾正的。

主持人A:但它們真的是這樣嗎？這需要有人來決定，對吧？科學本身就是其中的人，所以只有當有人做出決定時，它纔會自我糾正，而且這可能需要很長時間。

Rich Sutton:好吧，我認爲我們應該爭取在2030年之前

主持人A:知道我們可能不會成功，但你必須嘗試。

Rich Sutton:當我們說“成功”時，指的是什麼？理解大腦如何工作？

主持人A: 理解一個系統如何通過試錯，通過嘗試不同的事情來學習，建立一個世界模型，以便我們能夠理解世界，它可以找到決策的支點。我應該去參加這個演講還是那個演講？我應該去洗手間嗎？我應該喝一口茶嗎？所有這些……你知道，你必須找到這些選擇，生活中存在着低級的選擇，但你必須找到生活中 meaningful 的選擇。所有這些都涉及到一個模型。所以要求我們通過試錯來學習，並建立一個我們世界的模型，並能夠使用該模型進行計劃，這並不過分。這就是我認爲構成心智的一系列事情。

主持人B:我認爲人類獨有的特性是能夠同時擁有多個目標。我有很多事情要做，我可以把你煩死，告訴你我現在正在做的所有事情。你知道，我們都有我們正在做的事情，我們有家庭，我們有事業，我們有朋友，我們有愛好，所有這些事情都相互疊加。每天我們都決定我們的目標是什麼，我們今天要做什麼。有時它會讓我們朝着更大的目標前進，有時只是星期天，沒關係。

主持人A:是的。你必須找到平衡點才能保持……有時就像紙牌屋一樣。

主持人B:但我想到像動物，動物的目標是什麼？也許它們目標的複雜性更低。

Rich Sutton:它們也更少地與某種內部獎勵有關，對吧？

主持人B:我不反對你的觀點。

目標與心智

Rich Sutton:但我認爲，只有一個目標和有很多目標都是正確的。我相信獎勵假設，即所有目標尋求都可以被很好地理解爲最大化單個標量外部接收信號

主持人B:是的。

Rich Sutton:這是實現目標的一部分……我們爲自己提出了許多子問題，比如我有一個子問題：我如何拿起我的茶併成功地把它送到我的嘴裡而不灑出來？所有這些都是對我們解決整體目標真正有用的子問題。所以我認爲子任務、子問題是解決單個總體問題的解決方法。所以這讓我兩者兼得，我有一個目標，但我的大腦裡充滿了“這會讓我做到嗎？那會讓我做到嗎？我必須學習所有這些獨立的事情，並學習每個問題的解決方案，然後……然後我的生活將充滿‘我決定暫時致力於那個目標’，這將驅使我最終到達某個地方，然後我可以致力於另一個目標。”

主持人B:所以你把目標看作是子問題，所有這些不同的目標，有點像創造這些子目標

Rich Sutton:創造它們，絕對是提出它們。博士學位，我想獲得博士學位，我想獲得終身教職，我想xx

主持人B:在這種情況下，什麼是所有這些子目標的單一目標？

Rich Sutton:單一目標將是獎勵。我們並不真正知道人們的獎勵是什麼，但它就像快樂和痛苦，也許還有人們對你的態度，來自其他人的尊重。獎勵假設的驚人之處在於，有一個微小的標量值，你正試圖最大化它，它是一個低級的東西，它就像一個數字在每個時刻進入你的大腦，它在下丘腦中計算，然後從中產生了“我想組建家庭，我想擁有一個成功的研究科學家職業”等等。從一個不抽象的東西中產生了非常抽象的目標和非常抽象的概念。曾經有一段時間，這太不可思議了，以至於說出來會很尷尬。但現在這應該很直白了，我們已經多次看到這種情況發生。你知道，AlphaGo學會了下圍棋，它擁有所有圍棋中需要的抽象概念。學會了下國際象棋，它擁有國際象棋中所有需要的抽象概念。或者像語言模型，它讓我大吃一驚，它從這個簡單得多的問題中學到了什麼。“哦，我的天哪，下一個詞”。

主持人B:是的，從微小的事物中可以產生非常抽象的東西。

Rich Sutton:是的

主持人B:好吧，這是一個令人信服的故事。我得承認，當你這樣說的時候，我也覺得有點心理上不舒服。

主持人A:我承認，這讓你覺得自己沒有你想象的那麼複雜。

Rich Sutton:是的。在這幾十年裡，我們將要學習，我們將要更好地理解心智，我認爲這不會都是舒服的。我認爲不舒服的事實實際上讓我覺得我們正在取得進展，我們正在更好地理解事物。

主持人A:我們不僅僅是在尋找我們想要相信的真相，而是在尋找真正的真相。

Rich Sutton:你想想，要創造一個想要做某事的人，比如成爲一名研究科學家，是不可能的。進化是如何讓你擁有這個目標的？這是不可想象的，而且行不通。它必須給你一個它可以感知的目標，一個具體的目標

主持人A:這讓我們回到了心理上的不適。

Rich Sutton:將會出現其他智能體，我們將理解它們是如何工作的，它們只是試圖讓這個數字更高，這很有趣

主持人B:所以你說你認爲我們會在未來六年內理解這一點？

Rich Sutton:不，我有一個預測，到2030年有四分之一的可能性我們會理解，這將是模糊的，但基本上我們會理解智能。這並不意味着我們將理解人類的心智，這將需要更長的時間。我們將理解如何通過試錯學習來實現目標，如何建立一個世界模型，使你能夠在多個抽象層次上進行計劃，並且做到這一點沒有重大差距。你知道，它將學習好的表徵，學習很好地泛化。它將是一個神經網絡，只是某種不同的算法。

主持人A:它將有一個獎勵。世界是什麼？

Rich Sutton:世界是我們與之互動的東西。我們向它發送比特，它向我們的眼睛等發送比特。

主持人A:但你指的是所有這一切，還是指某個構建的世界？

Rich Sutton:我認爲世界是被構建的，儘管……我們向世界發送比特，它向我們發送比特。我們從這個我們向其發送比特並從中接收比特的東西中理解世界

主持人A:所以你說的是任何世界？

Rich Sutton:任何世界，是的。

主持人A:能夠建立模型，轉移模型，這樣你就能計劃

Rich Sutton:如果你能計劃，並且你也能通過試錯學習，這就是我認爲的心智。

主持人A:如果你的預測是真的，就像你說的，我認爲你說的是到2030年有四分之一的機會。

Rich Sutton:到2040年有二分之一的機會。

主持人A:那意味着什麼？這將如何改變現狀？

Rich Sutton:我們將理解心智是如何工作的。這將幫助我們理解我們自己的心智。人工智能研究人員將在更詳細的層面上理解它，它將逐漸滲透到社會，滲透到世界的意識中。我們會感到不舒服，然後會逐漸適應。這將帶來技術變革，它將改變經濟。我不確定哪一個更重要，社會學上的還是技術上的。無論如何都會有很多技術變革，即使沒有理解心智也是如此。但我認爲這將真正改變我們，因爲它將……我們將更好地理解我們自己，這也許是重點。所以我認爲這將是非常深刻的，完全獨立於它對經濟的影響，它對地緣政治的影響。

主持人A:你認爲如果我們更好地理解它，它會影響我們教學的方式，我們教育人們的方式嗎？

Rich Sutton:是的，完全會。一個很大的變化將是增強。如果我們理解我們的大腦是如何工作的，那麼我們應該能夠添加比如更好的記憶力。我想被增強，我想更好地思考，我想數字基質相對於生物基質有很多優勢。所以我們可以變得更好，有很多事情因爲我們不知道自己是如何工作的而被阻礙了。正如我所說，理解心智與理解人類心智不同，與理解人類大腦不同，那將需要更長的時間。

主持人A:你是心理學家，你處於神經科學的邊緣，你如何看待像Neuralink這樣的腦機接口？

Rich Sutton::我的意思是，我看到了很多它們可以提供幫助的地方。我認爲我們離大多數人覺得這是他們想要的東西還很遠。我認爲這可能不是2040年的事情。

研究建議

主持人A:我想這是我們給你的最後一個問題：你對學生或其他嶄露頭角的研究人員有什麼關於研究的建議嗎？如何選擇研究方向，如何取得良好的進展？

Rich Sutton:是的，我想我有一些。準備一個研究筆記本，每天都寫，寫下你的想法，並思考你的想法，試着挑戰它們，讓它們變得更好。如果你想讓其他人對你所想的感興趣，那麼你應該首先自己關心它，你應該至少關心到把它寫下來，挑戰它，發展它，推進它。這是最重要的。我偶然發現了這個策略，它改變了我的整個軌跡。這真的很難做到，因爲它是一張白紙，你知道，你有什麼要說的？也許你對你正在想的事情感到困惑。一個有幫助的想法是，通常情況下，寫下你的想法的價值與它們的模糊和混亂程度成正比。

主持人A:價值與寫下它們的難度成正比。

Rich Sutton:如果你說：“我甚至不知道如何……我同時在想六件事，我不可能把這些寫下來。” 這就是當你寫下一些東西時，它將超級有價值的時候。

主持人A:這是你知道你真的想追求一個想法的方式嗎？這是一個標誌嗎？

Rich Sutton:不，這將是可怕的。你正試圖向自己解釋清楚你在想什麼。如果你想不出其他要寫的東西，就寫下“我認爲我腦子裡盤旋着的六個有趣的想法是什麼？” 然後把它們寫下來，一到六。然後說：“好吧，這就是全部嗎？還有第七個嗎？” “這六個中，有兩個真的是一樣的嗎？” 或者對這六件事中的每一件再寫一段，解釋你是什麼意思，向自己解釋你的想法是什麼。僅僅通過這樣做，你就會說：“現在，當我試圖解釋它時，這個想法就消失了。你知道，也許它什麼都不是。” 或者，也許它在你寫下它的時候成長和改變了。所有這些事情都會發生，所以重要的是堅持寫下去。試着每天寫一頁，不要太 stressed，但要定期寫下去。這是我的建議。

第二個建議是，你應該儘量對流行的東西保持中立。你知道，如果它流行或不流行，那不應該影響你，因爲如果它流行，那麼研究它會更容易，因爲人們會理解它，但它的價值會更低，因爲每個人都在做。所以你應該保持中立，選擇你認爲重要且可能富有成果的問題。

主持人A:你有什麼建議來決定我接下來應該做什麼嗎？

Rich Sutton:是的，所以就像我寫下這六件事，“我認爲這六件事很有趣”，然後解釋它們。然後我回過頭來說：“好吧，現在讓我們試着說，我現在可以研究哪一件？”

主持人A:如果有三件呢？

Rich Sutton:把它們寫下來，繼續下去，直到只剩下一件……

主持人A:哦，不，不

Rich Sutton:這是一個好問題。我並不是說你找到一件事就去做，你必須做一些事情，因爲這是研究，大多數事情不會馬上成功。

主持人A:聽起來你可能用過很多筆記本。

Rich Sutton:我大概有25本，在我停止使用實體筆記本的時候。現在我只是在我的MacBook上寫。

主持人A:你有沒有回去重溫它們？

Rich Sutton:不像你想的那麼頻繁。

主持人A:是的

Rich Sutton:但你確實會不時地這樣做。現在它都在電腦上，我可以搜索並更容易地找到這些東西

主持人A:我想我們就到這裡了，除非你還有什麼想談的，而我們沒有談到的。

Rich Sutton:非常感謝你給我這個機會。我學到了很多，並不都是舒服的，正如我們所指出的，但都很有趣。

主持人A:非常感謝你，Rich。

Rich Sutton:謝謝。

閱讀最新前沿科技研究報告，歡迎訪問歐米伽研究所的“未來知識庫”

未來知識庫是“ 歐米伽未來研究所”建立的在線知識庫平臺，收藏的資料範圍包括人工智能、腦科學、互聯網、超級智能，數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每週更新不少於100篇世界範圍最新研究資料。

截止到10月25日 ”未來知識庫”精選的100部前沿科技趨勢報告

強化學習之父Sutton最新萬字採訪：炮轟深度學習只是瞬時學習，持續學習纔是智能突破的關鍵

相關資訊